Mặt trái của AI lập trình: Viết code xuất sắc nhưng "lạc trôi" trong môi trường thực tế

Các tác nhân AI hiện nay rất giỏi tạo ra code, nhưng thường thất bại khi hoạt động trong môi trường sản xuất thực tế do thiếu hiểu biết về "giàn giáo" (scaffolding). Bài viết phân tích lý do tại sao giai đoạn tiếp theo của phát triển AI cần tập trung vào việc nắm bắt ngữ cảnh thay vì chỉ sinh mã.

Khi các tác nhân AI (AI coding agents) không đạt được kỳ vọng, nguyên nhân hiếm khi là do "chúng tạo ra mã nguồn xấu". Thực tế, thất bại thường đến từ những yếu tố khác: trạng thái của môi trường, các quyết định ngầm định được "nướng" vào một tệp cấu hình từ ba năm trước, hay lý do tại sao một thư viện phụ thuộc lại bị chặn ở phiên bản cụ thể đó.

Gần đây, Joel Andrews đã công bố một bài đánh giá thực tế về các tác nhân lập trình AI. Không phải là một bài viết theo kiểu thổi phồng hay hạ thấp công nghệ, mà đó là ghi chép thực chiến từ một người trong cuộc về những điểm yếu nhất quán của các công cụ này trong môi trường production. Mô hình mà ông mô tả tương đồng với những gì Daniel Miessler đã chỉ ra trong bản tổng hợp AI tháng 4: Phần lớn những gì lập trình viên gọi là "công việc" thực chất là việc duy trì một trạng thái (state) mong manh và phức tạp để có thể bắt đầu làm việc. AI đã phơi bày điều này bằng cách vấp phải nó ngay lập tức.

Đây chính là ý nghĩa thực tế của thuật ngữ "giàn giáo" (scaffolding). Tác nhân AI của bạn có thể viết một hàm chính xác về mặt cú pháp. Tuy nhiên, nó không thể biết tại sao bộ test của bạn lại được cấu hình với một mock object cụ thể, hay tại sao biến môi trường A bị ghi đè ở môi trường staging nhưng lại không ở local. Ngữ cảnh đó nằm trong đầu các lập trình viên, trong các luồng trò chuyện trên Slack, và trong "bộ nhớ tổ chức" của người đã cài đặt nó vào năm 2022. Mô hình AI không có dữ liệu đó.

Cách nhìn nhận của Drew Breunig về "giai đoạn thứ hai của phát triển tác nhân" sẽ rõ ràng hơn dưới lăng kính này. Giai đoạn một là: AI có thể tạo ra code không? (Câu trả lời là: Hầu hết là có). Giai đoạn hai là: Tác nhân có thể vận hành tốt trong "giàn giáo" đủ để thực hiện một quy trình từ đầu đến cuối có ích không? Câu trả lời hiện tại là: Không ổn định và độ biến thiên rất cao. Phát triển dựa trên đặc tả (spec-driven development) không chỉ là một mánh khóe prompt engineering — đó là nỗ lực nhằm biến những "giàn giáo" bên ngoài thành thứ mà tác nhân có thể đọc được.

Điều đáng khích lệ là chúng ta đang có được những dữ liệu trung thực ngay bây giờ. Giai đoạn "trăng mật" nơi mọi thứ đều là bản demo và điểm chuẩn đang kết thúc. Các chuyên gia thực chiến đang viết về nơi nó hoạt động hiệu quả và nơi nó không, các chế độ thất bại đang trở nên cụ thể enough để có thể hành động.

Điều tiếp theo mà cộng đồng công cụ AI có thể xây dựng không phải là một trình tạo code tốt hơn. Đó là khả năng nắm bắt "giàn giáo" tốt hơn — các tệp ngữ cảnh có cấu trúc, hướng dẫn cho tác nhân, nhật ký quyết định mã hóa lý do tại sao cơ sở mã lại theo cách này. Những đội nhóm đang xây dựng lớp hạ tầng này hiện tại sẽ thu được lợi nhuận lớn hơn nhiều từ các tác nhân so với những đội nhóm vẫn coi chúng như một công cụ tự động hoàn thành nhanh (autocomplete).

Mặt trái của AI lập trình: Viết code xuất sắc nhưng "lạc trôi" trong môi trường thực tế

Bài viết liên quan