Anthropic công bố thiết kế ba tác nhân hỗ trợ phát triển Full-stack AI tự chủ dài hạn

Anthropic giới thiệu hệ thống ba tác nhân mới bao gồm lập kế hoạch, tạo mã và đánh giá, giúp cải thiện quy trình phát triển ứng dụng AI tự chủ kéo dài hàng giờ đồng hồ. Cách tiếp cận này giải quyết vấn đề mất ngữ cảnh và nâng cao chất lượng đầu ra thông qua việc tách biệt chức năng đánh giá. Giải pháp được thiết kế để hỗ trợ cả thiết kế giao diện và phát triển phần mềm full-stack.

Anthropic đã giới thiệu một thiết kế hệ thống đa tác nhân (multi-agent harness) mới được thiết kế để hỗ trợ quá trình phát triển ứng dụng tự động kéo dài, nhắm đến cả thiết kế giao diện frontend và tạo dựng phần mềm full-stack. Phương pháp mới này phân chia các nhiệm vụ cho các tác nhân riêng biệt chịu trách nhiệm về lập kế hoạch, tạo mã và đánh giá, nhằm duy trì tính mạch lạc và cải thiện chất lượng đầu ra trong các phiên làm việc của AI kéo dài nhiều giờ.

Thiết kế này tập trung giải quyết các thách thức phổ biến trong quy trình mã hóa tự chủ, đặc biệt là tình trạng mất ngữ cảnh (context loss) và việc kết thúc nhiệm vụ quá sớm. Các kỹ sư tại Anthropic đã triển khai việc đặt lại ngữ cảnh cùng với các cấu trúc chuyển giao (handoff artifacts), cho phép tác nhân tiếp theo trong quy trình tiếp tục từ một trạng thái được xác định rõ ràng.

Khác với phương pháp nén ngữ cảnh (compaction) — vốn giúp bảo toàn ngữ cảnh nhưng có thể khiến các mô hình trở nên thận trọng khi tiếp cận giới hạn ngữ cảnh và ảnh hưởng đến hiệu suất trong các nhiệm vụ mở rộng — cách tiếp cận của Anthropic sử dụng các dữ liệu chuyển giao cấu trúc để duy trì thông tin quan trọng mà không gây áp lực lên bộ nhớ của mô hình.

Một trọng tâm khác của dự án là khả năng tự đánh giá đầu ra. Các tác nhân thường đánh giá quá cao kết quả của mình, đặc biệt là đối với các nhiệm vụ mang tính chủ quan như thiết kế. Để khắc phục điều này, Anthropic đã giới thiệu một tác nhân đánh giá riêng biệt, được hiệu chuẩn với các ví dụ few-shot và tiêu chí chấm điểm cụ thể.

Prithvi Rajasekaran, trưởng nhóm kỹ thuật tại Anthropic Labs, nhận định:

Việc tách biệt tác nhân thực hiện công việc và tác nhân đánh giá công việc đó được chứng minh là một đòn bẩy mạnh mẽ để giải quyết vấn đề này.

Đối với thiết kế frontend, nhóm đã thiết lập bốn tiêu chí chấm điểm: chất lượng thiết kế, tính độc đáo, sự chỉn chu (craft) và tính năng. Tác nhân đánh giá sẽ điều hướng các trang trực tiếp, tương tác với giao diện bằng cách sử dụng Playwright MCP và cung cấp các bài đánh giá chi tiết để hướng dẫn tác nhân tạo mã trong các chu trình lặp lại.

Mỗi chu trình tạo ra các đầu ra được tinh chỉnh dần dần. Số lần lặp lại dao động từ năm đến mười lăm lần cho mỗi lần chạy, đôi khi mất tới bốn giờ, để tạo ra các thiết kế kết hợp giữa sự khác biệt về mặt hình ảnh và độ chính xác về chức năng.

Các chuyên gia trong ngành đã nhấn mạnh tính cấu trúc của khung công việc này. Artem Bredikhin viết trên LinkedIn rằng:

Các tác nhân AI chạy dài hạn thất bại vì một lý do đơn giản: mọi cửa sổ ngữ cảnh mới đều là chứng quên. Sự đột phá ở đây nằm ở cấu trúc: thông số kỹ thuật tính năng bằng JSON, kiểm thử bắt buộc, tiến độ commit-by-commit, và một script khởi tạo đảm bảo mọi phiên bắt đầu bằng một ứng dụng đang hoạt động.

Một quan sát viên khác, Raghus Arangarajan, cũng bình luận trên LinkedIn:

Khung ba tác nhân cung cấp quy trình làm việc có thể lặp lại cho các phiên kéo dài nhiều giờ đồng hồ và đảm bảo rằng đánh giá và lặp lại được tách biệt khỏi quá trình tạo mã, từ đó cải thiện độ tin cậy tổng thể và chất lượng đầu ra.

Các kỹ sư tại Anthropic đã áp dụng khung này trên các loại nhiệm vụ khác nhau để đánh giá sự cải thiện hiệu suất. Họ quan sát thấy rằng việc tách biệt lập kế hoạch, tạo mã và đánh giá cho phép xử lý tốt hơn các đánh giá mang tính chủ quan trong khi vẫn duy trì tính khả tái tạo ở các nhiệm vụ khách quan. Quy trình làm việc đa tác nhân có cấu trúc cũng tạo điều kiện thuận lợi cho sự tiến bộ gia tăng trong các phiên chạy dài hạn bằng cách xác định rõ trách nhiệm và điểm chuyển giao giữa các tác nhân.

Về mặt vận hành, các nhóm cần thiết lập tiêu chí đánh giá và hiệu chỉnh cơ chế chấm điểm trong khi giám sát đầu ra lặp lại. Các tác nhân thực hiện đánh giá tự động, nhưng sự giám sát của con người vẫn quan trọng để hiệu chuẩn ban đầu và xác thực chất lượng. Quy trình làm việc này hỗ trợ xử lý phân tán các nhiệm vụ và cho phép nhiều tác nhân chạy song song hoặc tuần tự tùy thuộc vào sự phụ thuộc của dữ liệu.

Khi các mô hình AI ngày càng cải thiện, vai trò của hệ thống khung này có thể thay đổi, với một số nhiệm vụ được xử lý trực tiếp bởi các mô hình thế hệ tiếp theo. Tuy nhiên, các mô hình cải thiện cũng cho phép các hệ thống khung giải quyết được những công việc phức tạp hơn. Các kỹ sư nên thử nghiệm, giám sát các dấu vết (traces), phân tích nhiệm vụ và điều chỉnh hệ thống, vì không gian các kết hợp hệ thống khung sẽ tiếp tục phát triển cùng với khả năng của mô hình.

Anthropic công bố thiết kế ba tác nhân hỗ trợ phát triển Full-stack AI tự chủ dài hạn

Bài viết liên quan