Claude Code giới thiệu tính năng /goals: Tách biệt tác nhân thực thi và bộ đánh giá để tăng độ tin cậy

Anthropic vừa tung ra tính năng /goals cho Claude Code nhằm giải quyết vấn đề các tác nhân AI thường tự kết thúc nhiệm vụ quá sớm. Tính năng này tách biệt mô hình thực thi công việc và mô hình đánh giá kết quả, đảm bảo nhiệm vụ chỉ được coi là hoàn thành khi thực sự đáp ứng các tiêu chí đã đặt ra.

Một tác nhân di chuyển mã nguồn (code migration agent) hoàn thành quá trình chạy và pipeline hiển thị trạng thái thành công. Tuy nhiên, nhiều phần mã chưa bao giờ được biên dịch — và phải mất vài ngày mới phát hiện ra lỗi này. Đó không phải là lỗi của mô hình, mà là do tác nhân quyết định rằng công việc đã xong dù thực tế chưa phải vậy.

Nhiều doanh nghiệp hiện nay nhận thấy rằng các pipeline tác nhân AI trong môi trường sản xuất thất bại không phải vì khả năng của các mô hình, mà vì mô hình đứng sau tác nhân quyết định dừng lại sớm. Một số phương pháp để ngăn chặn việc thoát nhiệm vụ sớm đã có sẵn từ LangChain, Google và OpenAI, mặc dù các phương pháp này thường dựa vào các hệ thống đánh giá riêng biệt. Phương pháp mới nhất đến từ Anthropic: /goals trên Claude Code, chính thức tách biệt việc thực thi nhiệm vụ và đánh giá nhiệm vụ.

Các tác nhân lập trình hoạt động trong một vòng lặp: chúng đọc tệp, chạy lệnh, chỉnh sửa mã và sau đó kiểm tra xem nhiệm vụ đã hoàn thành chưa. /goals của Claude Code về cơ bản thêm một lớp thứ hai vào vòng lặp đó. Sau khi người dùng xác định một mục tiêu, Claude sẽ tiếp tục hoạt động từng lượt, nhưng một mô hình đánh giá sẽ can thiệp sau mỗi bước để xem xét và quyết định xem mục tiêu đã đạt được hay chưa.

Sự tách biệt giữa hai mô hình

Các nền tảng điều phối (orchestration) từ cả ba nhà cung cấp đều xác định được cùng một trở ngại này. Tuy nhiên, cách tiếp cận của họ lại khác nhau. OpenAI giữ nguyên vòng lặp và để mô hình tự quyết định khi nào xong, nhưng cho phép người dùng gắn thêm các bộ đánh giá của riêng họ. Đối với LangGraph và Bộ công cụ phát triển tác nhân (Agent Development Kit) của Google, việc đánh giá độc lập là khả thi, nhưng yêu cầu các nhà phát triển phải xác định nút phê bình (critic node), viết logic kết thúc và cấu hình khả năng quan sát.

/goals của Claude Code đặt bộ đánh giá độc lập làm mặc định, bất kể người dùng muốn nó chạy dài hơn hay ngắn hơn. Về cơ bản, nhà phát triển đặt điều kiện hoàn thành mục tiêu thông qua một câu lệnh. Ví dụ, /goal tất cả các bài kiểm tra trong test/auth đều vượt qua và bước lint sạch sẽ. Claude Code sau đó sẽ chạy, và mỗi khi tác nhân cố gắng kết thúc công việc, mô hình đánh giá — mặc định là Haiku — sẽ kiểm tra dựa trên vòng lặp điều kiện. Nếu điều kiện không được đáp ứng, tác nhân sẽ tiếp tục chạy. Nếu điều kiện được đáp ứng, nó sẽ ghi lại điều kiện đã đạt được vào bản ghi cuộc hội thoại của tác nhân và xóa mục tiêu. Chỉ có hai quyết định mà bộ đánh giá đưa ra, đó là lý do mô hình Haiku nhỏ gọn hoạt động rất tốt trong vai trò này: xong hoặc chưa xong.

Claude Code thực hiện điều này bằng cách tách biệt mô hình cố gắng hoàn thành nhiệm vụ khỏi mô hình đánh giá đảm bảo nhiệm vụ thực sự đã hoàn thành. Điều này ngăn chặn tác nhân bị nhầm lẫn giữa những gì nó đã thực hiện và những gì vẫn cần làm. Với phương pháp này, Anthropic lưu ý rằng không cần nền tảng quan sát bên thứ ba — mặc dù các doanh nghiệp vẫn tự do sử dụng cùng với Claude Code — không cần nhật ký tùy chỉnh và ít phụ thuộc hơn vào việc phục dựng sau sự cố (post-mortem reconstruction).

Các đối thủ như Google ADK cũng hỗ trợ các mô hình đánh giá tương tự. Google ADK triển khai một LoopAgent, nhưng các nhà phát triển phải tự kiến trúc logic đó.

Trong tài liệu của mình, Anthropic cho biết các điều kiện thành công nhất thường bao gồm:

Một trạng thái kết thúc có thể đo lường được: kết quả kiểm tra, mã thoát của bản build (build exit code), số lượng tệp, một hàng đợi trống.
Một kiểm tra được nêu rõ: Claude nên chứng minh điều đó như thế nào, ví dụ: "npm test thoát với mã 0" hoặc "git status sạch sẽ".
Các ràng buộc quan trọng: bất cứ thứ gì không được thay đổi trên đường đi, ví dụ: "không có tệp kiểm tra nào khác bị sửa đổi".

Độ tin cậy trong vòng lặp

Đối với các doanh nghiệp đang quản lý các bộ công cụ khổng lồ, sức hấp dẫn nằm ở một bộ đánh giá tích hợp sẵn không thêm hệ thống nào khác để bảo trì.

Đây là một phần của xu hướng rộng lớn hơn trong không gian tác nhân (agentic space), đặc biệt là khi khả năng của các tác nhân có trạng thái (stateful), chạy dài hạn và tự học (self-learning agents) trở thành hiện thực. Các mô hình đánh giá, hệ thống xác minh và các hệ thống adjudication độc lập khác đang bắt đầu xuất hiện trong các hệ thống lý luận và, trong một số trường hợp, trong các tác nhân lập trình như Devin hoặc SWE-agent.

Sean Brownell, giám đốc giải pháp tại Sprinklr, cho biết trong một email gửi tới VentureBeat rằng có sự quan tâm đối với loại vòng lặp này, nơi nhiệm vụ và người đánh giá được tách biệt, nhưng ông cảm thấy không có gì độc đáo trong cách tiếp cận của Anthropic.

"Vâng, vòng lặp này hoạt động. Việc tách biệt người xây dựng và người đánh giá là một thiết kế âm thanh vì về cơ bản, bạn không thể tin tưởng một mô hình để tự chấm bài tập của mình. Mô hình đang thực hiện công việc là người đánh giá tồi nhất về việc liệu nó đã xong hay chưa," Brownell nói. "Tuy nhiên, điều đó nói rằng, Anthropic không phải là người đầu tiên ra mắt. Câu chuyện thú vị nhất ở đây là hai trong số các phòng thí nghiệm AI lớn nhất thế giới đã tung ra cùng một lệnh chỉ cách nhau vài ngày, nhưng mỗi bên lại đưa ra kết luận hoàn toàn khác nhau về ai được quyền tuyên bố 'đã xong'."

Brownell cho biết vòng lặp này hoạt động tốt nhất "đối với công việc xác định (deterministic work) có trạng thái kết thúc có thể xác minh như di chuyển dữ liệu, sửa các bộ kiểm tra bị hỏng, dọn dẹp các công việc tồn đọng", nhưng đối với các nhiệm vụ tinh tế hơn hoặc những nhiệm vụ cần phán đoán thiết kế, việc con người đưa ra quyết định đó quan trọng hơn nhiều.

Việc mang sự tách biệt đánh giá/nhiệm vụ đó xuống cấp độ vòng lặp tác nhân cho thấy các công ty như Anthropic đang đẩy các tác nhân và điều phối (orchestration) tiến xa hơn hướng tới một hệ thống có thể kiểm toán và quan sát được tốt hơn.

Claude Code giới thiệu tính năng /goals: Tách biệt tác nhân thực thi và bộ đánh giá để tăng độ tin cậy

Sự tách biệt giữa hai mô hình

Độ tin cậy trong vòng lặp

Bài viết liên quan