Guardrails cho AI Agent: Cơ chế "Steer" giúp tự sửa lỗi thay vì chặn đứng

Hầu hết các guardrails hiện nay chỉ hoạt động theo chế độ nhị phân: cho phép hoặc chặn. Agent Control giới thiệu cơ chế "steer", cho phép tác nhân AI nhận hướng dẫn sửa lỗi và tự hoàn thành nhiệm vụ mà không cần sự can thiệp của con người.

Hầu hết các guardrails (hàng rào bảo vệ) cho các tác nhân AI hiện nay chỉ làm một việc duy nhất: chặn. Khi tác nhân va phải một quy tắc, luồng công việc sẽ dừng lại và người dùng phải can thiệp. Agent Control thêm vào một tùy chọn thứ hai: steer (điều hướng) — tác nhân nhận được hướng dẫn sửa lỗi, tự khắc phục và hoàn thành nhiệm vụ mà không cần con người tác động.

Các guardrails cho tác nhân ngày nay hoạt động theo kiểu nhị phân: cho phép hoặc từ chối. Khi một tác nhân vi phạm chính sách, phản ứng điển hình là chặn hành động và hiển thị lỗi. Điều này hoạt động tốt với các hạn chế nghiêm ngặt (như tuân thủ PCI, chặn quy định), nhưng lại gây ma sát trong các quy tắc mà tác nhân có thể tự giải quyết: điều chỉnh tham số, ẩn dữ liệu nhạy cảm hoặc định dạng lại đầu ra.

Agent Control là một lớp điều khiển thời gian chạy mã nguồn mở, đánh giá đầu vào và đầu ra của tác nhân dựa trên các chính sách được quản lý trên máy chủ. Nó tích hợp với Strands dưới dạng một Plugin, nhưng có hai điểm khác biệt chính so với các Hooks truyền thống:

Các quy tắc nằm trên máy chủ — có thể sửa đổi qua API hoặc dashboard mà không cần chạm vào mã nguồn của tác nhân.
Các điều khiển steer trả về Guide() thay vì chặn — tác nhân sẽ thử lại với hướng dẫn sửa lỗi.

Vấn đề: Chặn đứng làm gián đoạn quy trình

Các Strands Hooks áp dụng quy tắc ở cấp độ công cụ (tool). Khi tác nhân gọi book_hotel(guests=15) trong khi tối đa là 10, hook sẽ thiết lập cancel_tool và tác nhân nhận được thông báo chặn. Quy trình dừng lại. Người dùng phải phản hồi. Đối với một trợ lý đặt phòng xử lý hàng trăm yêu cầu, mỗi thao tác bị chặn là một điểm ma sát không cần thiết.

Giải pháp: Steer thay vì Block

Agent Control đánh giá đầu ra của LLM so với các điều khiển được định nghĩa trên máy chủ. Khi LLM tạo ra một đầu ra đề cập đến "15 khách", AgentControlSteeringHandler sẽ đánh giá nó:

LLM tạo ra: "Tôi sẽ đặt Grand Hotel cho 15 khách..."
Agent Control đánh giá đầu ra của LLM -> regex khớp với "15 khách".
Điều khiển steer được kích hoạt -> trả về Guide("giảm xuống 10, thông báo cho người dùng").
LLM thử lại với hướng dẫn -> gọi book_hotel(guests=10).
Đặt phòng hoàn tất -> thông báo cho người dùng về điều chỉnh.

Agent Control steer flow

Tác nhân trả lời: "Sức chứa tối đa của Grand Hotel là 10 khách, vì vậy tôi đã điều chỉnh đặt phòng tương ứng. Mã đặt phòng: BK002."

Không cần can thiệp của người dùng. Không cần thử lại thủ công. Quy trình đã hoàn tất.

So sánh: Hooks và Agent Control

Chúng ta hãy so sánh hai cách tiếp cận trên cùng một kịch bản đặt phòng.

Hooks vs Agent Control comparison

Cả hai đều áp dụng cùng một quy tắc (tối đa 10 khách). Sự khác biệt nằm ở những gì xảy ra khi quy tắc bị vi phạm — không phải cách tiếp cận nào "tốt hơn".

Test 1 — Hooks (cancel_tool): Nhanh hơn (~4s) nhưng BỊ CHẶN — tác nhân yêu cầu người dùng điều chỉnh.
Test 2 — Agent Control (steer): Chậm hơn một chút do độ trễ (~6s) nhưng TỰ SỬA LỖI — đặt phòng hoàn tất với 10 khách.

Hooks nhanh hơn và đơn giản hơn (Python thuần, không có máy chủ). Agent Control thêm độ trễ (steer -> thử lại) nhưng hoàn thành quy trình mà không cần người dùng can thiệp.

Khi nào nên sử dụng phương pháp nào?

Hai phương pháp này bổ sung cho nhau, không cạnh tranh.

Hooks (block): Tốt nhất cho các quy tắc PHẢI chặn nghiêm ngặt — không có phương án thay thế (ví dụ: thanh toán trước khi xác nhận, tuân thủ PCI).
Agent Control (steer): Tốt nhất cho các quy tắc mà tác nhân CÓ THỂ tự sửa lỗi — điều chỉnh tham số, ẩn PII, sửa định dạng.
Agent Control (deny): Tương tự như hooks nhưng được quản lý trên máy chủ — thay đổi quy tắc mà không cần triển khai lại mã.

Nhiều hệ thống trong môi trường sản xuất sử dụng cả hai: Hooks cho các quy tắc tuân thủ nghiêm ngặt, và Agent Control (steer) cho các quy tắc linh hoạt nơi việc tự sửa lỗi được ưu tiên.

Kết luận

Agent Control mang lại một cách tiếp cận linh hoạt hơn cho việc quản lý các tác nhân AI. Thay vì dừng lại mọi khi có lỗi, cơ chế "steer" cho phép hệ thống tự điều chỉnh và tiếp tục, giảm thiểu sự gián đoạn cho người dùng cuối trong khi vẫn đảm bảo các quy tắc kinh doanh được tuân thủ.