AI Agent: Đừng coi là đồng nghiệp, hãy nhúng chúng vào phần mềm để đạt hiệu quả tối đa

Bài viết lập luận rằng thay vì coi các tác nhân AI là những "đồng nghiệp" cần trò chuyện liên tục, chúng ta nên nhúng chúng sâu vào phần mềm. Bằng cách sử dụng các mẫu thiết kế như CLI, cấu hình khai báo và Change Data Capture (CDC), chúng ta có thể biến các tác nhân này thành công nghệ "tĩnh lặng", hoạt động ngầm hiệu quả hơn mà không gây tải nhận thức cho con người.

Hiện nay, phần mềm quản lý các tác nhân AI (agentic management software) đang trở thành một xu hướng nóng hổi. Từ những cái tên đầu tiên như Moltbot và OpenClaw, thị trường giờ đây đã xuất hiện nhiều đối thủ cạnh tranh như ZeroClaw, Hermes hay AutoGPT. Các hệ thống này hoạt động khá hiệu quả, cho phép người dùng huấn luyện và xây dựng các vòng lặp tác nhân tổng quát thực sự hữu ích. Tại Feldera, chúng tôi cũng vận hành khá nhiều tác nhân để hỗ trợ xem xét mã nguồn, khắc phục sự cố cho khách hàng và duy trì cơ sở hạ tầng.

Sự phát triển này khiến tôi nhớ đến một bài viết nổi tiếng của nhà khoa học máy tính Mark Weiser mang tên The Computer for the 21st Century (Máy tính của thế kỷ 21). Bài viết mở đầu bằng một nhận định sâu sắc:

"Những công nghệ sâu sắc nhất là những công nghệ biến mất. Chúng dệt mình vào tấm vải của cuộc sống thường nhật đến mức không thể phân biệt được chúng với cuộc sống đó." — Mark Weiser

Trong tầm nhìn của Weiser, công nghệ máy tính cần phải lùi vào hậu trường, nâng cao chất lượng cuộc sống mà không cần sự tương tác liên tục, giảm thiểu sự chú ý và trở nên bình yên, đáng tin cậy, dễ dự đoán.

Tuy nhiên, các tác nhân AI ngày nay, từ copilot đến chatbot, lại được thiết kế để bắt chước con người. Chúng có xu hướng giải thích hoặc tóm tắt mọi thứ, tạo ra những bức tường văn bản dày đặc, đòi hỏi sự tương tác qua lại, bắt chước sự hợp tác của con người bằng cách đặt câu hỏi làm rõ, và đôi khi hiểu sai hoặc giả định hiểu đúng rồi thực hiện sai lệch. Tất cả những điều này đòi hỏi một tải nhận thức (cognitive load) cao để con người tương tác, phân tích và quản lý. Rõ ràng, con người không phải là mục tiêu tốt cho "công nghệ tĩnh lặng".

Vậy giải pháp là gì?

Giải pháp không nằm ở việc viết các câu lệnh (prompt) thông minh hơn, mà là xây dựng phần mềm có thể gặp gỡ các tác nhân một nửa chặng đường. Lý tưởng nhất, sự thay đổi này nên diễn ra bên trong phần mềm hiện có, chứ không phải trong một "vườn thú" gồm các công cụ chạy tác nhân bên ngoài.

Nếu cung cấp các giao diện phù hợp, tác nhân sẽ bớt tính đối thoại hơn và trở nên "xung quanh" (ambient) hơn. Chúng không còn cần liên tục hỏi, giải thích, tóm tắt và đàm phán. Thay vào đó, chúng có thể ở lại hậu trường, phản ứng với các thay đổi và tiến bộ ổn định mà ít cần sự giám sát hay gây ra tiếng ồn hơn. Điều này gần hơn với tầm nhìn của Weiser: công nghệ tĩnh lặng, nhưng dành cho máy móc.

Vậy làm thế nào để tái cấu trúc phần mềm để hiện thực hóa điều này?

Một số mẫu thiết kế tác nhân rõ ràng giúp giảm thiểu sự ồn ào và tăng hiệu quả đã được thiết lập tốt:

CLI (Command Line Interface): Một giao diện dòng lệnh tốt giúp vòng lặp tác nhân dễ dàng tương tác với hệ thống của bạn và tiết kiệm token.
Specs (Thông số kỹ thuật): Các cấu hình khai báo, lược đồ (schemas), manifest. Đây là các tạo vật nêu rõ kết quả mong muốn, không phải các bước thực hiện.
Reconciliation loops (Vòng lặp hòa giải): Được phổ biến bởi Kubernetes, bạn khai báo trạng thái mục tiêu và để hệ thống liên tục hội tụ về trạng thái đó, đồng thời phát hiện nếu có sự sai lệch.

Kết hợp lại, đây là những mẫu hữu ích giúp phần mềm hiện tại tích hợp tốt hơn với các vòng lặp tác nhân, dẫn đến ít đối thoại hơn và nhiều sự hội tụ hơn. Đó là công nghệ tĩnh lặng dành cho máy móc.

Tuy nhiên, điều này đặt ra một câu hỏi: Những "mẫu phần mềm tác nhân" nào khác đang tồn tại nhưng chưa được biết đến rộng rãi?

Tác nhân và các cơ sở dữ liệu

Feldera là một công cụ truy vấn để xử lý dữ liệu gia tăng (incremental data processing). Chúng tôi đã tận dụng các mẫu trên: có giao diện CLI, sử dụng SQL để mô tả tính toán một cách khai báo và điều phối các pipeline thông qua một mặt phẳng điều khiển được xây dựng xung quanh việc hòa giải trạng thái mong muốn.

Một khía cạnh khác, đặc biệt liên quan khi tác nhân làm việc với dữ liệu nhưng ít được bàn luận, là cách dữ liệu được trình bày cho chúng. Hầu hết các hệ thống hiển thị các bảng, bảng điều khiển (dashboards), xuất khẩu CSV, v.v. Sau đó, các tác nhân phải thăm dò (poll), so sánh sự khác biệt (diff) và đoán xem điều gì đã thay đổi bằng cách chạy các truy vấn tốn kém.

Nhưng cơ sở dữ liệu có thể làm tốt hơn: Với Change Data Capture (CDC - Bắt dữ liệu thay đổi), hệ thống phát ra một luồng các bản cập nhật chính xác: chèn, cập nhật, xóa, mỗi cái gắn liền với một bản ghi cụ thể. Thay vì liên tục hỏi "trạng thái bây giờ là gì?", tác nhân sẽ nhận được thông tin "Điều này vừa thay đổi".

Hãy xem một ví dụ đơn giản về một tác nhân phát hiện gian lận giám sát các giao dịch. Trong mô hình snapshot (ảnh chụp nhanh), tác nhân phải định kỳ quét một bảng thanh toán lớn để tìm hoạt động đáng ngờ. Tùy thuộc vào độ phức tạp của câu hỏi và kích thước dữ liệu, điều này có thể chậm và tốn kém.

Với CDC, cơ sở dữ liệu phát ra các sự kiện như:

Giao dịch T123 được chèn: 9.800 USD từ tài khoản A sang B
Tài khoản A bị gắn cờ là rủi ro cao
Trạng thái giao dịch T123 được cập nhật thành chờ xem xét

...diễn ra liên tục khi chúng xảy ra.

Tác nhân chỉ phản ứng với các sự kiện này. Nó không cần phát hành các truy vấn dẫn đến việc đánh giá lại tốn kém. Nó không cần tính toán diffs. Nó nhận được chính xác thông tin quan trọng vào thời điểm quan trọng.

Đối với một công cụ gia tăng như Feldera, mô hình này là tự nhiên. Các truy vấn tạo ra các luồng thay đổi, không chỉ là kết quả tĩnh. Các thay đổi được tính toán gia tăng, khiến việc trả lời ngay cả những câu hỏi phức tạp nhất trở nên cực kỳ rẻ tiền.

Điều này được phản ánh trong các bản demo tác nhân của chúng tôi: Trong video, tác nhân có thể làm được nhiều hơn là chỉ theo dõi các quy tắc cố định. Nó đọc tin tức, xác định một mô hình gian lận mới và cập nhật pipeline để tìm kiếm nó. Sau đó, cơ sở dữ liệu sẽ làm điều nó giỏi nhất: liên tục đánh giá logic đó trên dữ liệu trực tiếp và phát ra các thay đổi khi các giao dịch đáng ngờ xuất hiện. Tác nhân đăng ký luồng đó và hành động. Nó có thể gắn cờ giao dịch, yêu cầu xác minh hoặc thông báo cho người xem xét.

Đó chính là điểm mấu chốt. Tác nhân và các luồng CDC kết hợp mạnh mẽ vì chúng phân chia công việc tốt đẹp. Tác nhân diễn giải thông tin mới và thích ứng logic. Công cụ áp dụng logic đó liên tục và phát ra các bản cập nhật chính xác khi có sự thay đổi.

AI Agent: Đừng coi là đồng nghiệp, hãy nhúng chúng vào phần mềm để đạt hiệu quả tối đa

Bài viết liên quan