Xây dựng AI Agents bền vững: Bài học từ quá khứ để vượt qua chu kỳ Hype

Aditya Kumarakrishnan chia sẻ cách vượt qua giai đoạn "mất trí nhớ" của AI bằng cách xây dựng các khung agent mô-đun sử dụng CoALA, tận dụng khoa học quy trình và "terraform" môi trường hệ thống để xử lý các yêu cầu phức tạp và khó lường.

Tại hội nghị QCon AI, Aditya Kumarakrishnan, Technical Fellow tại Walmart Global Tech, đã có bài trình bày sâu sắc về việc xây dựng các hệ thống AI Agent (tác nhân AI). Ông lập luận rằng cộng đồng công nghệ hiện đang trải qua "giai đoạn mất trí nhớ" (amnesia phase), nơi chúng ta lặp lại những sai lầm của các chu kỳ trước đó thay vì xây dựng trên những nền tảng vững chắc đã được chứng minh.

QCon AI Presentation

Theo Kumarakrishnan, để tạo ra các hệ thống agent có khả năng tồn tại qua thời gian, chúng ta cần quay lại với các nguyên lý cơ bản và áp dụng bốn ý tưởng lớn từ quá khứ nhưng vẫn cực kỳ phù hợp với tương lai.

Tại sao AI Agents là sự tất yếu?

Khái niệm Agent không phải là mới mẻ. Nó nằm ở trọng tâm của dự án máy tính kể từ thời Alan Turing. Sự trỗi dậy của AI Agents thực chất là sự hội tụ của năm xu hướng công nghệ chính trong 50 năm qua: tính phổ biến (ubiquity), sự kết nối (interconnection), định hướng con người (human orientation), ủy quyền (delegation) và trí thông minh (intelligence).

Khi chúng ta ủy nhiệm các nhiệm vụ ngày càng phức tạp cho hệ thống máy tính ở mức độ kết nối cao và định hướng con người, khái niệm Agent trở thành một mô hình tất yếu. Tuy nhiên, thách thức nằm ở việc hiện thực hóa nó đúng cách.

1. Tiếp nhận một khái niệm Agent mạnh mẽ hơn

Bước đầu tiên là giải phóng Agent khỏi sự phụ thuộc hoàn toàn vào Mô hình Ngôn ngữ Lớn (LLM). Nhiều người hiện nay định nghĩa Agent chỉ đơn giản là một LLM trong một vòng lặp phản hồi với môi trường. Tuy nhiên, định nghĩa này quá hẹp và mang tính triển khai (implementation-oriented).

Thay vào đó, chúng ta nên xem Agent như một công cụ trừu tượng hóa tính toán đa năng, đặt con người làm trung tâm. Khi coi Agent là một công cụ phân tích hệ thống, chúng ta chuyển trọng tâm từ việc "làm thế nào để xây dựng" sang "vấn đề cần giải quyết là gì". Cách tư duy này giúp hệ thống "tương lai-proof" (kháng thay đổi), không bị đào thải khi một công nghệ mới xuất hiện thay thế LLM.

2. Xây dựng Agent mô-đun và có thể mở rộng

Một trong những vấn đề lớn nhất hiện nay là sự thiếu mô-đun trong kiến trúc Agent. Sự tiến hóa từ Chain of Thought sang ReAct, rồi đến CodeAct thường đòi hỏi các kỹ sư phải viết lại toàn bộ hệ thống (rewrite) từ đầu vì mỗi kiến trúc mới được xử lý như một dự án riêng biệt (bespoke).

CoALA Architecture

Để giải quyết vấn đề này, Kumarakrishnan đề xuất sử dụng CoALA (Cognitive Architecture for Language Agents). Đây là một kiến trúc nhận thức chia nhỏ Agent thành các thành phần phụ xác định rõ ràng như bộ nhớ (memory) và không gian hành động (action space).

Trong CoALA, LLM chỉ đóng vai trò là bộ nhớ quy trình ngầm định (implicit procedural memory). Khi muốn chuyển đổi từ ReAct sang CodeAct, ta chỉ cần thay đổi module không gian hành động (từ gọi công cụ JSON sang sandbox code) mà không ảnh hưởng đến các phần khác. Điều này cho phép hệ thống tiến hóa một cách linh hoạt mà không cần phá vỡ cấu trúc tổng thể.

3. Học hỏi và tận dụng Khoa học Quy trình (Process Science)

Để các Agent tạo ra giá trị kinh tế thực tế, chúng cần thực hiện các quy trình dài, phức tạp và đa bước. Đây là lúc chúng ta cần nhìn vào "Khoa học quy trình" – một lĩnh vực đã tồn tại hàng thập kỷ.

Thay vì phát minh lại bánh xe với các ngôn ngữ DSL tùy chỉnh (như LangGraph hay Google ADK đang làm), chúng ta nên tận dụng các công cụ Workflow Engine hiện có. Khoa học quy trình cung cấp các khái niệm quan trọng như:

Bộ nhớ quy trình (Procedural Memory): Hướng dẫn Agent cách thực hiện một nhiệm vụ cụ thể (ví dụ: cách gửi email hoặc phân tích dữ liệu).
Quy trình linh hoạt (Flexible Processes): Sử dụng các khái niệm như "ad-hoc subprocess" cho phép Agent linh hoạt trong việc quyết định thứ tự và số lần thực hiện các công cụ, thay vì bị ràng buộc bởi một chuỗi cố định.
Process Mining: Khám phá và hiểu các quy trình hiện có trong doanh nghiệp từ dữ liệu sự kiện (event logs) để Agent có thể thực thi chúng chính xác.

Việc sử dụng các Workflow Engine trưởng thành giúp cung cấp độ bền bền (durability), khả năng mở rộng và xử lý bất đồng bộ (asynchrony) mà các framework Agent hiện tại thường phải tự xây dựng lại một cách kém hiệu quả.

4. "Terraform" môi trường cho Agents

Ý tưởng cuối cùng và có lẽ là quan trọng nhất là "Terraform" (định hình lại) môi trường mà Agent hoạt động. Một Agent có khả năng nhất cũng chỉ hiệu quả bằng môi trường mà nó hoạt động. Hiện tại, chúng ta thường chỉ thêm một lớp giao diện MCP (Model Context Protocol) lên các API cũ kỹ và mong đợi Agent thành công.

Tuy nhiên, Agents có những đặc điểm khác biệt so với các dịch vụ web truyền thống: chúng là siêu đa khách hàng (hyper-tenancy), khó lường (unpredictable) và đa chức năng (cross-functional). Môi trường kỹ thuật số hiện tại không được thiết kế để chịu đựng tải trọng này.

Giải pháp nằm ở việc sử dụng Artifacts thay vì chỉ là Tools.

Tools chỉ là các hàm mà Agent có thể gọi, thường không trạng thái và thiếu khả năng kiểm toán.
Artifacts là các thực thể môi trường hạng nhất. Chúng cung cấp các trừu tượng hóa cấp cao hơn, hướng dẫn vận hành và quan trọng nhất là cung cấp khả năng quản trị (governance) và kiểm toán (auditability).

Ví dụ, một "Boundary Artifact" có thể được triển khai dưới dạng thực thể dựa trên sự kiện (event-sourced entity). Khi một Agent yêu cầu tạo đơn mua hàng, Artifact này sẽ ghi lại yêu cầu trong một luồng sự kiện bất biến. Điều này cho phép theo dõi chính xác ai đã làm gì, áp dụng các chính sách giới hạn và giải quyết xung đột giữa hàng nghìn Agent khác nhau mà không làm ảnh hưởng đến các dịch vụ gốc bên dưới.

Kết luận

Để xây dựng các hệ thống AI Agent bền vững vượt qua chu kỳ Hype, các kỹ sư và nhà lãnh đạo công nghệ cần:

Coi Agent là một trừu tượng hóa giải quyết vấn đề, không chỉ là LLM trong vòng lặp.
Xây dựng Agent theo kiến trúc mô-đun (như CoALA) để dễ dàng thích nghi với sự thay đổi của mô hình.
Tận dụng nền tảng của Khoa học Quy trình và Workflow Engine thay vì tạo ra các DSL mới.
Đầu tư vào việc định hình lại môi trường hệ thống (Terraforming) với các Artifacts thông minh để hỗ trợ đặc tính siêu đa khách hàng và khó lường của Agents.

Những ý tưởng này không hề mới, nhưng chúng là những nền tảng vững chắc giúp chúng ta xây dựng tương lai của AI một cách bài bản và hiệu quả.