Thiết kế nền tảng AI đáng tin cậy: Kết hợp công cụ xác định và tác nhân khám phá

Aaron Erickson từ NVIDIA chia sẻ về sự chuyển dịch từ các quy trình AI dựa trên cảm tính sang việc xây dựng khung đa tác nhân đáng tin cậy. Bài viết đề cập đến việc kết hợp rào chắn phần mềm xác định với khả năng khám phá của AI, tối ưu hóa hệ thống phân cấp tác nhân và các bài học kinh nghiệm thực tế từ việc quản lý cơ sở hạ tầng GPU quy mô lớn.

Trong bối cảnh bùng nổ của trí tuệ nhân tạo, nhiều doanh nghiệp đang vội vàng tích hợp AI mà không cân nhắc kỹ lưỡng tính ổn định và hiệu quả thực tế. Tại hội nghị QCon AI, Aaron Erickson, người đứng đầu Applied AI Lab cho DGX Cloud tại NVIDIA, đã có bài thuyết trình mang tên "Designing AI Platforms for Reliability: Tools for Certainty, Agents for Discovery" (Thiết kế nền tảng AI đáng tin cậy: Công cụ cho sự chắc chắn, Tác nhân cho sự khám phá).

Thiết kế nền tảng AI

Erickson đã thảo luận về sự tiến hóa của các quy trình làm việc AI, chuyển dịch từ việc "kiểm tra dựa trên cảm tính" (vibe checking) sang việc xây dựng các khung đa tác nhân (multi-agent frameworks) đáng tin cậy. Ông nhấn mạnh tầm quan trọng của việc kết hợp các rào chắn phần mềm xác định (deterministic software guardrails) với khả năng khám phá của các tác nhân AI để đảm bảo kiến trúc hệ thống có thể mở rộng hiệu quả trong môi trường sản xuất.

Bài học từ dự án Llo11yPop tại NVIDIA

Một trong những ví dụ điển hình mà Erickson chia sẻ là dự án Llo11yPop – một hệ thống nội bộ của NVIDIA dùng để phân bổ GPU cho các sáng kiến nghiên cứu. Ông nhận thấy sự tương đồng thú vị giữa việc quản lý tài nguyên GPU và quản lý nhân sự trong phần mềm HR trước đây của ông.

Việc yêu cầu phân bổ GPU giống như yêu cầu thêm nhân sự (headcount), nhưng với chi phí đắt đỏ hơn nhiều (một cụm H100 có thể tốn hàng chục triệu đô la mỗi tháng). Từ đó, nhóm của ông đã xây dựng các "tác nhân truy xuất" (retrieval agents) để chuyển đổi câu hỏi thành lệnh gọi API và các "tác nhân phân tích" (analyst agents) để hiểu loại câu hỏi cần đặt ra.

Từ dự án này, họ rút ra những bài học quan trọng:

Bối cảnh hiếm (Rare context): AI thường gặp khó khăn với các thuật ngữ chuyên ngành hoặc tình huống hiếm gặp (ví dụ: "zombie nodes" trong cụm GPU). Giải pháp là xây dựng các lớp ngữ nghĩa (semantic layers) hoặc sử dụng RAG (Retrieval-Augmented Generation) để cung cấp bối cảnh này.
Làm phẳng lược đồ cơ sở dữ liệu: Khi xây dựng hệ thống text-to-SQL, việc để AI thực hiện các câu lệnh JOIN phức tạp thường dẫn đến sai sót. Thay vào đó, việc làm phẳng lược đồ dữ liệu giúp tăng độ chính xác từ khoảng 70% lên hơn 90%.
Lối thoát sang tính xác định: Khi cần độ tin cậy cao, hãy chuyển từ logic ngẫu nhiên của AI sang các hệ thống xác định (deterministic systems). Ví dụ, thay vì để AI viết mã để đếm GPU, hãy sử dụng các mẫu truy vấn có sẵn.

Các nguyên mẫu của Tác nhân AI (Agent Archetypes)

Erickson phân loại các tác nhân AI thành several archetypes khác nhau để áp dụng đúng bối cảnh:

Tác nhân công nhân (Worker Agents): Thực hiện một nhiệm vụ lặp đi lặp lại trên quy mô lớn. Ví dụ: kiểm tra từng cụm GPU để tìm dấu hiệu hỏng hóc quạt, tương tự như việc sơn thiết kế lên hàng ngàn viên đá trên bãi biển.
Tác nhân suy ngẫm (Ruminative Agents): Dành thời gian phân tích dữ liệu từ nhiều nguồn để tìm các mẫu hình hoặc sự cố chung mà không cần yêu cầu cụ thể, hoạt động giống như một bot "tư duy cả đêm".
Tác nhân quản lý cấp trung (Middle Manager Agents): Quản lý bối cảnh và điều phối các tác nhân khác để đạt được một chỉ số đo lường cụ thể, có thể khôi phục (rollback) nếu hành động không thành công.
Tác nhân tư vấn (Consultant Agents): Giám sát cách các tác nhân khác giao tiếp, kiểm tra ngôn ngữ thiên kiến hoặc các hành vi bất thường trong hệ thống.
Tác nhân chọn công cụ (Tool Selector Agents): Giúp chọn đúng công cụ cho đúng nhiệm vụ trong các hệ thống phức tạp, tránh tình trạng "quá tải lựa chọn" giống như việc nhìn vào thực đơn dài dằng dặc của một nhà hàng.

Công cụ cho sự chắc chắn, Tác nhân cho sự khám phá

Điểm cốt lõi trong triết lý của Erickson là: "Không phải mọi thứ đều cần AI". Ông đề xuất mô hình hai lớp cho nền tảng AI trong tương lai:

Lớp công cụ (Tools Layer): Gồm các phần mềm xác định (deterministic software). Đây là nơi các quy tắc, máy tính, sổ tay vận hành (runbooks) và các hệ thống giao dịch cũ kỹ nhưng ổn định hoạt động. Chúng cung cấp sự chắc chắn và tin cậy.
Lớp tác nhân AI (AI Agents Layer): Xử lý các yếu tố ngẫu nhiên (stochastic), mơ hồ và cần sự khám phá. Tác nhân AI sẽ diễn giải đầu vào không rõ ràng, phân loại vấn đề và định tuyến nó đến công cụ xác định phù hợp để xử lý.

Ví dụ, thay vì để AI tính toán phép chia phức tạp (dễ gây ảo giác), hãy dùng máy tính. Thay vì để AI tự nghĩ ra cách sửa lỗi DNS mỗi lần, hãy cung cấp cho nó một runbook xác định. Tuy nhiên, hãy dùng AI để phát hiện các mẫu hình bất thường mà con người có thể bỏ sót.

Đánh giá và các vấn đề phù hợp cho Agent

Để đảm bảo chất lượng, Erickson nhấn mạnh việc sử dụng "tháp đánh giá" (evaluation pyramid), tương tự như tháp kiểm thử phần mềm truyền thống. Các bài kiểm tra end-to-end tốn kém và ít hơn, trong khi các bài kiểm tra đơn lẻ cho từng LLM được chạy thường xuyên hơn. "Bạn không thể chỉ kiểm tra dựa trên cảm tính (vibe test), độ chính xác là rất quan trọng," ông khẳng định.

Vậy, vấn đề nào phù hợp để giải quyết bằng Agent?

Viên kim cương ngớ ngẩn (Dumb Diamonds): Các tác vụ đơn giản nhưng cần con người kiểm tra, ví dụ: xem báo cáo có được điền đúng form không.
Trình phân loại (Classifiers): LLM rất giỏi việc phân loại dữ liệu vào các danh mục có sẵn.
Trình tổ chức nội dung (Content Organizers): Tự động tóm tắt và định dạng lại các bản ghi họp hành theo cấu trúc mong muốn.
Trình kiểm tra quy mô lớn (Scaled Inspectors): Quét hàng triệu giao dịch hoặc cụm máy chủ để tìm các bất thường.
Người điều hướng ràng buộc (Constraint Navigators): Giải quyết các bài toán tối ưu hóa phức tạp với nhiều ràng buộc (như bài toán xếp bin hoặc cờ vua), nơi không thể tìm kiếm toàn bộ không gian giải pháp.

Erickson kết luận bằng lời khuyên: Hãy bắt đầu từ những kỹ năng nhỏ, có thể kết hợp (composable skills). Đừng quá tham vọng ngay từ đầu. AI không chỉ là LLM; nó bao gồm nhiều loại hình khác như mô hình nền tảng chuỗi thời gian (time-series foundation models) hay các giải thuật kiểu AlphaGo. Bằng cách kết hợp đúng các công cụ xác định và các tác nhân khám phá, chúng ta có thể xây dựng những hệ thống AI không chỉ thông minh mà còn đáng tin cậy trong môi trường sản xuất thực tế.