Xây dựng hệ thống RAG phân cấp đa tác tử: Lý luận đa phương thức với khả năng tự phục hồi lỗi

Bài viết này khám phá cách các hệ thống RAG phân cấp đa tác tử phối hợp các công nhân chuyên biệt để cải thiện độ chính xác và độ tin cậy trong quy trình phân tích doanh nghiệp phức tạp. Sử dụng Protocol-H làm ví dụ triển khai, tác giả chứng minh cách định tuyến xác định và cơ chế thử lại phản chiếu hỗ trợ thực thi truy vấn đa nguồn an toàn hơn, giảm thiểu đáng kể các lỗi ảo (hallucinations).

Trong bối cảnh chuyển đổi số hiện nay, các nhóm AI doanh nghiệp đang đối mặt với một thách thức dai dẳng: Hầu hết các hệ thống Truy xuất Tăng cường (Retrieval-Augmented Generation - RAG) truyền thống đều hoạt động tốt ở một trong hai lĩnh vực — truy vấn dữ liệu có cấu trúc (SQL) hoặc tìm kiếm tài liệu — nhưng thường gặp khó khăn khi phải kết hợp cả hai đồng thời.

Vấn đề này, được gọi là "khoảng cách phương thức" (modality gap), dẫn đến việc các nhà phân tích tài chính hoặc kinh doanh thường nhận được câu trả lời thiếu sót. Ví dụ, khi hỏi "Tại sao hoạt động tại Châu Âu kém hiệu quả?", một hệ thống RAG thông thường có thể chỉ trả về dữ liệu doanh thu mà thiếu bối cảnh quy định, hoặc chỉ đưa ra các báo cáo thị trường mà không có sự xác thực bằng định lượng.

Bài viết này đi sâu vào các mẫu kiến trúc để giải quyết vấn đề đó thông qua điều phối đa tác tử phân cấp (hierarchical multi-agent orchestration), sử dụng Protocol-H làm ví dụ tham chiếu để minh họa các khái niệm này trong thực tế.

Kiến trúc Protocol-H

Kiến trúc giải pháp phân cấp đa tác tử

Protocol-H giới thiệu kiến trúc theo mô hình Giám sát viên - Công nhân (Supervisor-Worker), lấy cảm hứng từ phân cấp tổ chức và cách con người giải quyết vấn đề. Cũng giống như các quản lý giao nhiệm vụ phân tích chuyên biệt cho các chuyên gia dữ liệu (SQL) và nhà nghiên cứu (tài liệu) trước khi tổng hợp thông tin, tác nhân giám sát (supervisor) sẽ phân tách các truy vấn phức tạp, trong khi các công nhân (worker) thực hiện các nhiệm vụ cụ thể theo từng loại dữ liệu.

Tác nhân Giám sát viên: Bộ điều phối siêu nhận thức

Giám sát viên đóng vai trò là "bộ não" lý luận của hệ thống. Thay vì tự thực hiện truy vấn, nó đóng vai trò là giám đốc chiến lược với các trách nhiệm cốt lõi:

Phân tích truy vấn: Xác định xem câu hỏi yêu cầu SQL, tìm kiếm ngữ nghĩa, hay cả hai.
Phân rã nhiệm vụ: Chia nhỏ các truy vấn phức tạp thành các bước nguyên tử (ví dụ: "Tìm tất cả khách hàng ở Châu Âu, sau đó truy xuất vé hỗ trợ của họ, rồi tương quan với dữ liệu rời bỏ").
Định tuyến công nhân: Quyết định công nhân nào sẽ thực hiện tiếp theo dựa trên nhiệm vụ và trạng thái hiện tại.
Tổng hợp kết quả: Kết hợp đầu ra của các công nhân thành một câu trả lời cuối cùng mạch lạc.

Công nhân SQL: Động cơ truy vấn nhận biết lược đồ

Công nhân SQL chuyên về lý luận xác định và có cấu trúc. Một tính năng quan trọng là Schema Introspection (Nội quan lược đồ): Công nhân này tự động khám phá các bảng và cột thông qua API siêu dữ liệu cơ sở dữ liệu (ví dụ: INFORMATION_SCHEMA). Các mối quan hệ được xác định thông qua các ràng buộc khóa ngoại hoặc suy luận heuristic dựa trên quy tắc đặt tên cột.

Để giảm thiểu rủi ro chính xác từ các mối quan hệ được suy luận, hệ thống sử dụng chấm điểm độ tin cậy. Các kết quả khớp heuristic có độ tin cậy thấp sẽ bị loại bỏ để đảm bảo tính chính xác của câu lệnh SQL được tạo ra.

Khôi phục lỗi tự chủ (Autonomous Error Recovery)

Một trong những đóng góp lớn nhất của Protocol-H là cơ chế khôi phục lỗi thông qua "thử lại phản chiếu" (reflective retry). Thay vì để lỗi lan truyền thành câu trả lời ảo giác, hệ thống có thể phát hiện và sửa chữa các lỗi của tác nhân.

Cơ chế Reflective Retry

Khi một truy vấn SQL thất bại (ví dụ: lỗi cú pháp, không khớp lược đồ), một nút đặc biệt sẽ phân tích thông báo lỗi và đề xuất cách sửa chữa. Quá trình này bao gồm:

Phân tích lỗi (ví dụ: tên bảng bị sai chính tả, cú pháp JOIN không đúng).
LLM đề xuất một câu lệnh SQL đã sửa hoặc một chiến lược thay thế.
Thực hiện lại truy vấn với thông tin đã được điều chỉnh.

Cơ chế này liên quan đến việc giảm khoảng 60% tỷ lệ ảo giác so với các hệ thống RAG tiêu chuẩn (từ 28,5% xuống còn 7,1%), nhờ bắt và sửa lỗi trước khi chúng ảnh hưởng đến bước tạo câu trả lời cuối cùng.

Triển khai và tích hợp: Quyết định kiến trúc

Quản lý trạng thái với LangGraph

Protocol-H sử dụng StateGraph của LangGraph để điều phối quy trình công việc xác định. Điều này đảm bảo rằng luồng điều khiển (các nút được truy cập và thứ tự của chúng) luôn tuân theo cùng một đường dẫn cho cùng một đầu vào. Điều này rất quan trọng cho việc kiểm toán và tuân thủ quy định trong môi trường doanh nghiệp.

Bộ chuyển đổi cơ sở dữ liệu không phụ thuộc đám mây

Sử dụng mẫu Adapter (Bộ chuyển đổi), Protocol-H trừu tượng hóa các chi tiết cụ thể của cơ sở dữ liệu. Điều này cho phép các nhóm thay thế phần phụ trợ cơ sở dữ liệu (Snowflake, Redshift, BigQuery) mà không cần sửa đổi logic điều phối. Mỗi bộ kết nối xử lý các khác biệt về phương ngữ (ví dụ: định danh viết hoa trong Snowflake, pg_catalog trong Redshift) nội bộ, đảm bảo các tác nhân tương tác với một giao diện chuẩn hóa.

Kết quả Benchmark

Protocol-H đã được đánh giá trên chuẩn điểm EntQA — một tập hợp gồm 200 câu hỏi doanh nghiệp yêu cầu lý luận đa bước (multi-hop) trên cả dữ liệu SQL và tài liệu.

So sánh hiệu suất

Các kết quả cho thấy sự vượt trội rõ rệt của kiến trúc phân cấp so với các tác tử phẳng (flat agent) hoặc RAG tiêu chuẩn:

Độ chính xác (Tier 3 - Câu hỏi đa bước phức tạp): Protocol-H đạt 84,5%, so với 62,8% của tác tử phẳng và 45,2% của RAG tiêu chuẩn.
Tỷ lệ ảo giác: Protocol-H chỉ ở mức 7,1%, thấp hơn nhiều so với 18,2% (tác tử phẳng) và 28,5% (RAG tiêu chuẩn).
Độ trễ: Mặc dù có độ trễ p95 là 2,1 giây (chậm hơn do nhiều bước lý luận hơn), nhưng đây là sự đánh đổi chấp nhận được đối với các khối lượng công việc phân tích doanh nghiệp, nơi chất lượng quyết định quan trọng hơn tốc độ tuyệt đối.

Thách thức và Giải pháp khi triển khai sản xuất

Sự trôi dạt của lược đồ (Schema Drift)

Cơ sở dữ liệu doanh nghiệp thường xuyên thay đổi. Protocol-H giải quyết vấn đề này thông qua xác thực lược đồ định kỳ và xử lý lỗi khéo léo. Khi gặp lỗi "cột không xác định", công nhân sẽ thực hiện so khớp mờ (fuzzy match) với lược đồ hiện tại để đề xuất cột thay thế (ví dụ: phát hiện profit_margin đã được đổi tên thành net_margin).

Quản lý chi phí

Việc gọi LLM cho mỗi tác nhân có thể tích lũy chi phí lớn. Để quản lý chi phí, bài viết đề xuất sử dụng các mô hình nhanh hơn và rẻ hơn cho các quyết định định tuyến (ví dụ: GPT-4o mini cho giám sát viên), đồng thời lưu kết quả lý luận vào bộ nhớ đệm (cache) cho các truy vấn giống hệt nhau.

Kết luận

Khoảng cách phương thức giữa dữ liệu có cấu trúc và phi cấu trúc trong các hệ thống RAG doanh nghiệp không phải là một hạn chế kỹ thuật, mà là một thách thức về điều phối. Protocol-H chứng minh rằng các hệ thống đa tác tử phân cấp với khả năng khôi phục lỗi tự chủ có thể đạt được độ chính xác, an toàn và khả năng kiểm toán cấp doanh nghiệp.

Bằng cách tách biệt mối quan tâm (điều phối giám sát viên so với chuyên môn hóa công nhân) và triển khai các cơ chế thử lại phản chiếu, các nhóm có thể xây dựng các hệ thống tác nhân lý luận đáng tin cậy trên dữ liệu doanh nghiệp không đồng nhất, đồng thời duy trì các yêu cầu về tính xác định và tuân thủ.

Đối với các nhóm đang xây dựng hệ thống tác nhân doanh nghiệp, thông điệp cốt lõi rất đơn giản: Hãy điều phối trước khi ủy quyền, chuyên môn hóa trước khi khái quát hóa, và khôi phục lỗi trước khi lan truyền sai sót.