RecursiveMAS: Khung khối giúp hệ thống AI đa tác nhân nhanh hơn 2.4 lần và giảm 75% chi phí token

Các hệ thống AI đa tác nhân hiện nay thường gặp khó khăn về độ trễ và chi phí do giao tiếp qua văn bản. RecursiveMAS, một khung khối mới từ Đại học Illinois và Stanford, giải quyết vấn đề này bằng cách cho phép các tác nhân hợp tác trong không gian nhúng thay vì tạo văn bản. Kết quả cho thấy khung khối này giúp tăng tốc độ suy luận lên 2.4 lần, giảm 75% việc sử dụng token và cải thiện độ chính xác trên nhiều bài toán phức tạp.

Một trong những thách thức lớn nhất của các hệ thống AI đa tác nhân hiện nay là phương thức giao tiếp. Thông thường, các tác nhân này tạo và chia sẻ các chuỗi văn bản, điều này dẫn đến độ trễ cao, làm tăng chi phí token và gây khó khăn cho việc đào tạo toàn bộ hệ thống như một khối thống nhất.

Để vượt qua thách thức này, các nhà nghiên cứu tại Đại học Illinois Urbana-Champaign và Đại học Stanford đã phát triển RecursiveMAS. Đây là một khung khối cho phép các tác nhân hợp tác và truyền tải thông tin thông qua không gian nhúng (embedding space) thay vì thông qua văn bản. Sự thay đổi này mang lại lợi ích to lớn về cả hiệu suất và hiệu quả.

Các thí nghiệm cho thấy RecursiveMAS đạt được sự cải thiện về độ chính xác trên các lĩnh vực phức tạp như tạo mã, lập luận y khoa và tìm kiếm thông tin. Đồng thời, khung khối này cũng giúp tăng tốc độ suy luận và cắt giảm đáng kể lượng token sử dụng. Đặc biệt, RecursiveMAS có chi phí đào tạo rẻ hơn nhiều so với các phương pháp fine-tuning đầy đủ hay LoRA tiêu chuẩn, tạo ra một giải pháp khả thi và tiết kiệm chi phí cho các hệ thống đa tác nhân tùy chỉnh.

Thách thức trong việc cải thiện hệ thống đa tác nhân

Hệ thống đa tác nhân có thể giúp giải quyết các nhiệm vụ phức tạp mà các hệ thống đơn tác nhân thường gặp khó khăn. Tuy nhiên, khi mở rộng quy mô hệ thống đa tác nhân cho các ứng dụng thực tế, một thách thức lớn là làm sao để hệ thống có thể tiến hóa, cải thiện và thích nghi với các kịch bản khác nhau theo thời gian.

Việc thích ứng dựa trên prompt (lời nhắc) có thể cải thiện sự tương tác giữa các tác nhân bằng cách tinh chỉnh ngữ cảnh chung được cung cấp. Tuy nhiên, hạn chế cơ bản là khả năng của các mô hình nền tảng bên dưới mỗi tác nhân vẫn giữ nguyên tĩnh.

Một cách tiếp cận phức tạp hơn là đào tạo các tác nhân bằng cách cập nhật trọng số của các mô hình nền tảng. Nhưng việc đào tạo toàn bộ hệ thống các tác nhân là cực kỳ khó khăn vì việc cập nhật tất cả các tham số trên nhiều mô hình khác nhau đòi hỏi tính toán rất lớn.

Ngay cả khi đội ngũ kỹ thuật cam kết đào tạo các mô hình của mình, phương pháp tiêu chuẩn để các tác nhân giao tiếp qua tương tác dựa trên văn bản lại tạo ra các nút thắt cổ chai lớn. Vì các tác nhân phụ thuộc vào việc tạo văn bản tuần tự, mỗi mô hình phải đợi mô hình trước đó hoàn tất việc tạo văn bản trước khi có thể bắt đầu xử lý của riêng mình, gây ra độ trễ.

Việc buộc các mô hình phải diễn giải lý luận trung gian của chúng token-by-token chỉ để mô hình tiếp theo đọc được là rất kém hiệu quả. Nó làm phình chi phí sử dụng token, đẩy chi phí tính toán lên cao và làm cho quá trình học tập lặp đi lặp lại trên toàn hệ thống trở nên chậm chạp khi mở rộng quy mô.

RecursiveMAS hoạt động như thế nào

Thay vì cố gắng cải thiện từng tác nhân như một thành phần riêng biệt, RecursiveMAS được thiết kế để cùng tiến hóa và mở rộng toàn bộ hệ thống đa tác nhân như một khối tích hợp duy nhất.

Khung khối này được lấy cảm hứng từ các mô hình ngôn ngữ đệ quy (Recursive Language Models - RLMs). Trong một mô hình ngôn ngữ tiêu chuẩn, dữ liệu chảy tuyến tính qua một ngăn xếp các lớp riêng biệt. Ngược lại, một mô hình ngôn ngữ đệ quy sử dụng lại một tập hợp các lớp chia sẻ để xử lý dữ liệu và đưa dữ liệu đó trở lại chính nó. Bằng cách lặp lại tính toán, mô hình có thể làm sâu sắc thêm lý luận mà không cần thêm tham số.

RecursiveMAS mở rộng nguyên tắc mở rộng quy mô này từ một mô hình duy nhất sang kiến trúc đa tác nhân hoạt động như một hệ thống đệ quy thống nhất. Trong thiết lập này, mỗi tác nhân hoạt động giống như một lớp trong một mô hình ngôn ngữ đệ quy. Thay vì tạo văn bản, các tác nhân chuyển tiếp liên tục các biểu diễn tiềm ẩn (latent representations) liên tục của chúng cho tác nhân tiếp theo trong chuỗi, tạo ra một luồng thông tin ẩn vòng lặp chảy qua hệ thống.

Quá trình chuyển giao tiềm ẩn này tiếp tục qua tất cả các tác nhân. Khi tác nhân cuối cùng hoàn tất xử lý, các đầu ra tiềm ẩn của nó được đưa trực tiếp trở lại tác nhân đầu tiên, khởi động một vòng đệ quy mới.

Cấu trúc này cho phép toàn bộ hệ thống đa tác nhân tương tác, phản ánh và tinh chỉnh lý luận tập thể của chúng qua nhiều vòng hoàn toàn trong không gian tiềm ẩn, với chỉ tác nhân cuối cùng tạo ra đầu ra văn bản trong vòng cuối cùng. Có thể hình dung các tác nhân đang giao tiếp bằng "telepathy" như một khối thống nhất và tác nhân cuối cùng cung cấp câu trả lời cuối cùng dưới dạng văn bản.

Kiến trúc hợp tác trong không gian tiềm ẩn

Để tạo điều kiện cho sự hợp tác trong không gian tiềm ẩn liên tục, các tác giả đã giới thiệu một thành phần kiến trúc chuyên biệt gọi là RecursiveLink. Đây là một mô-đun hai lớp nhẹ được thiết kế để truyền và tinh chỉnh các trạng thái tiềm ẩn của mô hình thay vì buộc nó giải mã văn bản.

Các trạng thái ẩn của lớp cuối cùng của một mô hình ngôn ngữ chứa biểu diễn ngữ nghĩa phong phú của quá trình lý luận. RecursiveLink được thiết kế để bảo toàn và truyền tải thông tin chiều cao này từ một không gian nhúng sang không gian khác.

Để tránh chi phí cập nhật mọi tham số trên nhiều mô hình ngôn ngữ lớn (LLM), khung khối này giữ các tham số của các mô hình ở trạng thái đóng băng (frozen). Thay vào đó, nó tối ưu hóa hệ thống bằng cách chỉ đào tạo các tham số của các mô-đun RecursiveLink.

Để xử lý cả lý luận nội bộ và giao tiếp bên ngoài, hệ thống sử dụng hai biến thể của mô-đun này.

Inner RecursiveLink hoạt động bên trong một tác nhân trong giai đoạn lý luận. Nó lấy các nhúng mới được tạo ra bởi mô hình và ánh xạ chúng trực tiếp trở lại không gian nhúng đầu vào của chính nó. Điều này cho phép tác nhân liên tục tạo ra một luồng suy nghĩ tiềm ẩn mà không cần tạo các token văn bản rời rạc.
Outer RecursiveLink đóng vai trò là cầu nối giữa các tác nhân. Vì các tác nhân trong một hệ thống thực tế có thể sử dụng các kiến trúc và kích thước mô hình khác nhau, không gian nhúng nội bộ của chúng có các kích thước hoàn toàn khác nhau. Outer RecursiveLink bao gồm một lớp bổ sung được thiết kế để khớp các nhúng từ chiều ẩn của tác nhân này với không gian nhúng của tác nhân tiếp theo.

Trong quá trình đào tạo, trước tiên, các liên kết nội bộ được đào tạo độc lập để làm nóng khả năng suy nghĩ trong các nhúng tiềm ẩn liên tục của từng tác nhân. Sau đó, hệ thống bước vào đào tạo vòng ngoài, nơi các mô hình đóng băng đa dạng được xích lại với nhau trong một vòng lặp, và hệ thống được đánh giá dựa trên đầu ra văn bản cuối cùng của tác nhân cuối cùng.

Điều duy nhất được cập nhật trong quá trình đào tạo là các tham số RecursiveLink và các trọng số mô hình gốc vẫn không thay đổi, tương tự như thích ứng hạng thấp (LoRA). Một lợi ích khác của hệ thống này là khi bạn có nhiều tác nhân trên cùng một mô hình nền tảng.

Nếu bạn có một hệ thống đa tác nhân trong đó hai tác nhân được xây dựng trên cùng một mô hình nền tảng chính xác nhưng đóng các vai trò khác nhau, bạn không cần tải hai bản sao của mô hình vào bộ nhớ GPU, cũng không cần đào tạo chúng riêng biệt. Các tác nhân sẽ chia sẻ cùng một xương sống (backbone) làm "bộ não" và sử dụng RecursiveLink làm mô liên kết.

Hiệu quả của RecursiveMAS trong thực tế

Các nhà nghiên cứu đã đánh giá RecursiveMAS trên chín điểm chuẩn spanning toán học, khoa học và y khoa, tạo mã và trả lời câu hỏi dựa trên tìm kiếm. Họ đã tạo ra một hệ thống đa tác nhân sử dụng các mô hình có trọng số mở (open-weights) bao gồm Qwen, Llama-3, Gemma3 và Mistral. Các mô hình này được giao các vai trò để hình thành các mẫu hợp tác tác nhân khác nhau như lý luận tuần tự và hợp tác hỗn hợp chuyên gia (mixture-of-experts).

RecursiveMAS được so sánh với các đường cơ sở dưới cùng ngân sách đào tạo giống hệt nhau, bao gồm các mô hình độc lập được nâng cấp với LoRA hoặc fine-tuning có giám sát đầy đủ, các khung khối đa tác nhân thay thế như Mixture-of-Agents và TextGrad, và các đường cơ sở đệ quy như LoopLM. Nó cũng được so sánh với Recursive-TextMAS, sử dụng cấu trúc vòng lặp đệ quy giống như RecursiveMAS nhưng buộc các tác nhân phải giao tiếp rõ ràng qua văn bản.

RecursiveMAS đạt được mức cải thiện độ chính xác trung bình là 8,3% so với các đường cơ sở mạnh nhất trên các điểm chuẩn. Nó đặc biệt xuất sắc trên các nhiệm vụ đòi hỏi nhiều lý luận, vượt trội hơn các phương pháp tối ưu hóa dựa trên văn bản như TextGrad 18,1% trên AIME2025 và 13% trên AIME2026.

Vì nó tránh tạo văn bản ở mọi bước, RecursiveMAS đạt được tốc độ suy luận đầu cuối nhanh hơn 1,2 lần đến 2,4 lần. RecursiveMAS cũng hiệu quả hơn nhiều về token so với các phương án thay thế. So với Recursive-TextMAS dựa trên văn bản, nó giảm việc sử dụng token 34,6% trong vòng đầu tiên của đệ quy, và đến vòng thứ ba, nó đạt được mức giảm 75,6% token. RecursiveMAS cũng được chứng minh là cực kỳ rẻ để đào tạo. Vì nó chỉ cập nhật các mô-đun RecursiveLink nhẹ, bao gồm khoảng 13 triệu tham số hoặc khoảng 0,31% các tham số có thể đào tạo của các mô hình đóng băng, nó yêu cầu bộ nhớ GPU đỉnh thấp nhất và cắt giảm chi phí đào tạo hơn một nửa so với fine-tuning đầy đủ.

Ứng dụng trong doanh nghiệp

Những lợi ích về hiệu quả — tiêu thụ token thấp hơn, yêu cầu bộ nhớ GPU giảm và tốc độ suy luận nhanh hơn — nhằm mục đích làm cho các quy trình công việc đa bước phức tạp của tác nhân khả thi trong môi trường sản xuất mà không có chi phí tính toán hạn chế việc triển khai tác nhân doanh nghiệp. Các nhà nghiên cứu đã phát hành mã và trọng số mô hình đã đào tạo theo giấy phép Apache 2.0.