Bạn có đang phải trả "thuế bầy đàn" cho AI? Tại sao tác nhân đơn lẻ thường đánh bại các hệ thống phức tạp

Nghiên cứu mới từ Đại học Stanford chỉ ra rằng các hệ thống tác nhân đơn lẻ thường hoạt động hiệu quả tương đương hoặc vượt trội so với kiến trúc đa tác nhân khi được cấp ngân sách tính toán ngang nhau. Điều này cho thấy nhiều doanh nghiệp có thể đang lãng phí chi phí cho các hệ thống phức tạp mà không mang lại hiệu quả thực tế.

Các đội ngũ kỹ thuật tại các doanh nghiệp hiện nay đang đổ xô xây dựng các hệ thống AI đa tác nhân (multi-agent AI systems), hy vọng vào khả năng giải quyết vấn đề vượt trội. Tuy nhiên, nghiên cứu mới từ Đại học Stanford đã đưa ra một cảnh báo quan trọng: Bạn có thể đang phải trả một khoản phí tính toán cao (một loại "thuế bầy đàn") cho những lợi ích không thực sự tồn tại khi các điều kiện ngân sách được cân bằng.

Nghiên cứu này phát hiện ra rằng, khi được cấp cùng một ngân sách "thinking token" (token suy luận), các hệ thống tác nhân đơn lẻ thường hoạt động ngang bằng hoặc thậm chí vượt trội hơn so với các kiến trúc đa tác nhân phức tạp trong các nhiệm vụ suy luận đa bước.

Hiểu về sự phân chia giữa tác nhân đơn lẻ và đa tác nhân

Các khung đa tác nhân, chẳng hạn như các tác nhân lập kế hoạch (planner agents), hệ thống nhập vai (role-playing systems) hay các bầy tranh luận (debate swarms), hoạt động theo cách chia nhỏ vấn đề để nhiều mô hình có thể xử lý các ngữ cảnh riêng biệt. Các thành phần này giao tiếp với nhau bằng cách chuyển tải câu trả lời qua lại.

Mặc dù các giải pháp đa tác nhân cho thấy hiệu suất mạnh mẽ trong thực tế, việc so sánh chúng với các hệ thống tác nhân đơn lẻ thường thiếu chính xác. Các so sánh này bị nhiễu bởi sự khác biệt về tính toán tại thời điểm kiểm tra. Các thiết lập đa tác nhân yêu cầu nhiều tương tác giữa các tác nhân và tạo ra các chuỗi suy luận dài hơn, đồng nghĩa với việc chúng tiêu thụ đáng kể nhiều token hơn.

Do đó, khi một hệ thống đa tác nhân báo cáo độ chính xác cao hơn, rất khó để xác định liệu sự cải thiện đó đến từ thiết kế kiến trúc tốt hơn hay đơn giản là do chi tiêu nhiều tài nguyên tính toán hơn.

"Một điểm trọng tâm trong bài báo của chúng tôi là nhiều so sánh giữa hệ thống tác nhân đơn lẻ (SAS) và hệ thống đa tác nhân (MAS) không thực sự công bằng," các tác giả nghiên cứu Dat Tran và Douwe Kiela chia sẻ. "MAS thường có được tính toán kiểm tra hiệu quả hơn thông qua các cuộc gọi thêm, chuỗi dài hơn hoặc nhiều bước điều phối hơn."

Thử nghiệm lại thách thức đa tác nhân dưới ngân sách nghiêm ngặt

Để tạo ra một sự so sánh công bằng, các nhà nghiên cứu Stanford đã thiết lập một ngân sách "thinking token" nghiêm ngặt. Chỉ số này kiểm soát tổng số token được sử dụng riêng cho suy luận trung gian, loại trừ lời nhắc ban đầu và kết quả đầu ra cuối cùng.

Nghiên cứu đã đánh giá cả hệ thống đơn và đa tác nhân trên các nhiệm vụ suy luận đa bước (multi-hop reasoning) — những câu hỏi yêu cầu kết nối nhiều mảnh thông tin rời rạc để đạt được câu trả lời.

Trong quá trình thử nghiệm, các nhà nghiên cứu nhận thấy rằng các thiết lập tác nhân đơn lẻ đôi khi dừng suy luận nội bộ quá sớm, để lại ngân sách tính toán khả dụng chưa được sử dụng. Để khắc phục điều này, họ đã giới thiệu một kỹ thuật gọi là SAS-L (hệ thống tác nhân đơn lẻ với tư duy dài hơn).

Thay vì chuyển ngay sang điều phối đa tác nhân khi mô hình bỏ cuộc sớm, các nhà nghiên cứu đề xuất một thay đổi đơn giản trong cách đưa ra lời nhắc và phân bổ ngân sách.

"Ý tưởng kỹ thuật rất đơn giản," Tran và Kiela nói. "Đầu tiên, tái cấu trúc lời nhắc của tác nhân đơn lẻ để mô hình được khuyến khích rõ ràng sử dụng ngân sách suy luận có sẵn của mình cho việc phân tích trước câu trả lời."

Bằng cách hướng dẫn mô hình xác định rõ các sự mơ hồ, liệt kê các cách giải thích ứng viên và kiểm tra các phương án thay thế trước khi cam kết với một câu trả lời cuối cùng, các nhà phát triển có thể thu lại lợi ích của sự hợp tác ngay trong một thiết lập tác nhân đơn lẻ.

Tại sao tác nhân đơn lẻ lại chiến thắng?

Kết quả thí nghiệm xác nhận rằng một tác nhân đơn lẻ là kiến trúc mặc định mạnh mẽ nhất cho các nhiệm vụ suy luận đa bước. Nó tạo ra các câu trả lời có độ chính xác cao nhất trong khi tiêu thụ ít token suy luận hơn. Khi kết hợp với các mô hình cụ thể như Google Gemini 2.5, biến thể tư duy dài hơn tạo ra hiệu suất tổng thể thậm chí còn tốt hơn.

Các nhà nghiên cứu dựa vào một khái niệm gọi là "Bất đẳng thức xử lý dữ liệu" (Data Processing Inequality) để giải thích tại sao tác nhân đơn lẻ lại vượt trội so với một bầy đàn. Các khung đa tác nhân đưa ra các nút thắt thông tin vốn có. Mỗi khi thông tin được tóm tắt và chuyển giao giữa các tác nhân khác nhau, đều có nguy cơ mất mát dữ liệu.

Ngược lại, một tác nhân đơn lẻ suy luận trong một ngữ cảnh liên tục tránh được sự phân mảnh này. Nó giữ quyền truy cập vào biểu diễn phong phú nhất của nhiệm vụ và do đó hiệu quả hơn về thông tin trong một ngân sách cố định.

Các tác giả cũng lưu ý rằng các doanh nghiệp thường bỏ qua các chi phí phụ của hệ thống đa tác nhân.

"Những gì doanh nghiệp thường đánh giá thấp là việc điều phối không phải là miễn phí," họ nói. "Mỗi tác nhân bổ sung đều tạo ra chi phí truyền thông, nhiều văn bản trung gian hơn, nhiều cơ hội để tóm tắt mất mát thông tin hơn và nhiều nơi hơn để lỗi tích tụ."

Khi nào hệ thống đa tác nhân thực sự cần thiết?

Mặt khác, họ phát hiện ra rằng điều phối đa tác nhân vượt trội khi môi trường của tác nhân đơn lẻ trở nên lộn xộn. Nếu một ứng dụng doanh nghiệp phải xử lý các ngữ cảnh bị suy giảm mạnh, chẳng hạn như dữ liệu nhiễu, đầu vào dài chứa đầy yếu tố gây nhiễu hoặc thông tin bị hỏng, tác nhân đơn lẻ sẽ gặp khó khăn. Trong các kịch bản này, việc lọc, phân tích và xác minh có cấu trúc của hệ thống đa tác nhân có thể khôi phục thông tin liên quan một cách đáng tin cậy hơn.

Nghiên cứu cũng cảnh báo về các bẫy đánh giá ẩn mà sai lệch làm phồng hiệu suất đa tác nhân. Dựa hoàn toàn vào số lượng token do API báo cáo sẽ làm sai lệch nặng nề mức tính toán thực tế mà một kiến trúc đang tiêu tốn.

Đối với các nhà phát triển, nếu hệ thống tác nhân đơn lẻ khớp với hiệu suất của nhiều tác nhân dưới ngân sách suy luận bằng nhau, nó sẽ chiến thắng về tổng chi phí sở hữu nhờ ít cuộc gọi mô hình hơn, độ trễ thấp hơn và gỡ lỗi đơn giản hơn.

"Một cách khác để nhìn ranh giới quyết định không phải là độ phức tạp của nhiệm vụ tổng thể, mà là nơi nút thắt chính xác nằm ở đâu," Tran nói. "Nếu chủ yếu là chiều sâu suy luận, SAS thường là đủ. Nếu là sự phân mảnh hoặc suy giảm ngữ cảnh, MAS trở nên dễ bảo vệ hơn."

Các đội ngũ kỹ thuật nên giữ lại tác nhân đơn lẻ khi một nhiệm vụ có thể được xử lý trong một cửa sổ ngữ cảnh liền mạch. Hệ thống đa tác nhân chỉ trở nên cần thiết khi ứng dụng phải xử lý các ngữ cảnh bị suy giảm cao độ.

Nhìn về tương lai, các khung đa tác nhân sẽ không biến mất, nhưng vai trò của chúng sẽ phát triển khi các mô hình tiên tiến cải thiện khả năng suy luận nội bộ của chúng.

"Thông điệp chính từ bài báo của chúng tôi là cấu trúc đa tác nhân nên được coi là một lựa chọn kỹ thuật có mục tiêu cho các nút thắt cụ thể, không phải là một giả định mặc định rằng nhiều tác nhân tự động đồng nghĩa với trí thông minh tốt hơn," Tran kết luận.

Bạn có đang phải trả "thuế bầy đàn" cho AI? Tại sao tác nhân đơn lẻ thường đánh bại các hệ thống phức tạp

Hiểu về sự phân chia giữa tác nhân đơn lẻ và đa tác nhân

Thử nghiệm lại thách thức đa tác nhân dưới ngân sách nghiêm ngặt

Tại sao tác nhân đơn lẻ lại chiến thắng?

Khi nào hệ thống đa tác nhân thực sự cần thiết?

Bài viết liên quan