DeLM của Stanford: Giảm 50% chi phí hệ thống đa tác nhân, loại bỏ nhu cầu về "người điều phối" trung tâm

Các khung AI hiện nay thường giả định rằng các tác nhân cần một "người đứng đầu" để điều phối. Tuy nhiên, khung DeLM mới của Stanford chứng minh rằng các tác nhân có thể làm việc trực tiếp với nhau thông qua cơ sở kiến thức chung, giúp giảm chi phí và độ trễ đáng kể.

Một trong những giả định phổ biến đằng sau các khung AI ngày nay là các tác nhân (agents) luôn cần một "người sếp" ở trung tâm. Người điều phối (orchestrator) này sẽ quản lý mọi thứ, định tuyến yêu cầu và đảm bảo toàn bộ hệ thống không rơi vào hỗn loạn.

Tuy nhiên, giả định này có thể sai lầm, và cái giá phải trả cho nó được đo bằng chi phí suy luận (inference) và độ trễ trong phối hợp. Một khung hệ thống mới của Stanford gọi là mô hình ngôn ngữ phi tập trung (Decentralized Language Model - DeLM) được xây dựng trên tiền đề rằng các tác nhân có thể phối hợp trực tiếp với nhau mà không cần định tuyến mọi cập nhật thông qua một bộ điều khiển trung tâm.

Cơ sở kiến thức dùng chung của DeLM đóng vai trò là "hệ thống truyền thông nền tảng" (common communication substrate), cho phép các tác nhân xây dựng dựa trên tiến trình đã được xác minh của nhau mà không cần phải định tuyến mọi tương tác qua một tác nhân chính để "hợp nhất, lọc và phát lại", Yuzhen Mao và Azalia Mirhoseini, những người đồng phát triển khung hệ thống này, giải thích trong một bài nghiên cứu.

Đây là một hệ thống không chỉ khả thi mà còn rất mong muốn trong một số trường hợp cụ thể. "Các tác nhân có thể xây dựng dựa trên các phát hiện trước đó, tránh các thất bại lặp lại, bảo toàn các ràng buộc và chỉ truy xuất bằng chứng chi tiết khi thực sự cần thiết."

Thách thức của các hệ thống đa tác nhân truyền thống

Trong một hệ thống đa tác nhân tập trung điển hình, một tác nhân chính sẽ chia nhỏ nhiệm vụ thành các tác vụ con, phân bổ chúng cho nhiều tác nhân con hoạt động song song, chờ phản hồi, hợp nhất và tóm tắt tiến trình trung gian, sau đó tung ra một làn sóng lệnh tiếp theo dựa trên ngữ cảnh đã thu thập.

Mặc dù đây là cách tự nhiên để mở rộng quy mô lý luận của LLM, các nhà nghiên cứu Stanford lập luận rằng cách này mở rộng quy mô kém. Mọi phát hiện hữu ích, phát hiện một phần và thất bại đều phải được báo cáo lại cho tác nhân chính, người sau đó sẽ xác định thông tin nào cần hợp nhất và phát lại cho các tác nhân cấp dưới.

"Khi số lượng tác vụ con tăng lên, bộ điều khiển này trở thành nút thắt cổ chai về giao tiếp và tích hợp," Mao và Mirhoseini viết. Hơn nữa, người điều phối chính có thể "làm loãng, bỏ sót hoặc bóp méo" thông tin hữu ích, dẫn đến mất mát tiến trình.

Nút thắt cổ chai này cũng xảy ra trong các kịch bản lý luận ngữ cảnh dài (long-context reasoning). Sau khi nhận được báo cáo từ các tác nhân con, tác nhân chính thường sẽ nhóm các khái niệm liên quan, điểm dữ liệu và các tài liệu khác lại với nhau trong một vòng lặp học không giám sát. Nó có thể gán trước các "cụm bằng chứng" này cho các tác nhân con trước khi biết liệu tài liệu nổi lên thực sự có liên quan hay không, hoặc liệu chúng có được kết hợp chính xác hay không.

Khi một tác nhân con nhận được ngữ cảnh không đầy đủ này, nó sẽ cơ bản bị nhầm lẫn và quay lại tác nhân chính, khởi động một vòng truy xuất hoặc ủy quyền mới. "Sự qua lại này khiến việc phối hợp trở nên chậm hơn, mang tính lặp lại hơn và ngày càng bị hạn chế bởi một tác nhân chính quá tải," các nhà nghiên cứu nhận định.

DeLM giải quyết vấn đề gì và cơ chế hoạt động

Ngược lại, DeLM được xây dựng xung quanh các tác nhân song song, một ngữ cảnh chia sẻ và một hàng đợi nhiệm vụ.

Ngữ cảnh chia sẻ về cơ bản là một kho lưu trữ được biên tập của các "bản tóm tắt" (gists), hay tóm tắt thông tin mà các tác nhân khác có thể thấy hữu ích. Chúng bao gồm các phát hiện đã xác minh và dựa trên bằng chứng cùng với các phát hiện một phần và thất bại đã được ghi lại; chúng cũng trỏ đến bằng chứng chi tiết mà các tác nhân có thể kéo về dựa trên nhiệm vụ cụ thể của mình.

Hàng đợi nhiệm vụ sau đó là một tập hợp các tác vụ con đang chờ xử lý mà các tác nhân có thể tự nhận.

"Các tác nhân ghi các cập nhật nhỏ gọn, đã xác minh vào ngữ cảnh chia sẻ mà các tác nhân sau có thể đọc trực tiếp," các nhà nghiên cứu viết. Các phát hiện hữu ích, thất bại và ràng buộc tích lũy dưới dạng "trạng thái vấn đề chia sẻ", thay vì đi qua một bộ điều khiển trung tâm.

Quy trình hoạt động như sau:

Khởi tạo: Các đầu vào được chia thành các đơn vị công việc khác nhau và thêm vào hàng đợi.
Thực thi song song: Các tác nhân làm việc độc lập và đồng thời, kéo các nhiệm vụ và đọc ngữ cảnh chia sẻ trong khi tiến hành công việc.
Nén và xác minh: Kết quả được nén thành các "bản tóm tắt" có thể tái sử dụng và được kiểm tra đối chiếu với bằng chứng hỗ trợ. Chỉ những bản tóm tắt được xác minh đầy đủ mới được chia sẻ với nhóm.
Công việc bổ sung (nếu cần): Khi hàng đợi trống, tác nhân cuối cùng trả lời câu hỏi sẽ kiểm tra toàn bộ ngữ cảnh chia sẻ để xác định xem có cần thêm công việc nào không.
Bước cuối cùng: Tác nhân cuối cùng xác định không còn bước nào cần thiết và trả về câu trả lời cuối cùng.

Các tác nhân "trao đổi tiến trình thông qua trạng thái chia sẻ, nhận các nhiệm vụ đã sẵn sàng một cách không đồng bộ và mở rộng quy mô thích ứng hơn khi số lượng tác vụ con tăng lên," các nhà nghiên cứu giải thích.

Hiệu suất thực tế của DeLM

Với DeLM, các tác nhân có thể tránh khám phá dư thừa; tái sử dụng và xây dựng dựa trên những khám phá và thất bại của nhau; đồng thời tập trung vào các vấn đề chưa được giải quyết.

Khung hệ thống này có thể đặc biệt hữu ích trong việc mở rộng quy mô thời gian kiểm thử (test-time scaling) trong kỹ thuật phần mềm, khi các mô hình được dành thời gian để "nghĩ" nhằm cải thiện khả năng lý luận và giải quyết vấn đề. Các tác nhân khác nhau có thể khám phá các giả thuyết của riêng mình hoặc theo đuổi các con đường lý luận song song, trong khi vẫn chia sẻ tiến trình trung gian. Một ví dụ là gỡ lỗi đồng thời (concurrent de-bugging).

DeLM cũng phù hợp cho lý luận ngữ cảnh dài và trả lời câu hỏi đa tài liệu (multi-document question-answering); các tác nhân có thể đồng thời kiểm tra các cụm bằng chứng của riêng mình (bộ sưu tập các bài báo, mã hoặc tài liệu khác) tại cùng một thời điểm, trong khi vẫn duy trì "góc nhìn tổng thể nhỏ gọn" về bằng chứng tích lũy.

Các nhà nghiên cứu khẳng định rằng nó làm cho các nhiệm vụ dạng tác nhân chính xác hơn và rẻ hơn đáng kể. Điều này được chứng minh bởi hiệu suất của nó trên các benchmark thực tế: Trên SWE-bench Verified — đánh giá khả năng giải quyết vấn đề kỹ thuật phần mềm thực tế của các mô hình và tác nhân AI — nó hoạt động tốt hơn 10,5% so với cơ sở mạnh nhất và giảm chi phí trên mỗi nhiệm vụ khoảng 50%.

Nhưng nó có thể vượt ra ngoài lập trình: Trên LongBench-v2 Multi-Doc QA — đánh giá khả năng xử lý các vấn đề thực tế ngữ cảnh dài của LLM — DeLM có độ chính xác cao nhất trên bốn dòng mô hình, bao gồm GPT-5.4, Claude Sonnet, Gemini Flash và DeepSeek-V4-Pro.

DeLM vượt trội hơn các mô hình khác trên SWE-Bench vì một số lý do, như Mao chi tiết trên X.

Đầu tiên, các tác nhân chia sẻ thất bại. Trong các lần chạy song song thông thường, khi một tác nhân đi theo con đường sai, thất bại đó vẫn là riêng tư, và các tác nhân sau có thể lãng phí thời gian (và tiền bạc) để theo đuổi cùng một ngõ cụt. Nhưng với DeLM, các giả thuyết thất bại được ghi vào ngữ cảnh chia sẻ.

"Các tác nhân sau có thể đọc chúng dưới dạng các ràng buộc, tránh khám phá lặp lại và định hướng lại tìm kiếm của họ hướng tới các bản sửa hứa hẹn hơn," Mao nói.

Ngoài ra, các ràng buộc, một khi được xác minh, sẽ được thêm ngay vào ngữ cảnh chia sẻ của các tác nhân. Điều này có nghĩa là chúng trở thành trạng thái chia sẻ ràng buộc. "Các tác nhân sau kế thừa chúng, xây dựng xung quanh chúng và tránh việc lặp lại các đơn giản hóa không hợp lệ về mặt toàn cục," Mao nói.

Quan trọng hơn, DeLM giữ cho tiến trình chia sẻ đủ nhỏ gọn để tái sử dụng. Nó có khả năng "mở rộng" (unfoldable), nghĩa là các tác nhân nhìn thấy các bản tóm tắt ngắn theo mặc định, nhưng có thể chọn mở rộng chúng thành các bản tóm tắt chi tiết hơn và bằng chứng thô.

Như các nhà nghiên cứu lưu ý, việc cung cấp tất cả các tài liệu và dấu vết thô mang lại cho các tác nhân lượng thông tin tối đa, nhưng điều đó có thể làm quá tải cửa sổ ngữ cảnh của chúng và cuối cùng làm tăng chi phí.

"Nếu các tác nhân chia sẻ toàn bộ dấu vết, mỗi worker sẽ cần đọc lịch sử lệnh dài, các bản đổ tệp, các chỉnh sửa thất bại và lý luận trung gian, biến chính việc phối hợp thành một nút thắt cổ chai ngữ cảnh dài khác," Mao nói.

Mặt khác, mặc dù việc chia sẻ các bản tóm tắt nhỏ gọn rẻ hơn, các chi tiết và bằng chứng quan trọng có thể bị mất, dẫn đến lý luận kém đáng tin cậy hơn.

Do đó, khả năng mở rộng cung cấp quyền truy cập tùy chọn "từ tổng quát đến chi tiết" (coarse-to-fine). Điều này có thể cải thiện độ chính xác và chi phí.

Cuối cùng, với một khung hệ thống như DeLM, các tác nhân có thể hiệu quả hơn vì chúng bị ngăn không cho đọc lại cùng một tài liệu hoặc chạy lại cùng một phân tích thất bại nhiều lần; hiệu quả hơn vì các phát hiện hữu ích được lan truyền qua các luồng song song; và mạnh mẽ hơn vì chúng chỉ chia sẻ các tuyên bố đã được xác minh.

Đối với những người xây dựng hệ thống doanh nghiệp, DeLM thách thức một giả định cốt lõi: rằng mọi quy trình làm việc đa tác nhân đều cần một bộ điều khiển trung tâm. Kết quả từ SWE-bench và LongBench-v2 cho thấy mô hình phi tập trung không chỉ sạch sẽ hơn về mặt lý thuyết — mà còn nhanh hơn, chính xác hơn và rẻ hơn khoảng một nửa.

DeLM của Stanford: Giảm 50% chi phí hệ thống đa tác nhân, loại bỏ nhu cầu về "người điều phối" trung tâm

Thách thức của các hệ thống đa tác nhân truyền thống

DeLM giải quyết vấn đề gì và cơ chế hoạt động

Hiệu suất thực tế của DeLM

Bài viết liên quan