Latent Agents: Kỹ thuật mới "nội hóa" tranh luận đa tác nhân để tối ưu hóa hiệu suất LLM
Một nghiên cứu mới giới thiệu khung "Latent Agents", giúp nội hóa khả năng tranh luận đa tác nhân vào một mô hình ngôn ngữ lớn (LLM) duy nhất. Phương pháp này không chỉ duy trì khả năng suy luận mà còn giúp giảm tới 93% lượng token sử dụng so với các phương pháp tranh luận truyền thống.

Latent Agents: Kỹ thuật mới "nội hóa" tranh luận đa tác nhân để tối ưu hóa hiệu suất LLM
Một nghiên cứu mới giới thiệu khung "Latent Agents", giúp nội hóa khả năng tranh luận đa tác nhân vào một mô hình ngôn ngữ lớn (LLM) duy nhất. Phương pháp này không chỉ duy trì khả năng suy luận mà còn giúp giảm tới 93% lượng token sử dụng so với các phương pháp tranh luận truyền thống.
Vấn đề của tranh luận đa tác nhân hiện tại
Tranh luận đa tác nhân (multi-agent debate) là một phương pháp đã được chứng minh là giúp cải thiện khả năng suy luận của các mô hình ngôn ngữ lớn (LLM). Tuy nhiên, nhược điểm lớn của phương pháp này là tính tốn kém về tài nguyên tính toán. Nó yêu cầu việc tạo ra các bản ghi (transcripts) dài dòng giữa nhiều tác nhân trước khi đưa ra câu trả lời cuối cùng, dẫn đến độ trễ cao và chi phí xử lý lớn.
Latent Agents: Nội hóa tranh luận vào một mô hình
Để giải quyết vấn đề này, nhóm nghiên cứu gồm John Seon Keun Yi, Aaron Mueller và Dokyun Lee đã phát triển một khung gọi là Latent Agents. Đây là một quy trình huấn luyện sau (post-training procedure) nhằm "chưng cất" (distill) quá trình tranh luận đa tác nhân vào một LLM duy nhất.
Quy trình này sử dụng một đường ống tinh chỉnh hai giai đoạn kết hợp việc học cấu trúc tranh luận với việc nội hóa thông qua lập lịch động phần thưởng và cắt ngắn độ dài. Kết quả kiểm nghiệm trên nhiều mô hình và tiêu chuẩn benchmark cho thấy các mô hình đã được nội hóa có hiệu suất tương đương hoặc vượt trội so với tranh luận đa tác nhân rõ ràng, nhưng sử dụng ít hơn tới 93% số token.
Cơ chế và ứng dụng trong an ninh AI
Nghiên cứu cũng đi sâu vào cơ chế hoạt động của khả năng này thông qua kỹ thuật điều khiển kích hoạt (activation steering). Các tác giả phát hiện ra rằng quá trình nội hóa tạo ra các "không gian con" (subspaces) đặc thù cho từng tác nhân: những hướng có thể diễn giải trong không gian kích hoạt tương ứng với các quan điểm khác nhau.
Điều này mở ra ứng dụng thực tế trong việc kiểm soát hành vi của AI. Bằng cách cài đặt các tác nhân độc hại vào LLM thông qua tranh luận nội hóa, sau đó áp dụng điều khiển tiêu cực để triệt tiêu chúng, nghiên cứu chứng minh rằng việc chưng cất giúp các hành vi có hại dễ dàng được định vị và kiểm soát hơn. So với việc điều khiển các mô hình cơ sở, phương pháp này làm giảm hiệu suất chung ít hơn đáng kể.
Nghiên cứu này cung cấp một góc nhìn mới để hiểu các khả năng đa tác nhân trong các mô hình đã chưng cất và đưa ra các hướng dẫn thực tế để kiểm soát các hành vi suy luận nội bộ.
