Sakana AI ra mắt RL Conductor: Mô hình 7B điều phối GPT-5 và Claude hiệu quả hơn con người

Sakana AI đã giới thiệu RL Conductor, một mô hình ngôn ngữ nhỏ được huấn luyện bằng học tăng cường để tự động điều phối các LLM lớn khác. Hệ thống này đạt hiệu suất vượt trội so với các mô hình hàng đầu như GPT-5 và Claude Sonnet 4 trên các bài kiểm tra khó, đồng thời giảm thiểu chi phí và độ trễ.

Mọi pipeline LangChain mà đội ngũ của bạn mã hóa cứng đều bắt đầu gặp lỗi ngay khi phân phối truy vấn thay đổi — và sự thay đổi này là điều tất yếu. Đó chính là điểm nghẽn mà Sakana AI đặt mục tiêu loại bỏ.

Các nhà nghiên cứu tại Sakana AI đã giới thiệu "RL Conductor", một mô hình ngôn ngữ nhỏ được huấn luyện thông qua học tăng cường (reinforcement learning) để tự động điều phối một nhóm đa dạng các LLM làm việc (worker LLMs). Conductor phân tích đầu vào một cách linh hoạt, phân chia lao động giữa các worker và phối hợp giữa các tác nhân.

Sự phối hợp tự động này đã đạt được kết quả tiên phong trên các bài kiểm tra suy luận và lập trình khó khăn, vượt trội hơn các mô hình hàng đầu riêng lẻ như GPT-5 và Claude Sonnet 4, cũng như các pipeline đa tác nhân do con người thiết kế tốn kém. Nó đạt được hiệu suất này chỉ với một phần chi phí và số lượng gọi API ít hơn đối thủ cạnh tranh. RL Conductor là xương sống của Fugu, dịch vụ điều phối đa tác nhân thương mại của Sakana AI.

Hạn chế của các khung tác nhân thủ công

Các mô hình ngôn ngữ lớn (LLM) có những khả năng tiềm ẩn mạnh mẽ. Tuy nhiên, khai thác tối đa các khả năng này là một thách thức lớn. Việc đạt được mức hiệu suất này phụ thuộc rất nhiều vào quy trình làm việc của tác nhân được thiết kế thủ công, đóng vai trò là thành phần quan trọng trong các sản phẩm AI thương mại.

Tuy nhiên, các khung công tác này thường thất bại vì bản chất vốn có của chúng là cứng nhắc và bị hạn chế. Trong bình luận với VentureBeat, Yujin Tang, đồng tác giả của bài báo, đã giải thích chính xác điểm gãy của các hệ thống hiện tại: "Mặc dù việc sử dụng các khung công tác có pipeline mã hóa cứng như LangChain và Mixture-of-Agents có thể hoạt động tốt cho các trường hợp sử dụng cụ thể... Trong môi trường sản xuất thực tế, một điểm nghẽn cố hữu sẽ phát sinh khi nhắm đến các lĩnh vực có cơ sở người dùng lớn với nhu cầu rất đa dạng."

Tang lưu ý rằng việc đạt được "tổng quát hóa trong thế giới thực ở các ứng dụng đa dạng như vậy vốn dĩ đòi hỏi phải vượt qua các thiết kế do con người mã hóa cứng."

Một điểm nghẽn khác trong việc xây dựng các hệ thống tác nhân mạnh mẽ là không có một mô hình duy nào là tối ưu cho mọi tác vụ. Các mô hình khác nhau được tinh chỉnh để chuyên môn hóa trong các lĩnh vực riêng biệt. Một mô hình có thể xuất sắc trong suy luận khoa học, trong khi mô hình khác lại vượt trội hơn trong việc tạo mã, logic toán học hoặc lập kế hoạch cấp cao.

Vì các mô hình có những đặc tính và kỹ năng bổ sung khác nhau, việc dự đoán và mã hóa cứng thủ công sự kết hợp lý tưởng của các mô hình cho mọi truy vấn là gần như không thể. Một khung tác nhân tối ưu nên có khả năng phân tích một vấn đề và ủy quyền các tác vụ con cho chuyên gia phù hợp nhất trong nhóm.

Chỉ huy một dàn nhạc các tác nhân

RL Conductor được thiết kế để vượt qua những hạn chế của các khung công tác do con người thiết kế cứng nhắc. Như tên gọi của nó, Conductor đóng vai trò chỉ huy một dàn nhạc các tác nhân bằng cách chia nhỏ các vấn đề khó khăn, ủy quyền các tác vụ con mục tiêu và thiết lập cấu trúc liên lạc cho một tập hợp các LLM làm việc.

Thay vì dựa vào mã cố định hoặc định tuyến tĩnh, Conductor điều phối các mô hình này bằng cách tạo ra một quy trình làm việc tùy chỉnh. Đối với mỗi bước trong quy trình, mô hình tạo ra một hướng dẫn bằng ngôn ngữ tự nhiên cho một khía cạnh cụ thể của tác vụ, chỉ định một tác nhân thực hiện nó và định nghĩa một "danh sách truy cập" quy định các tác vụ con và phản hồi trước đó từ các tác nhân khác được đưa vào bối cảnh của tác nhân đó.

Bằng cách định nghĩa mọi thứ bằng ngôn ngữ tự nhiên, Conductor xây dựng các quy trình làm việc linh hoạt được tùy chỉnh cho từng đầu vào. Nó có thể xây dựng các chuỗi tuần tự đơn giản, cấu trúc cây song song hoặc thậm chí các vòng lặp đệ quy tùy thuộc vào yêu cầu của vấn đề.

Điều quan trọng là, mô hình học các chiến lược này không phải thông qua thiết kế của con người mà thông qua học tăng cường (RL) và tối đa hóa phần thưởng. Trong quá trình huấn luyện, mô hình được đưa một tác vụ, một nhóm worker và tín hiệu phần thưởng dựa trên việc câu trả lời và định dạng đầu ra của nó có đúng hay không.

Thông qua một thuật toán RL thử và sai đơn giản, mô hình tự nhiên khám phá ra sự kết hợp nào giữa các hướng dẫn và cấu trúc liên lạc mang lại phần thưởng cao nhất. Kết quả là, nó tự động áp dụng các chiến lược điều phối nâng cao như kỹ thuật prompt có mục tiêu, tinh chỉnh lặp lại và tối ưu hóa meta-prompt.

Mô hình học cách điều chỉnh chiến lược một cách linh hoạt và tận dụng các điểm mạnh riêng biệt của các tác nhân worker của mình mà không cần bất kỳ nhà phát triển con người nào phải mã hóa cứng quy trình.

Conductor vào hành động

Để kiểm tra RL Conductor trong thực tế, các nhà nghiên cứu đã tinh chỉnh mô hình Qwen2.5-7B với 7 tỷ tham số bằng cách sử dụng khung công tác này. Trong quá trình huấn luyện, Conductor được giao nhiệm vụ thiết kế các quy trình làm việc tác nhân lên đến năm bước. Nó được cấp quyền truy cập vào một nhóm worker chứa bảy mô hình khác nhau: ba gã khổng lồ mã nguồn đóng (Gemini 2.5 Pro, Claude-Sonnet-4 và GPT-5) và bốn mô hình mã nguồn mở (bao gồm DeepSeek-R1-Distill-Qwen-32B, Gemma3-27B và Qwen3-32B).

Đội ngũ đã đánh giá Conductor trên nhiều bài kiểm tra chuẩn đầy thách thức, so sánh nó với các mô hình hàng đầu hoạt động riêng lẻ, các tác nhân tự phản ánh được nhắc lặp lại để cải thiện câu trả lời của chính chúng, và các khung định tuyến đa tác nhân tiên tiến như MASRouter, Mixture-of-Agents (MoA), RouterDC và Smoothie. Mô hình Conductor 7B nhỏ bé đã thiết lập các kỷ lục mới trên tất cả các mặt trận. Nó đạt điểm trung bình 77,27% trên tất cả các tác vụ, đạt 93,3% trên bài kiểm tra toán học AIME25, 87,5% trên GPQA-Diamond và 83,93% trên LiveCodeBench, theo các nhà nghiên cứu.

Đáng chú ý, nó đạt được những điểm số này trong khi vẫn duy trì hiệu suất cao. Trong khi các mô hình cơ sở như MoA tiêu tốn 11.203 token cho mỗi câu hỏi, Conductor chỉ sử dụng trung bình 1.820 token, chỉ mất trung bình ba bước cho mỗi quy trình làm việc.

Một cái nhìn kỹ lưỡng hơn về chi tiết thử nghiệm cho thấy chính xác lý do tại sao khung công tác này lại hiệu quả đến vậy. Conductor đã tự động học cách đo lường độ khó của tác vụ. Đối với các câu hỏi ghi nhớ sự thật đơn giản, nó thường giải quyết vấn đề chỉ trong một bước hoặc sử dụng thiết lập hai tác nhân cơ bản. Tuy nhiên, đối với các vấn đề lập trình phức tạp, nó xây dựng các quy trình làm việc mở rộng liên quan đến tối đa bốn tác nhân với các giai đoạn lập kế hoạch, triển khai và xác thực chuyên biệt.

Conductor cũng học được rằng các mô hình hàng đầu có những điểm mạnh khác nhau. Để đạt được điểm số kỷ lục trên các bài kiểm tra lập trình, Conductor thường chỉ định Gemini 2.5 Pro và Claude Sonnet 4 đóng vai trò là người lập kế hoạch cấp cao, và chỉ đưa GPT-5 vào ở bước cuối cùng để viết mã tối ưu cuối cùng. Trong một màn trình diễn khả năng thích ứng đặc biệt thông minh, Conductor đôi khi sẽ từ bỏ hoàn toàn vai trò của chính nó, chuyển toàn bộ quy trình lập kế hoạch cho Gemini 2.5 Pro và cho phép nó quy định các tác vụ con cho phần còn lại của nhóm.

Ngoài các bài kiểm tra toán học và lập trình, Sakana AI đang đưa kiến trúc cơ bản này vào ứng dụng thực tế. "Chúng tôi đã sử dụng nội bộ các mô hình Fugu dựa trên công nghệ Conductor cho các ứng dụng doanh nghiệp thực tế khác nhau: phát triển phần mềm, nghiên cứu sâu, phát triển chiến lược và thậm chí cả các nhiệm vụ thị giác như tạo slide," Tang nói.

Đưa điều phối vào doanh nghiệp: Sakana Fugu

Mặc dù mô hình 7B được mô tả trong bài báo nghiên cứu là một bản thiết kế khám phá và chưa được công khai, Sakana AI đã thương mại hóa khung công tác Conductor thành sản phẩm AI thương mại cốt lõi của họ, Sakana Fugu. Hiện đang ở giai đoạn beta, Fugu đóng vai trò là hệ thống điều phối đa tác nhân có thể truy cập thông qua API tiêu chuẩn tương thích OpenAI.

Tang lưu ý rằng Fugu nhắm đến "thị trường lớn của các ngành công nghiệp nơi việc áp dụng AI chưa mang lại lợi ích năng suất lớn do hạn chế tổng quát hóa của các pipeline mã hóa cứng hiện tại, chẳng hạn như tài chính và quốc phòng."

Đối với các nhà phát triển doanh nghiệp, điều này cho phép tích hợp liền mạch vào các ứng dụng hiện có mà không gặp rắc rối trong việc quản lý nhiều khóa API hoặc định tuyến thủ công các tác vụ trên các nhà cung cấp khác nhau. Đằng sau giao diện API, Fugu tự động hóa các cấu trúc cộng tác phức tạp và phân vai trò trên một nhóm các mô hình. Để hỗ trợ các nhu cầu kinh doanh khác nhau, Sakana đã phát hành hai biến thể: Fugu Mini, được xây dựng cho hoạt động có độ trễ thấp, và Fugu Ultra, được thiết kế để đạt hiệu suất tối đa trên các khối lượng công việc đòi hỏi cao.

Đề cập đến các lo ngại về quản trị xung quanh các tác nhân tự động tạo ra các quy trình làm việc vô hình, Tang chỉ ra rằng các rủi ro về khả năng giải thích về mặt chức năng tương tự như các dấu vết lý luận ẩn của các API đóng hàng đầu hiện nay, và hệ thống được quản lý với các rào chắn đã được thiết lập để giảm thiểu ảo giác.

Đối với các kiến trúc sư doanh nghiệp đang cân nhắc khi nào triển khai điều phối RL so với định tuyến truyền thống, quyết định thường phụ thuộc vào nguồn lực kỹ thuật. "Chúng tôi tin rằng điểm ngọt tuyệt đối xuất hiện bất cứ khi nào người dùng và đội ngũ của họ cảm thấy họ đang dành một lượng thời gian không cân xứng để hướng dẫn các tác nhân cơ bản của mình," Tang nói. Tuy nhiên, ông cảnh báo rằng khung công tác này không cần thiết cho mọi thứ, noting rằng "khó để đánh bại đề xuất kinh tế của một mô hình cục bộ chạy trực tiếp trên máy của người dùng đối với các truy vấn đơn giản."

Khi sự đa dạng của các mô hình AI chuyên biệt mã nguồn mở và mã nguồn đóng tiếp tục phát triển, các pipeline mã hóa cứng tĩnh chắc chắn sẽ trở nên lỗi thời. Nhìn về phía trước, sự điều phối động này có thể sẽ mở rộng ra ngoài môi trường văn bản và mã. "Có thực sự một tiềm năng lớn để lấp đầy khoảng trống này với các khung Conductor đa chế độ trở thành nền tảng cho các hệ thống AI vật lý tự chủ hơn, tự phối hợp tốt hơn," Tang nói.