Metis của Alibaba: Tác nhân AI giảm thiểu gọi công cụ thừa, tăng độ chính xác vượt trội

Các nhà nghiên cứu Alibaba đã giới thiệu khung HDPO giúp các tác nhân AI cân bằng giữa việc sử dụng công cụ bên ngoài và kiến thức nội tại. Mô hình Metis được huấn luyện theo phương pháp này đã giảm tỷ lệ gọi công cụ thừa từ 98% xuống chỉ còn 2% mà vẫn đạt độ chính xác cao nhất trong các bài kiểm tra chuẩn. Đây là bước tiến lớn trong việc xây dựng hệ thống AI phản hồi nhanh và tiết kiệm chi phí.

Một trong những thách thức lớn khi xây dựng các tác nhân AI (AI agents) hiệu quả là dạy chúng biết cách lựa chọn giữa sử dụng công cụ bên ngoài hay dựa vào kiến thức nội tại. Tuy nhiên, các mô hình ngôn ngữ lớn (LLM) hiện nay thường được huấn luyện để "mù quáng" kích hoạt các công cụ này, dẫn đến tình trạng nghẽn độ trễ, lãng phí chi phí API và làm giảm chất lượng suy luận do nhiễu môi trường.

Để giải quyết thách thức này, các nhà nghiên cứu tại Alibaba đã giới thiệu Hierarchical Decoupled Policy Optimization (HDPO), một khung học tăng cường (reinforcement learning) giúp tác nhân cân bằng giữa hiệu quả thực thi và độ chính xác của nhiệm vụ. Metis, một mô hình đa phương thức được huấn luyện bằng khung này, đã giảm thiểu các cuộc gọi công cụ dư thừa từ 98% xuống chỉ còn 2%, đồng thời thiết lập kỷ lục mới về độ chính xác suy luận trên các tiêu chuẩn quan trọng của ngành.

Thiếu hụt siêu nhận thức

Các mô hình tác nhân hiện nay đang đối mặt với vấn đề mà các nhà nghiên cứu gọi là "thiếu hụt siêu nhận thức" (metacognitive deficit). Chúng gặp khó khăn trong việc quyết định khi nào nên dùng kiến thức tham số nội tại và khi nào cần truy vấn tiện ích bên ngoài. Kết quả là chúng gọi công cụ và API một cách vô thức, chẳng hạn như tìm kiếm web hoặc thực thi mã, ngay cả khi câu hỏi của người dùng đã chứa đủ thông tin cần thiết để giải quyết nhiệm vụ.

Hành vi gọi công cụ quá đà này tạo ra những rào cản vận hành nghiêm trọng cho các ứng dụng thực tế. Vì các mô hình được huấn luyện để tập trung gần như hoàn toàn vào việc hoàn thành nhiệm vụ, chúng thờ ơ với độ trễ. Các tác nhân này thường xuyên đạt tỷ lệ gọi công cụ cao phi lý. Mỗi cuộc gọi API bên ngoài không cần thiết đều tạo ra một nút thắt xử lý tuần tự, biến một AI có năng lực kỹ thuật thành một hệ thống chậm chạp gây thất vọng cho người dùng và đốt cháy ngân sách công cụ.

Đồng thời, việc đốt cháy tài nguyên tính toán cho việc sử dụng công cụ quá mức không dẫn đến suy luận tốt hơn. Các tương tác công cụ dư thừa tiêm nhiễu vào ngữ cảnh của mô hình. Nhiễu này có thể làm phân tâm mô hình, làm chệch hướng chuỗi suy luận âm thanh và làm giảm chất lượng đầu ra cuối cùng.

Tối ưu hóa chính sách tách tầng (HDPO)

Để giải quyết bài toán tối ưu hóa phức tạp của việc trộn lẫn các phần thưởng, các nhà nghiên cứu đã giới thiệu HDPO. HDPO tách biệt độ chính xác và hiệu quả thành hai kênh tối ưu hóa độc lập. Kênh độ chính xác tập trung tối đa hóa tính đúng đắn của nhiệm vụ trên tất cả các lần chạy của mô hình. Kênh hiệu quả tối ưu hóa tính kinh tế của quá trình thực thi.

HDPO tính toán các tín hiệu huấn luyện cho hai kênh này một cách độc lập và chỉ kết hợp chúng ở giai đoạn cuối cùng của tính toán mất mát (loss computation). Tín hiệu hiệu quả có điều kiện dựa trên kênh độ chính xác. Điều này có nghĩa là một phản hồi không chính xác không bao giờ được thưởng chỉ vì nó nhanh hoặc sử dụng ít công cụ hơn. Sự tách biệt này tránh các tình huống where độ dốc của độ chính xác và hiệu quả triệt tiêu lẫn nhau, cung cấp cho AI các tín hiệu học tập sạch sẽ cho cả hai mục tiêu.

Thuộc tính nổi lên mạnh mẽ nhất của thiết kế tách biệt này là nó tạo ra một "chương trình giảng dạy nhận thức" ngầm định. Sớm trong quá trình huấn luyện, khi mô hình vẫn đang vật lộn với nhiệm vụ, quá trình tối ưu hóa bị chi phối bởi mục tiêu độ chính xác, buộc mô hình phải ưu tiên học cách suy luận và kiến thức đúng đắn. Khi khả năng suy luận của mô hình trưởng thành và nó liên tục đưa ra câu trả lời đúng, tín hiệu hiệu quả sẽ tăng lên một cách trơn tru. Cơ chế này khiến mô hình trước tiên làm chủ việc giải quyết nhiệm vụ, và sau đó mới tinh chỉnh khả năng tự chủ của mình bằng cách tránh các cuộc gọi API tốn kém và dư thừa.

Tác nhân Metis: HDPO trong hành động

Để kiểm chứng HDPO trong thực tế, các nhà nghiên cứu đã sử dụng khung này để phát triển Metis, một tác nhân suy luận đa phương thức được trang bị các công cụ lập trình và tìm kiếm. Metis được xây dựng dựa trên mô hình ngôn ngữ thị giác Qwen3-VL-8B-Instruct. Các nhà nghiên cứu đã huấn luyện nó trong hai giai đoạn riêng biệt. Đầu tiên, họ áp dụng tinh chỉnh có giám sát (SFT) sử dụng dữ liệu được tuyển chọn của họ để cung cấp khởi tạo nguội. Tiếp theo, họ áp dụng học tăng cường (RL) sử dụng khung HDPO, tiếp xúc với mô hình các tương tác đa lượt nơi nó có thể gọi các công cụ như thực thi mã Python, tìm kiếm văn bản và tìm kiếm hình ảnh.

Các nhà nghiên cứu đã cho Metis đối đầu với các mô hình thị giác mã nguồn mở tiêu chuẩn như LLaVA-OneVision, các máy suy luận chỉ có văn bản và các mô hình tác nhân tiên tiến nhất bao gồm DeepEyes V2 và Skywork-R1V4 có 30 tỷ tham số. Việc đánh giá bao gồm hai khu vực chính: tập dữ liệu nhận thức thị giác và hiểu tài liệu như HRBench và V*Bench, và các nhiệm vụ suy luận toán học và logic nghiêm ngặt như WeMath và MathVista.

Trên tất cả các nhiệm vụ, Metis đã đạt hiệu suất hàng đầu hoặc cạnh tranh cao, vượt trội hơn các mô hình tác nhân hiện có — bao gồm cả Skywork-R1V4 lớn hơn nhiều — trên cả hai nhiệm vụ nhận thức thị giác và suy luận.

Hành vi thực tế của Metis trong các thí nghiệm cũng quan trọng không kém. Ví dụ, khi được đưa một hình ảnh biển báo bảo tàng và hỏi văn bản ở giữa nói gì, các mô hình tác nhân tiêu chuẩn lãng phí thời gian viết mã Python một cách mù quáng để cắt ảnh chỉ để đọc nó. Tuy nhiên, Metis nhận ra rằng văn bản có thể đọc rõ trong ảnh gốc. Nó bỏ qua hoàn toàn các công cụ và sử dụng một lần suy luận duy nhất.

Trong một thí nghiệm khác, mô hình được đưa một biểu đồ phức tạp và được yêu cầu xác định dòng cao thứ hai tại một điểm dữ liệu cụ thể trong một biểu đồ con nhỏ. Metis nhận ra rằng phân tích thị giác chi tiết vượt quá khả năng phân giải gốc của nó và không thể phân biệt chính xác các dòng chồng chéo. Thay vì đoán từ ảnh đầy đủ, nó đã gọi Python để cắt và phóng to độc quyền vào vùng biểu đồ con đó, cho phép nó xác định chính xác dòng đó. Nó coi mã như một công cụ chính xác chỉ được triển khai khi bằng chứng thị giác thực sự mơ hồ, không phải là phương án dự phòng mặc định.

Các nhà nghiên cứu đã phát hành Metis cùng với mã nguồn cho HDPO theo giấy phép phép sử dụng Apache 2.0.

"Kết quả của chúng tôi chứng minh rằng việc sử dụng công cụ chiến lược và hiệu suất suy luận mạnh mẽ không phải là sự đánh đổi; thay vào đó, việc loại bỏ các cuộc gọi công cụ nhiễu và dư thừa trực tiếp góp phần vào độ chính xác vượt trội," các nhà nghiên cứu kết luận. "Nói rộng hơn, công việc của chúng tôi gợi ý một sự thay đổi mô hình trong việc học tăng cường bằng công cụ: từ việc chỉ dạy mô hình cách thực thi công cụ, đến cultivating sự khôn ngoan siêu nhận thức về khi nào nên kiềm chế chúng."

Metis của Alibaba: Tác nhân AI giảm thiểu gọi công cụ thừa, tăng độ chính xác vượt trội

Thiếu hụt siêu nhận thức

Tối ưu hóa chính sách tách tầng (HDPO)

Tác nhân Metis: HDPO trong hành động

Bài viết liên quan