Xây dựng bộ benchmark mã nguồn mở đánh giá năng lực thực sự của AI Agents

Hai AI Agent được xây dựng trên cùng một nền tảng GPT-4o có thể có độ tin cậy hoàn toàn khác nhau, nhưng các benchmark hiện tại thường chỉ đánh giá mô hình. Để giải quyết vấn đề này, tác giả đã tạo ra Legit — một nền tảng mã nguồn mở giúp chấm điểm năng lực tổng thể của Agent.

Trong kỷ nguyên AI hiện nay, việc đánh giá năng lực của các mô hình ngôn ngữ lớn (LLM) đã trở nên phổ biến. Tuy nhiên, một thực tế thú vị là hai AI Agent được xây dựng trên cùng một mô hình như GPT-4o lại có thể hoạt động với hiệu suất và độ tin cậy khác nhau rất nhiều. Đáng tiếc, hầu hết các bộ tiêu chuẩn (benchmark) hiện nay chỉ tập trung vào việc đánh giá chính mô hình, bỏ qua cách Agent xử lý tác vụ cụ thể.

Nhận thấy khoảng trống này, tôi đã phát triển Legit — một nền tảng mã nguồn mở được thiết kế để chấm điểm toàn bộ hệ thống Agent thay vì chỉ là "bộ não" (model) bên trong.

Minh họa về giao diện và kết quả đánh giá của Legit

Cách thức hoạt động

Để bắt đầu với Legit, người dùng có thể cài đặt dễ dàng thông qua pip và khởi tạo cấu hình cho Agent của mình thông qua dòng lệnh (CLI):

pip install getlegit
legit init --agent "MyBot" --endpoint "http://localhost:8000/run"
legit run v1 --local

Hệ thống sẽ triển khai 36 nhiệm vụ thử nghiệm trải dài trên 6 danh mục chính để kiểm tra khả năng đa dạng của Agent:

Research (Nghiên cứu)
Extract (Trích xuất dữ liệu)
Analyze (Phân tích)
Code (Lập trình)
Write (Viết lách)
Operate (Vận hành)

Phương pháp chấm điểm hai lớp

Legit áp dụng cơ chế đánh giá hai lớp để đảm bảo tính chính xác và thực tiễn:

Lớp 1: Thực hiện các kiểm tra xác định (deterministic checks). Quá trình này chạy hoàn toàn cục bộ trên máy của bạn và miễn phí.
Lớp 2: Sử dụng 3 giám khảo AI hàng đầu hiện nay là Claude, GPT-4o và Gemini. Điểm số cuối cùng sẽ được lấy dựa trên giá trị trung vị (median) từ ba giám khảo này để giảm thiểu thiên kiến.

Sau khi hoàn thành, các Agent sẽ nhận được chỉ số Elo để so sánh sức mạnh tương đối, cũng như xếp hạng vào các bậc (tier) cụ thể như Platinum (Bạch kim), Gold (Vàng), Silver (Bạc) hoặc Bronze (Đồng).

Dự án Legit được phát hành dưới giấy phép Apache 2.0, hoàn toàn miễn phí và mã nguồn mở. Bạn có thể truy cập kho GitHub tại: https://github.com/getlegitdev/legit để tìm hiểu thêm.

Tác giả rất mong muốn nhận được những phản hồi từ cộng đồng về phương pháp chấm điểm này để tiếp tục cải thiện chất lượng trong tương lai.

Xây dựng bộ benchmark mã nguồn mở đánh giá năng lực thực sự của AI Agents

Cách thức hoạt động

Phương pháp chấm điểm hai lớp

Bài viết liên quan