Mdarena: Công cụ đánh giá hiệu năng file cấu hình Claude.md trên dữ liệu thực tế

Mdarena là công cụ dòng lệnh giúp các nhà phát triển đo lường hiệu quả của tệp cấu hình CLAUDE.md khi làm việc với tác nhân AI. Bằng cách sử dụng các Pull Request đã hợp nhất từ kho lưu trữ thực, công cụ này cho phép so sánh hiệu suất, chi phí token và tỷ lệ thành công của các hướng dẫn khác nhau.

Mdarena là một công cụ mới nổi bật cho phép các nhà phát triển benchmark (đánh giá hiệu năng) các tệp cấu hình CLAUDE.md của họ dựa trên chính các Pull Requests (PR) trong dự án. Thay vì viết các hướng dẫn cho tác nhân AI một cách mò mẫm, Mdarena cung cấp dữ liệu thực tế để xác định xem cấu hình của bạn đang giúp ích hay gây cản trở cho quá trình phát triển.

Vấn đề với CLAUDE.md hiện tại

Hầu hết các tệp CLAUDE.md hiện nay thường được viết mà không có cơ sở dữ liệu kiểm chứng. Các nghiên cứu chỉ ra rằng việc đưa quá nhiều ngữ cảnh không cần thiết đôi khi lại làm giảm tỷ lệ thành công của tác nhân và gia tăng chi phí tiêu thụ token lên hơn 20%. Mdarena giải quyết vấn đề này bằng cách chuyển quá trình tối ưu hóa từ dự đoán sang đo lường dựa trên các tác vụ từ mã nguồn thực của bạn.

Cơ chế hoạt động

Mdarena hoạt động qua ba lệnh chính để thiết lập và chạy quy trình đánh giá:

mdarena mine: Lệnh này sẽ lấy về các PR đã hợp nhất, lọc chúng và xây dựng một bộ dữ liệu kiểm thử từ chính mã nguồn của bạn. Nó có khả năng tự động phát hiện các lệnh kiểm thử (test commands) từ các tệp CI hoặc cấu hình gói.
mdarena run: Đây là bước thực thi benchmark. Công cụ sẽ checkout kho chứa tại commit trước khi PR, chạy hai kịch bản: cơ sở (baseline, không có CLAUDE.md) và có ngữ cảnh (tiêm CLAUDE.md để Claude phát hiện). Sau đó, nó chạy kiểm thử nếu có sẵn và ghi nhận lại các thay đổi (git diff).
mdarena report: Tạo báo cáo so sánh các bản vá (patches) với dữ liệu chuẩn (PR thực tế). Báo cáo bao gồm tỷ lệ pass/fail của bài kiểm tra, sự trùng lặp tệp/mã, chi phí, số lượng token và ý nghĩa thống kê (paired t-test).

Tích hợp kiểm thử và hỗ trợ Monorepo

Công cụ này có khả năng chạy các bài kiểm thử thực tế của kho lưu trữ để chấm điểm các bản vá do AI tạo ra, tương tự như cách SWE-bench hoạt động. Mdarena có thể phân tích các tệp .github/workflows/*.yml, package.json, pyproject.toml, Cargo.toml và go.mod để tự động phát hiện cách chạy test.

Đối với các dự án sử dụng Monorepo, Mdarena cũng hỗ trợ đầy đủ bằng cách chấp nhận một đường dẫn thư mục để benchmark toàn bộ cây cấu hình CLAUDE.md.

Kết quả thực tế từ các bài kiểm thử

Nhóm phát triển đã chạy Mdarena trên một monorepo sản xuất quy mô lớn với 20 PR đã hợp nhất, sử dụng Claude Opus 4.6. Kết quả cho thấy những điều thú vị:

Tệp CLAUDE.md hiện tại đã cải thiện khả năng giải quyết bài kiểm thử khoảng 27% so với cơ sở không có hướng dẫn.
Một phiên bản hợp nhất tất cả hướng dẫn theo thư mục thành một tệp duy nhất cho kết quả không tốt hơn việc không có CLAUDE.md nào cả.
Đối với các tác vụ khó, các tệp hướng dẫn theo từng thư mục cung cấp ngữ cảnh chính xác, trong khi phiên bản hợp nhất lại gây ra nhiễu và làm giảm hiệu suất.

Kết luận rút ra là tệp CLAUDE.md hiệu quả nhất không phải là dài nhất hay chi tiết nhất, mà là tệp đưa ra đúng ngữ cảnh vào đúng thời điểm cho tác nhân AI.

Tính bảo mật

Mdarena được thiết kế với sự chú trọng đặc trọng về bảo mật. Công cụ chỉ nên chạy trên các kho lưu trữ mà bạn tin tưởng vì nó thực thi mã từ các repo đó. Các tiến trình chạy trong môi trường cách ly (sandbox) dưới /tmp nhưng với quyền cấp người dùng của bạn.

Về tính toàn vẹn của bài kiểm tra benchmark, vì các tác vụ đến từ lịch sử PR, bản vá chuẩn nằm trong lịch sử git. Mdarena ngăn chặn việc tác nhân AI "nhìn trộm" tương lai bằng cách sử dụng git archive để xuất snapshot tại base_commit vào một repo đơn lẻ mới, đảm bảo các commit tương lai hoàn toàn không tồn tại trong cơ sở dữ liệu đối tượng.

Cách cài đặt và sử dụng nhanh

Để bắt đầu với Mdarena, bạn cần cài đặt Python 3.11+, gh CLI, claude CLI và git. Sau đó, bạn có thể cài đặt tool qua pip:

pip install mdarena

Lệnh cơ bản để bắt đầu benchmark:

# Mine 50 merged PRs vào một bộ test
mdarena mine owner/repo --limit 50 --detect-tests

# Chạy benchmark nhiều file CLAUDE.md + baseline
mdarena run -c claude_v1.md -c claude_v2.md -c agents.md

# Xem kết quả
mdarena report

Mdarena cũng tương thích với SWE-bench, cho phép nhập hoặc xuất các tác vụ dưới định dạng JSONL.