GitHub cắt giảm tới 62% chi phí Token trong quy trình Agent nhờ tối ưu hóa MCP và kiểm toán tự động

GitHub đã công bố thành công trong việc giảm thiểu chi phí tiêu thụ token trong các quy trình tích hợp liên tục (CI) sử dụng AI agent, với mức giảm tối đa đạt 62%. Bằng cách loại bỏ các công cụ MCP không dùng đến, chuyển sang sử dụng GitHub CLI và triển khai các tác nhân kiểm toán hàng ngày, công ty đã tối ưu hóa đáng kể hiệu suất chi phí. Họ cũng giới thiệu tệp tin token-usage.jsonl và chỉ số "Effective Tokens" để theo dõi chi tiêu chính xác hơn trên các mô hình khác nhau.

GitHub đã công bố kết quả từ nỗ lực cắt giảm việc sử dụng token trong các quy trình tác nhân (agentic workflows) mà họ chạy trong các kho lưu trữ (repository) của riêng mình. Công ty ghi nhận mức giảm tới 62% sau khi cắt bỏ các công cụ MCP (Model Context Protocol) không sử dụng, thay thế các lệnh gọi MCP bằng các lệnh GitHub CLI và thêm các tác nhân kiểm toán cũng như tối ưu hóa hàng ngày.

Việc này đặc biệt quan trọng đối với bất kỳ đội ngũ nào đang chạy các tác nhân LLM (Mô hình ngôn ngữ lớn) bên trong CI (Tích hợp liên tục), nơi các công việc theo lịch trình có thể tích lũy chi phí mà không được kiểm soát chặt chẽ.

Theo dõi và Đo lường chi phí Token

GitHub định tuyến mọi lệnh gọi của tác nhân thông qua một API proxy và hiện ghi lại một tệp tin token-usage.jsonl cho mỗi lần chạy. Tệp này nắm bắt các token đầu vào, đầu ra và bộ nhớ đệm (cache) trong một định dạng chuẩn hóa trên các CLI khác nhau như Claude CLI, Copilot CLI và Codex CLI.

Để so sánh giữa các phân khúc mô hình khác nhau, nhóm phát triển sử dụng chỉ số Effective Tokens (ET). Chỉ số này đánh trọng số token đầu ra gấp 4 lần và token đọc từ bộ nhớ cache gấp 0,1 lần, sau đó áp dụng hệ số nhân của mô hình (Haiku 0,25×, Sonnet 1,0×, Opus 5,0×). Nhờ đó, việc giảm 10% ET tương đương với việc giảm 10% chi phí bất kể mô hình nào đang được sử dụng.

Vòng lặp Tối ưu hóa Tự động

Hai quy trình tác nhân chính thúc đẩy vòng lặp tối ưu hóa này:

Daily Token Usage Auditor (Kiểm toán viên): Tổng hợp mức tiêu thụ theo quy trình, gắn cờ các lần chạy bất thường và làm nổi bật các công việc tốn kém nhất.
Daily Token Optimizer (Bộ tối ưu hóa): Khi kiểm toán viên làm nổi bật một quy trình, bộ tối ưu hóa sẽ đọc mã nguồn và nhật ký gần đây, mở một vấn đề (issue) trên GitHub và đề xuất các sửa chữa cụ thể.

Cả hai tác nhân này cũng xuất hiện trong các báo cáo hàng ngày để đảm bảo tính minh bạch.

Các biện pháp cải thiện hiệu quả

Sự kém hiệu quả phổ biến nhất mà bộ tối ưu hóa tìm thấy là các công cụ MCP không được sử dụng. Vì các API của LLM là không trạng thái (stateless), thời gian chạy của tác nhân phải bao gồm lược đồ công cụ với mọi yêu cầu. Một máy chủ MCP của GitHub với 40 công cụ có thể thêm từ 10 đến 15 KB lược đồ cho mỗi lượt gọi. Việc loại bỏ các mục không sử dụng giúp cắt giảm ngữ cảnh cho mỗi lượt gọi từ 8 đến 12 KB trong các quy trình kiểm tra khói (smoke-test) của GitHub.

Ngoài ra, nhóm cũng đã thay thế các lệnh gọi MCP để lấy các diff của pull request và nội dung tệp bằng các lệnh gh CLI. Các lệnh này được tải xuống trước vào các tệp không gian làm việc trước khi tác nhân bắt đầu hoặc được ủy quyền qua thời gian chạy thông qua một proxy HTTP minh bạch giúp giữ token xác thực tránh xa tác nhân.

Kết quả đạt được

Trên hơn một chục quy trình sản xuất, các cải tiến đã mang lại kết quả đáng kể:

Auto-Triage Issues: Giảm 62% ET sau 109 lần chạy sau khi sửa lỗi.
Security Guard: Giảm 43%.
Smoke Claude: Giảm 59%.
Daily Community Attribution: Cải thiện 37%.

Một quy trình là Contribution Check ghi nhận mức tăng 5% ET, mà GitHub cho rằng do sự thay đổi khối lượng công việc hướng tới các pull request lớn hơn chứ không phải do sự suy giảm hiệu năng.

Tuy nhiên, nhóm cũng lưu ý những giới hạn của việc cắt bỏ MCP. Ví dụ, quy trình Daily Community Attribution mang theo tám công cụ MCP không sử dụng và không thực hiện bất kỳ lệnh gọi nào đến chúng trong suốt một lần chạy, nhưng việc loại bỏ chúng không làm giảm ET. GitHub giải thích rằng: "Các tệp kê khai công cụ chỉ chiếm một phần nhỏ trong ngữ cảnh tổng thể của quy trình làm việc này".

GitHub kết luận rằng: "Cuộc gọi LLM rẻ nhất là cuộc gọi mà bạn không thực hiện". Bước tiếp theo của họ là phân tích cấp độ danh mục đầu tư (portfolio-level), nhằm mục tiêu vào các lần đọc trùng lặp và các tạo phẩm trung gian được chia sẻ trên toàn bộ các quy trình trong một kho lưu trữ.