Bifrost: Cổng MCP tối ưu giúp giảm 50% chi phí Token và độ trễ

MCP cổ điển thường gửi hàng trăm định nghĩa công cụ vào mỗi lần gọi LLM, gây lãng phí tài nguyên. Bifrost Code Mode giải quyết vấn đề này bằng cách tạo ra các khai báo TypeScript, giúp giảm hơn 50% chi phí Token và 40-50% độ trễ hệ thống. Đây là giải pháp tối ưu dành cho các nhà phát triển đang vận hành từ 3 máy chủ MCP trở lên.

MCP cổ điển thường đổ dồn hàng trăm định nghĩa công cụ vào mỗi lần gọi LLM. Bifrost's Code Mode tạo ra các khai báo TypeScript thay thế cho định nghĩa công cụ thô, giúp cắt giảm việc sử dụng Token hơn 50% và giảm độ trễ từ 40-50%. Nếu bạn đang vận hành 3 máy chủ MCP trở lên, đây là đòn bẩy hiệu quả nhất để tối ưu hóa chi phí.

Vấn đề của MCP cổ điển

Tôi đã thử nghiệm các thiết lập MCP trong vài tháng qua. Cách tiếp cận tiêu chuẩn khá đơn giản: bạn kết nối các máy chủ MCP của mình, và mọi định nghĩa công cụ đều được gửi đến LLM như một phần của cửa sổ ngữ cảnh (context window) trong từng lần gọi duy nhất.

Với 3 máy chủ MCP, bạn có thể sở hữu 30-40 công cụ. Với 10 máy chủ, con số này dễ dàng vượt quá 100. Mỗi định nghĩa công cụ bao gồm tên, mô tả, lược đồ đầu vào và kiểu tham số. Điều này tiêu tốn một lượng lớn Token, và bạn phải trả tiền cho từng Token trong mỗi yêu cầu.

Bài toán rất đơn giản. Nếu định nghĩa công cụ trung bình của bạn là 200 token và bạn có 50 công cụ, đó là 10.000 token chi phí trên mỗi cuộc gọi. Khi vận hành ở quy mô lớn, chi phí này tăng lên rất nhanh.

Bifrost Code Mode thay đổi điều này như thế nào

Bifrost tiếp cận vấn đề theo một hướng khác với Code Mode. Thay vì tiếp xúc trực tiếp với các định nghĩa công cụ thô cho LLM, nó tạo ra các tệp khai báo TypeScript (.d.ts) cho tất cả các công cụ MCP đã kết nối.

Sau đó, LLM sẽ viết mã TypeScript để điều phối nhiều công cụ trong một môi trường sandbox bị hạn chế. Thay vì mô hình thực hiện 5 cuộc gọi công cụ riêng lẻ (mỗi cuộc gọi yêu cầu một vòng chuyến), nó chỉ cần viết một khối mã duy nhất xử lý cả 5 thao tác đó.

Dưới đây là ý nghĩa thực tế của cách làm này:

Giảm Token: Giảm hơn 50% so với MCP cổ điển. Các khai báo TypeScript nhỏ gọn hơn nhiều so với lược đồ JSON đầy đủ, đồng thời mô hình thực hiện ít vòng chuyến hơn.
Giảm độ trễ: Giảm 40-50% so với MCP cổ điển. Ít vòng chuyến hơn có nghĩa là việc thực thi tổng thể nhanh hơn.
Khuyên dùng khi: Bạn đang sử dụng 3 máy chủ MCP trở lên.

Chức năng thực sự của Code Mode

Mô hình thực thi được thiết kế để bị hạn chế. Dưới đây là những gì có sẵn trong sandbox:

Có sẵn: JavaScript ES5.1+, async/await, TypeScript, console.log/error/warn, JSON.parse/stringify và tất cả các ràng buộc công cụ MCP dưới dạng biến toàn cục (globals).

Không có sẵn: ES Modules, Node.js APIs, browser APIs, DOM, bộ hẹn giờ (setTimeout/setInterval), truy cập mạng.

Đây không phải là thời gian chạy (runtime) đa năng. Nó là một môi trường được kiểm soát nơi LLM có thể điều phối các công cụ một cách an toàn. Không có thực thi mã tùy ý, không có cuộc gọi mạng bên ngoài các ràng buộc công cụ.

Bạn có thể cấu hình các ràng buộc công cụ ở cấp máy chủ hoặc cấp công cụ, tùy thuộc vào mức độ chi tiết mà bạn cần kiểm soát. Tài liệu kỹ thuật của Bifrost bao gồm chi tiết về cấu hình ràng buộc này.

Các chỉ số về độ trễ

Chính Bifrost chỉ thêm 11 micro giây độ trễ cho mỗi yêu cầu. Nó được viết bằng ngôn ngữ Go và có thể xử lý thông lượng bền vững 5.000 RPS (yêu cầu mỗi giây), nhanh hơn khoảng 50 lần so với các giải pháp thay thế dựa trên Python.

Đối với các hoạt động cụ thể của MCP:

Độ trễ MCP tổng thể dưới 3ms
Kết nối InProcess: ~0.1ms
Kết nối STDIO: ~1-10ms
Kết nối HTTP: ~10-500ms (phụ thuộc vào mạng)

Khám phá công cụ MCP được lưu vào bộ nhớ đệm sau yêu cầu đầu tiên, vì vậy các cuộc gọi sau đó sẽ tốn khoảng 100-500 micro giây để khám phá và ~50-200 nano giây để lọc công cụ.

Agent Mode: Khía cạnh khác

Bifrost cũng có một Agent Mode biến cổng kết nối này thành thời gian chạy cho tác nhân tự chủ. Bạn cấu hình công cụ nào được tự động phê duyệt thông qua tools_to_auto_execute, đặt max_depth để ngăn chặn các vòng lặp vô hạn, và để tác nhân xử lý việc thực thi lặp lại.

Đây là một trường hợp sử dụng khác so với Code Mode. Agent Mode dành cho quy trình công việc nơi bạn muốn LLM hoạt động tự chủ trong các giới hạn. Code Mode dành cho khi bạn muốn giảm chi phí Token trên các thao tác nặng về công cụ.

Triển khai

Việc cài đặt không cần cấu hình (zero-config). Bạn có thể bắt đầu với npx hoặc Docker. Cổng kết nối này hỗ trợ 19+ nhà cung cấp ngay lập tức (OpenAI, Anthropic, Azure, Bedrock, Gemini, Mistral, Cohere, Groq và các nhà cung cấp khác), tất cả thông qua định dạng API tương thích OpenAI.

# npx
npx -y @maximhq/bifrost

# Docker
docker run -p 8080:8080 maximhq/bifrost

Ai nên sử dụng Code Mode?

Nếu bạn đang vận hành ít hơn 3 máy chủ MCP, chế độ cổ điển (classic mode) có lẽ là đủ. Chi phí tính toán vẫn có thể kiểm soát được.

Nếu bạn đang vận hành 3 máy chủ trở lên, đặc biệt là với hơn 50 công cụ trên các máy chủ đó, Code Mode rất đáng để thử nghiệm. Việc tiết kiệm hơn 50% Token là rất đáng kể ở quy mô lớn, và sự cải thiện 40-50% về độ trễ sẽ cộng dồn qua các quy trình làm việc đa bước của tác nhân.

Tôi đã thử nghiệm điều này trên một thiết lập với 5 máy chủ MCP và hơn 80 công cụ. Tiết kiệm Token hiển thị ngay lập tức trên bảng điều khiển chi phí. Việc giảm số vòng chuyến cũng làm cho phản hồi tổng thể của tác nhân nhanh hơn đáng kể.

GitHub: git.new/bifrost Tài liệu: getmax.im/bifrostdocs Website: getmax.im/bifrost-home

Bifrost: Cổng MCP tối ưu giúp giảm 50% chi phí Token và độ trễ

Vấn đề của MCP cổ điển

Bifrost Code Mode thay đổi điều này như thế nào

Chức năng thực sự của Code Mode

Các chỉ số về độ trễ

Agent Mode: Khía cạnh khác

Triển khai

Ai nên sử dụng Code Mode?

Bài viết liên quan