MCP Đã Chết: Tại Sao Giao Thức Này Không Phải Là "USB-C Của AI" Như Bạn Nghĩ

MCP (Model Context Protocol) từng được kỳ vọng là tiêu chuẩn kết nối cho AI, nhưng thực tế sử dụng lại cho thấy nó lãng phí tài nguyên, hiệu suất thấp và trùng lặp với CLI/API. Bài viết phân tích sâu về các vấn đề về ngữ cảnh, độ tin cậy và đề xuất giải pháp tối ưu hơn.

MCP (Model Context Protocol) từng được kỳ vọng là "USB-C của hệ sinh thái AI", một chuẩn kết nối chung giúp các Mô hình Ngôn ngữ Lớn (LLM) giao tiếp với các công cụ bên ngoài như GitHub, Linear, Notion hay Slack. Tuy nhiên, các nhà phát triển thực tế đang sử dụng nó hàng ngày bắt đầu có cái nhìn khác biệt.

Tóm lại: MCP đang "ăn" tài nguyên ngữ cảnh (context), độ tin cậy thấp và chức năng của nó bị trùng lặp với các CLI/API đã có từ trước.

MCP và vấn đề ngữ cảnh

Vấn đề 1: MCP chiếm dụng "bàn làm việc" của LLM

Hãy tưởng tượng cửa sổ ngữ cảnh (context window) chính là chiếc bàn làm việc của LLM. Khi bạn kết nối các máy chủ MCP, định nghĩa về các công cụ (tool definitions) một mình đã chiếm mất một phần lớn diện tích chiếc bàn đó.

Chúng tôi đã trích xuất và đo lường định nghĩa công cụ thực tế từ các máy chủ MCP trong môi trường của mình. Kết quả cho thấy, khi kết nối cả 4 máy chủ, có đến 10,5% cửa sổ ngữ cảnh bị tiêu thụ chỉ bởi định nghĩa công cụ.

Điển hình như Linear, một mình nó đã chiếm hơn 12.800 token. Điều này tương đương với 42 định nghĩa công cụ luôn được tải sẵn, ngay cả khi bạn chỉ thực sự sử dụng hai chức năng đơn giản là get_issue và save_issue.

Cập nhật mới nhất từ Claude Code đã ra mắt tính năng "Tool Search with Deferred Loading", giúp tải lược đồ công cụ MCP theo yêu cầu và giảm mức sử dụng ngữ cảnh lên tới hơn 85%. Vấn đề phình to ngữ cảnh đã được giải quyết phần nào, nhưng các lập luận về hiệu suất và kiến trúc dưới đây vẫn hoàn toàn xác lập.

Vấn đề 2: Hiệu suất và Trải nghiệm người dùng

Hiệu suất là một vấn đề已被 biết đến. Tác giả của bài phân tích gốc đã so sánh Jira MCP với REST API trực tiếp và thấy MCP chậm hơn 3 lần cho mỗi lần gọi, và chậm hơn 9,4 lần ở lần gọi đầu tiên (bao gồm cả việc khởi tạo).

Điều này không đặc thù cho Jira, mà là vấn đề mang tính kiến trúc: mỗi máy chủ MCP thêm một lớp xử lý (process layer) giữa LLM và API cơ sở. Sự chậm trễ này áp dụng cho hầu hết các máy chủ MCP như Linear, Notion hay Slack.

Để tra cứu cùng một vấn đề (issue) trên Linear, MCP tiêu tốn khoảng 65 lần nhiều token hơn so với cách tiếp cận sử dụng CLI thông thường.

Giải pháp thay thế: Skills > MCP

Thay vì cố gắng kết nối mọi thứ qua MCP, quan điểm nên là: Cung cấp CLI -> API -> tài liệu, theo thứ tự đó. Các LLM hiện nay đã học rất tốt từ các trang man pages và StackOverflow.

Nếu MCP giống như việc "trải tất cả thực đơn lên bàn ngay từ đầu", thì kỹ năng Skills (các kịch bản điều khiển) giống như việc "yêu cầu thủ thư chỉ đưa cho bạn cuốn sách bạn cần".

Chìa khóa nằm ở việc nhúng hướng dẫn sử dụng CLI vào trong Skills. Kết hợp với chiến lược ưu tiên CLI, đây là cách tiếp cận hiệu quả nhất. Ví dụ, một kỹ năng Linear sẽ chỉ tải các lệnh cần thiết vào ngữ cảnh khi kỹ năng đó được gọi, thay vì mang theo 42 định nghĩa công cụ vô dụng.

Đối với cơ sở dữ liệu (DB), cuối cùng thì chúng cũng chỉ là thực thi truy vấn. LLM đã biết rất rõ về SQL và truy vấn MongoDB. Chỉ cần đưa thông tin sơ đồ DB (schema) và hướng dẫn CLI vào một kỹ năng, nó có thể hoạt động tốt mà không cần MCP. Tuy nhiên, MCP vẫn có những ưu điểm riêng cho database, nhưng với hầu hết quy trình làm việc của nhà phát triển, MCP là sự thiết kế quá phức tạp (over-engineering).

Thực tế thị trường và Chiến lược tại Quandri

Ngày nay, mọi trang đích SaaS đều dán nhãn "hỗ trợ MCP". Việc máy chủ MCP có ổn định hay có ăn hết ngữ cảnh không quan trọng bằng mục tiêu đánh dấu vào ô "chúng tôi cũng có MCP". Đây là một mô hình marketing tương tự như cơn sốt "AI-powered" hay "blockchain-based" của những năm trước. Khi người dùng thực sự kết nối, họ nhận lại hàng chục định nghĩa công cụ, lỗi khởi tạo và các sự cố đổ ngã giữa phiên làm việc.

Tại Quandri, chúng tôi sử dụng cả ba phương pháp song song và chọn cái phù hợp nhất cho từng dịch vụ. Chúng tôi không ép buộc một con đường duy nhất. Nếu một CLI đã tồn tại và xác thực cục bộ, đó thường là lựa chọn nhẹ nhàng nhất. Nếu dịch vụ không có CLI hoặc chúng tôi cần xác thực đồng nhất cho cả đội ngũ, MCP mới phát huy giá trị.

Chloe - Backend Engineer tại Quandri

Việc dạy dỗ kỹ lưỡng quan trọng hơn việc kết nối mọi thứ. Đối với chúng tôi, thay thế các máy chủ MCP bằng các Skills bao bọc các CLI hiện có đã giải phóng khoảng 21.000 token ngữ cảnh, loại bỏ các lỗi khởi tạo khỏi quy trình hàng ngày và giữ công việc gỡ lỗi nằm đúng nơi nó thuộc về: trong terminal.

Chỉ tải những công cụ bạn cần, chỉ khi bạn cần chúng, với hướng dẫn CLI được tích hợp sẵn. MCP có thể sẽ phát triển để giải quyết các vấn đề này, nhưng ở thời điểm hiện tại, Skills mới là người chiến thắng.

Chloe là Backend Engineer tại Quandri. Cô quan tâm đến các quy trình AI, kỹ thuật(agent-native engineering) và cách AI đang thay đổi phương pháp xây dựng phần mềm.