Azure API Management tại Build 2026: API Mô hình Thống nhất và Bảo mật Mở rộng cho MCP

Microsoft đã công bố các cập nhật quan trọng cho Azure API Management tại Build 2026, bao gồm Unified Model API giúp chuẩn hóa định dạng yêu cầu cho nhiều nhà cung cấp AI và mở rộng chính sách an toàn nội dung sang giao thức MCP cũng như giao tiếp Agent-to-Agent.

Tại hội nghị Build 2026, Microsoft đã công bố sự mở rộng đáng kể các khả năng AI Gateway trong Azure API Management (APIM). Những bổ sung nổi bật bao gồm Unified Model API cho phép khách hàng sử dụng một định dạng API duy nhất trong khi APIM chuyển đổi yêu cầu đến các nhà cung cấp backend khác nhau, hỗ trợ mở rộng cho các mô hình của Anthropic và Google Vertex AI, cũng như các chính sách an toàn nội dung hiện đã bao phủ cả các lệnh gọi công cụ MCP và giao tiếp Agent-to-Agent (A2A).

Đội ngũ phát triển APIM chia sẻ:

"Thay vì giới thiệu các nền tảng quản trị riêng biệt cho các tác nhân (agents), Azure API Management cho phép các tổ chức mở rộng các nguyên tắc quản trị API quen thuộc sang hệ sinh thái tác nhân mới nổi."

API Mô hình Thống nhất (Unified Model API)

Unified Model API hiện đã ở bản xem trước công khai (public preview), giải quyết một điểm khó vận hành ngày càng tăng khi các nhóm doanh nghiệp kết hợp nhiều mô hình từ OpenAI, Anthropic, Google và các nhà cung cấp khác dựa trên hiệu suất, chi phí, độ trễ hoặc yêu cầu khu vực. Mỗi nhà cung cấp lại phơi bày một định dạng API khác nhau. Unified Model API cho phép khách hàng chuẩn hóa trên một định dạng duy nhất — hiện là OpenAI Chat Completions — trong khi APIM chuyển đổi trong suốt các yêu cầu sang định dạng gốc của nhà cung cấp backend, dù đó là Anthropic Messages API hay bất kỳ lược đồ nào khác. Nhờ đó, các nhóm có thể thay đổi nhà cung cấp backend, thêm mô hình mới hoặc định tuyến lưu lượng qua các nhà cung cấp mà không cần thay đổi mã khách hàng.

Đây không chỉ là một lớp tiện ích. Việc tập trung quyền truy cập mô hình phía sau một bề mặt API duy nhất có nghĩa là mọi chính sách quản trị, giới hạn tốc độ, kiểm tra an toàn nội dung và chỉ số token đều được áp dụng nhất quán, bất kể nhà cung cấp nào xử lý suy luận (inference). Các tổ chức đã sử dụng APIM để quản trị API truyền thống có thể mở rộng các mô hình tương tự cho khối lượng công việc AI của họ mà không cần giới thiệu một ngăn xếp quản trị song song.

An toàn nội dung cho MCP và Agent-to-Agent

Việc mở rộng an toàn nội dung sang MCP và A2A là thay đổi quan trọng nhất về mặt kiến trúc. Chính sách llm-content-safety hiện có, vốn quét nội dung yêu cầu và phản hồi của LLM dựa trên Azure Content Safety, hiện cũng bao phủ các đối số lệnh gọi công cụ MCP, văn bản phản hồi MCP và tải trọng tác nhân A2A. Hơn nữa, chính sách cung cấp hai lớp an toàn riêng biệt: lọc dựa trên danh mục (Hate, SelfHarm, Sexual, Violence) với ngưỡng nghiêm trọng có thể cấu hình từ 0 (hạn chế nhất) đến 7 (ít hạn chế nhất), và một thuộc tính shield-prompt riêng biệt kiểm tra cụ thể các cuộc tấn công chèn lệnh đối kháng (adversarial prompt-injection).

Một chi tiết triển khai mà các nhóm cần lưu ý là chính sách hoạt động khác nhau đối với các phản hồi luồng (streaming). Ở chế độ không luồng, một vi phạm sẽ trả về chặn 403 sạch. Ở chế độ luồng, chính sách sẽ lưu sự kiện vào bộ đệm trong một cửa sổ trượt và đơn giản là dừng chuyển tiếp các sự kiện tiếp theo cho khách hàng mà không trả về lỗi. Các tác nhân tiêu thụ hoàn thành luồng cần xử lý việc dừng đột ngột một cách khéo léo thay vì mong đợi mã lỗi rõ ràng. Hai thuộc tính mới là window-size và window-overlap-size cho phép các nhóm tinh chỉnh cách nội dung vượt quá giới hạn 10.000 ký tự của Azure Content Safety được chia để đánh giá.

Mở rộng chỉ số Token

Các chỉ số token đã được mở rộng để phù hợp với thực tế đa nhà cung cấp. APIM hiện ghi nhật ký các token lý luận (reasoning), token được lưu trong bộ nhớ đệm (cached) và token âm thanh vào Application Insights cho các định dạng OpenAI Chat Completions, OpenAI Responses và Anthropic Messages API. Các nhà cung cấp được theo dõi bao gồm Microsoft Foundry, OpenAI, Amazon Bedrock, Google Vertex AI và những cái khác. Đối với các nhóm FinOps xây dựng bảng điều khiển chi phí và cảnh báo ngân sách, các chỉ số mở rộng phản ánh cách các mô hình hiện tại thực sự hoạt động, trong đó lý luận và lưu bộ nhớ đệm tiêu tốn ngân sách token đáng kể mà các chỉ số trước đây không nắm bắt được.

Khám phá và Tích hợp với Azure API Center

Về mặt khám phá, máy chủ dữ liệu Azure API Center MCP đã đạt trạng thái phát hành rộng rãi (GA). Nó đóng vai trò là điểm cuối khám phá doanh nghiệp thống nhất: các tác nhân và công cụ phát triển có thể truy cập các máy chủ MCP, công cụ, API, tác nhân và tài sản AI đã đăng ký thông qua một kết nối MCP duy nhất. Khi một nhóm đăng ký một máy chủ MCP mới trong API Center, nó sẽ tự động có thể được khám phá bởi tất cả các tác nhân được kết nối mà không cần cấu hình lại khách hàng riêng lẻ.

APIM hiện cũng có thể phơi bày các REST API hiện có dưới dạng máy chủ MCP, nghĩa là các API doanh nghiệp tồn tại từ trước kỷ nguyên tác nhân trở nên có thể được gọi bởi tác nhân mà không cần xây dựng lại. Kết hợp với Máy chủ MCP Logic Apps cũng đạt GA tại cùng một hội nghị Build, Microsoft đang xây dựng hai đường song song để cung cấp khả năng doanh nghiệp cho các tác nhân: một qua lớp API gateway (APIM) và một qua lớp nền tảng tích hợp (Logic Apps).

So sánh với các đối thủ cạnh tranh

Bối cảnh cạnh tranh là yếu tố quan trọng đối với các nhóm đang đánh giá các tùy chọn AI gateway. AWS cung cấp Bedrock Guardrails để lọc nội dung và kiểm soát quyền truy cập mô hình, nhưng không có tính năng tương đương với Unified Model API đa nhà cung cấp của APIM hoặc phạm vi bảo hiểm an toàn nội dung MCP/A2A của nó. Apigee của Google đã thêm một số tính năng AI gateway, nhưng không đạt được độ rộng giao thức mà APIM hiện bao phủ. AI Gateway của Cloudflare tập trung vào giới hạn chi tiêu và lưu bộ nhớ đệm thay vì quản trị đa giao thức. Cái đặt của APIM là rằng API gateway, không phải một danh mục sản phẩm mới, là mặt phẳng kiểm soát tự nhiên cho khối lượng công việc AI.

Tình trạng sẵn có

Các khả năng AI gateway có sẵn trên tất cả các cấp độ (tiers) của APIM. Unified Model API hiện ở bản xem trước công khai. An toàn nội dung cho MCP và A2A, chỉ số token mở rộng và máy chủ MCP API Center đã phát hành rộng rãi. Các phòng thí nghiệm AI Gateway cung cấp hơn 30 sổ tay Jupyter thực hành với hướng dẫn từng bước và các mẫu Bicep có thể triển khai.