Google ra mắt GKE Agent Sandbox và Hypercluster tại Next '26, biến Kubernetes thành nền tảng cho AI Agent
Tại sự kiện Cloud Next '26, Google đã công bố GKE Agent Sandbox và Hypercluster, đánh dấu bước tiến lớn trong việc biến Kubernetes thành hệ điều hành cho kỷ nguyên trí tuệ nhân tạo. Agent Sandbox cung cấp khả năng cách ly hạt nhân an toàn để thực thi mã của AI agent với tốc độ 300 sandbox mỗi giây, trong khi Hypercluster cho phép quản lý tới một triệu chip từ một điểm điều khiển duy nhất.

Google vừa công bố một loạt cập nhật quan trọng cho Google Kubernetes Engine (GKE) tại hội nghị Cloud Next '26, nổi bật nhất là GKE Agent Sandbox để thực thi mã agent an toàn và GKE hypercluster cho phép quản lý tới một triệu chip tăng tốc từ một mặt phẳng điều khiển duy nhất.
Drew Bradstock, giám đốc cấp cấp phụ trách điều phối và quản lý sản phẩm Kubernetes, và Gari Singh, quản lý sản phẩm nhóm GKE, chia sẻ:
Kubernetes đã nhanh chóng trở thành hệ điều hành cho kỷ nguyên AI, với GKE hiện đang cung cấp năng lượng cho các khối lượng công việc AI của tất cả 50 khách hàng hàng đầu trên nền tảng, bao gồm cả những người xây dựng mô hình biên giới (frontier model) lớn nhất.
Xu hướng này phản ánh sự chuyển dịch rộng rãi hơn của ngành công nghiệp. Theo dữ liệu từ Databricks, các quy trình làm việc AI đa tác giả (multi-agent AI workflows) đã tăng vọt 327% trong những tháng gần đây. Đồng thời, dữ liệu từ CNCF cho thấy 66% tổ chức hiện nay dựa vào Kubernetes để vận hành các ứng dụng và agent AI tạo sinh.
GKE Agent Sandbox: Cách ly an toàn cho mã nguồn không đáng tin cậy
GKE Agent Sandbox cung cấp khả năng cách ly ở cấp hạt nhân (kernel-level isolation) cho việc thực thi mã agent không đáng tin cậy bằng cách sử dụng gVisor — công nghệ sandboxing tương tự được dùng để bảo mật Gemini. Google khẳng định giải pháp này có thể đạt tốc độ 300 sandbox mỗi giây với độ trễ dưới một giây, đồng thời mang lại hiệu suất giá cả tốt hơn tới 30% khi chạy trên Axion so với các đám mây quy mô lớn khác.
Agent Sandbox được ra mắt như một dự án phụ của Kubernetes SIG Apps tại KubeCon NA 2025. Nó giới thiệu ba nguyên thủy mới của Kubernetes: Sandbox (tài nguyên khối lượng công việc cốt lõi), SandboxTemplate (bản thiết kế bảo mật) và SandboxClaim (tài nguyên giao dịch để yêu cầu môi trường thực thi từ các khung công việc cấp cao hơn như ADK hoặc LangChain). Các nhóm pod được cấp sẵn (warm pools) giúp giảm độ trễ khởi động nguội xuống dưới một giây.
Lovable, nền tảng hỗ trợ hơn 200.000 dự án do AI tạo ra mỗi ngày, đang vận hành các khối lượng công việc thực tế trên Agent Sandbox. Fabian Hedin, đồng sáng lập Lovable, nhận định:
Các khả năng sandboxing tiên tiến của GKE cho phép chúng tôi mở rộng quy mô đáng tin cậy lên hàng trăm sandbox an toàn mỗi giây, đảm bảo chúng tôi có thể trao quyền cho các nhà xây dựng, ngay cả trong những giai đoạn nhu cầu lớn khó lường.
Thị trường sandbox cho agent đang trở thành cuộc cạnh tranh ba chiều. Cloudflare gần đây đã phát hành tính năng Sandboxes GA sử dụng cách ly dựa trên container trên mạng lưới biên, cùng với Dynamic Workers dựa trên V8 isolate cho các khối lượng công việc nhẹ hơn. E2B sử dụng microVM Firecracker. Đáng chú ý, theo Alex Gkiouros, Đại sứ Google Cloud và kiến trúc sư nhân viên, GKE Agent Sandbox hiện là dịch vụ sandbox agent gốc duy nhất trong số ba nhà cung cấp đám mây lớn (hyperscalers). Google đặt cược lớn rằng chính Kubernetes nên là môi trường chạy (runtime) cho agent, với gVisor cung cấp khả năng cách ly như một nguyên thủy Kubernetes mã nguồn mở thay vì một tính năng nền tảng độc quyền. Góc độ mã nguồn mở chính là điểm khác biệt chính: bất kỳ cụm Kubernetes nào cũng có thể chạy Agent Sandbox, không chỉ là GKE.
GKE Hypercluster: Quản lý quy mô khổng lồ
GKE hypercluster, hiện ở giai đoạn GA riêng tư, giải quyết một vấn đề mở rộng quy mô khác. Khi nhu cầu đào tạo AI tăng lên, các tổ chức phân mảnh cơ sở hạ tầng của họ thành hàng trăm cụm rời rạc, tạo ra gánh nặng vận hành. Hypercluster cho phép một mặt phẳng điều khiển GKE tuân thủ duy nhất quản lý một triệu chip phân bổ trên 256.000 nút trải dài nhiều khu vực.
Bảo mật dựa trên Titanium Intelligence Enclave của Google, một mô hình "không có quyền truy cập quản trị viên" được xác thực bằng phần cứng, trong đó các trọng số mô hình độc quyền và lời nhắc (prompts) vẫn được niêm phong mật mã khỏi các quản trị viên nền tảng.
Tuy nhiên, ông Gkiouros cũng lưu ý một mối quan tâm thực tế cần cân nhắc:
Một mặt phẳng điều khiển GKE duy nhất quản lý một triệu chip trên nhiều khu vực nghe có vẻ tuyệt vời cho đến khi bạn suy nghĩ kỹ về phạm vi ảnh hưởng (blast radius) và quản lý thay đổi. Giai đoạn GA riêng tư là nơi phù hợp cho nó.
Về mặt suy luận (inference), hai cải tiến mang lại lợi ích hiệu suất cụ thể. Tính năng Predictive Latency Boost trong GKE Inference Gateway sử dụng định tuyến dựa trên ML để giảm độ trễ time-to-first-token lên tới 70%, thay thế các phỏng đoán heuristic bằng lập lịch nhận biết dung lượng thời gian thực. Khả năng này được xây dựng trên llm-d, dự án vừa trở thành dự án Sandbox chính thức của CNCF. Tự động phân tầng lưu trữ KV Cache trên RAM, Local SSD và Google Cloud Storage giải quyết các nút thắt bộ nhớ cho ngữ cảnh dài, với Google báo cáo mức tăng thông lượng 50% cho 10K lời nhắc được chuyển sang RAM và mức cải thiện gần 70% cho 50K lời nhắc được chuyển sang SSD.
Các cập nhật bổ sung bao gồm RL Scheduler để tối ưu hóa khối lượng công việc học tăng cường (reinforcement learning), RL Sandbox để đánh giá phần thưởng cách ly hạt nhân và tự động mở rộng quy mô dựa trên ý định (intent-based autoscaling) trên các chỉ số tùy chỉnh, giúp giảm thời gian phản ứng của HPA từ 25 giây xuống còn 5 giây bằng cách lấy chỉ số trực tiếp từ các pod thay vì từ các ngăn xếp giám sát bên ngoài.
Bài viết liên quan

Công nghệ
Bị AI từ chối hồ sơ xin việc? Cuộc chiến đơn độc của một sinh viên y khoa
05 tháng 5, 2026

Công nghệ
OpenAI tặng ưu đãi Codex đặc biệt cho 8.000 developer sau khi tiệc GPT-5.5 cháy vé
05 tháng 5, 2026

Công nghệ
Tổng hợp thị trường M&A an ninh mạng: 33 thương vụ được công bố trong tháng 4/2026
04 tháng 5, 2026
