Bảo mật AI Agent: Anthropic và Nvidia đưa ra các kiến trúc mới để ngăn chặn rủi ro từ mã độc

Tại RSAC 2026, các chuyên gia bảo mật đồng thuận rằng mô hình "zero trust" cần được mở rộng cho AI Agent. Anthropic và Nvidia đã công bố hai kiến trúc mới giải quyết vấn đề bảo mật theo các hướng tiếp cận khác nhau: một bên tách biệt hoàn toàn thông tin đăng nhập, bên còn lại khóa chặt sandbox và giám sát mọi hành động.

Tại hội nghị RSA (RSAC) 2026, bốn bài phát biểu chủ đạo từ các gã khổng lồ công nghệ như Microsoft, Cisco, CrowdStrike và Splunk đã đi đến một kết luận chung mà không cần sự phối hợp trước: mô hình bảo mật "Zero Trust" (tin cậy bằng không) phải được mở rộng để bao trùm cả AI.

Jeetu Patel từ Cisco đã ví von các AI Agent hành động "giống như những thanh thiếu niên: cực kỳ thông minh nhưng hoàn toàn không sợ hậu quả". Thực tế, khảo sát của PwC cho thấy 79% tổ chức đã sử dụng AI Agent, nhưng chỉ có 14,4% có sự phê duyệt bảo mật đầy đủ theo báo cáo của Gravitee. Sự chênh lệch giữa tốc độ triển khai và sự sẵn sàng về bảo mật đang tạo ra một "khoảng trống quản trị" khổng lồ.

Để giải quyết vấn đề này, hai công ty hàng đầu là Anthropic và Nvidia đã đưa ra các kiến trúc mới với những cách tiếp cận khác biệt. Sự khác biệt trong thiết kế của họ cho thấy rủi ro thực sự nằm ở đâu và cách chúng ta có thể kiểm soát "vùng ảnh hưởng" (blast radius) khi một AI Agent bị tấn công.

Vấn đề của kiến trúc đơn khối (Monolithic)

Mô hình mặc định phổ biến hiện nay cho các doanh nghiệp là kiến trúc "đơn khối". Trong mô hình này, mô hình AI suy luận, gọi công cụ, thực thi mã được tạo ra và lưu trữ thông tin đăng nhập (như OAuth tokens, API keys, git credentials) đều nằm trong cùng một quy trình. Mọi thành phần đều tin tưởng lẫn nhau hoàn toàn.

Điều này tạo ra một lỗ hổng nghiêm trọng. Một cuộc tấn công prompt injection (tiêm lệnh) có thể cung cấp cho kẻ tấn công mọi thứ. Tokens có thể bị đánh cắp, phiên làm việc có thể bị chiếm đoạt. Vùng ảnh hưởng không chỉ là Agent, mà là toàn bộ container và mọi dịch vụ kết nối.

Khảo sát của CSA và Aembit cho thấy 43% tổ chức vẫn sử dụng các tài khoản dịch vụ chia sẻ cho Agent, và 68% không thể phân biệt rõ ràng hoạt động của Agent và con người trong nhật ký hệ thống (logs). Không ai thực sự sở hữu trách nhiệm bảo mật cho AI Agent, tạo ra một lỗ hổng quản lý lớn.

Anthropic: Tách biệt "bộ não" khỏi "bàn tay"

Anthropic đã ra mắt tính năng "Managed Agents" trong bản beta công khai, chia nhỏ mọi Agent thành ba thành phần không tin tưởng lẫn nhau:

Bộ não (Brain): Claude và hệ thống định tuyến quyết định.
Bàn tay (Hands): Các container Linux dùng một lần để thực thi mã.
Phiên (Session): Nhật ký sự kiện chỉ được thêm vào (append-only) nằm bên ngoài cả hai thành phần trên.

Đây là sự tách biệt giữa lệnh và thực thi—một mô hình cổ điển trong phần mềm. Thông tin đăng nhập không bao giờ bước vào sandbox. Anthropic lưu trữ OAuth tokens trong một kho bên ngoài (external vault). Khi Agent cần gọi một công cụ MCP, nó gửi một token giới hạn phiên đến một proxy chuyên dụng. Proxy này sẽ lấy thông tin đăng nhập thực từ kho, thực hiện cuộc gọi bên ngoài và trả về kết quả. Agent không bao giờ nhìn thấy token thực.

Điều thú vị là lợi ích bảo mật này lại là tác dụng phụ của một bản sửa hiệu suất. Việc tách biệt bộ não khỏi bàn tay cho phép suy luận bắt đầu trước khi container khởi động, giúp giảm thời gian phản hồi đầu tiên xuống khoảng 60%. Thiết kế zero-trust ở đây cũng là thiết kế nhanh nhất.

Hơn nữa, tính bền vững của phiên làm việc được cải thiện. Nếu container bị sập trong mô hình đơn khối, trạng thái sẽ mất hoàn toàn. Với Managed Agents, nhật ký phiên tồn tại bên ngoài, cho phép một quy trình mới khởi động và tiếp tục công việc mà không mất dữ liệu.

Nvidia: Khóa chặt sandbox và giám sát mọi thứ

Ngược lại, Nvidia với công cụ NemoClaw lại chọn cách không tách biệt Agent khỏi môi trường thực thi. Thay vào đó, họ bao bọc toàn bộ Agent bên trong bốn lớp bảo mật xếp chồng lên nhau và giám sát từng bước di chuyển.

NemoClaw xếp năm lớp thực thi giữa Agent và máy chủ. Nó sử dụng Landlock, seccomp và cách ly không gian mạng ở mức hạt nhân (kernel level). Mạng outbound mặc định là "từ chối tất cả", buộc mọi kết nối bên ngoài phải được phê duyệt thủ công bởi nhân viên vận hành thông qua chính sách dựa trên YAML.

Lớp quan trọng nhất đối với các đội ngũ bảo mật là "xác minh ý định" (intent verification): động cơ chính sách của OpenShell sẽ chặn mọi hành động của Agent trước khi nó chạm vào máy chủ. Tuy nhiên, đánh đổi cho khả năng quan sát mạnh mẽ này là chi phí vận hành cao. Tải trọng của nhân viên vận hành tăng tuyến tính theo hoạt động của Agent. Mọi điểm cuối mới đều cần sự phê duyệt thủ công.

Một điểm yếu khác của NemoClaw là tính bền vững. Trạng thái của Agent được lưu dưới dạng tệp tin bên trong sandbox. Nếu sandbox bị lỗi, trạng thái sẽ mất theo. Không có cơ chế phục hồi phiên bên ngoài nào tồn tại, tạo ra rủi ro mất dữ liệu cho các tác vụ chạy dài.

Khoảng cách về vị trí thông tin đăng nhập

Cả hai kiến trúc đều là bước tiến lớn so với mô hình đơn khối mặc định. Tuy nhiên, điểm khác biệt quan trọng nhất đối với các đội ngũ bảo mật nằm ở câu hỏi: Thông tin đăng nhập nằm gần môi trường thực thi đến mức nào?

Anthropic loại bỏ hoàn toàn thông tin đăng nhập khỏi vùng ảnh hưởng. Nếu kẻ tấn công xâm nhập sandbox qua prompt injection, chúng chỉ nhận được một container dùng một lần không có token và không có trạng thái lưu trữ. Việc đánh cắp thông tin đăng nhập yêu cầu một cuộc tấn công hai bước: ảnh hưởng đến suy luận của bộ não, sau đó thuyết phục nó hành động thông qua một container không chứa gì đáng để đánh cắp.

Ngược lại, NemoClaw giới hạn vùng ảnh hưởng và giám sát mọi hành động bên trong nó. Mặc dù bộ định tuyến quyền riêng tư của Nvidia giữ thông tin đăng nhập suy luận trên máy chủ (ngoài sandbox), nhưng các token nhắn tin và tích hợp (như Telegram, Slack, Discord) vẫn được đưa vào sandbox dưới dạng biến môi trường. Điều này có nghĩa là thông tin đăng nhập bị chặn bởi chính sách, không phải bị loại bỏ về mặt cấu trúc.

Sự phân biệt này đặc biệt quan trọng đối với các cuộc tấn công prompt injection gián tiếp—nơi kẻ đối thủ nhúng các lệnh vào nội dung mà Agent truy vấn. Trong kiến trúc của Anthropic, việc tiêm gián tiếp có thể ảnh hưởng đến suy luận nhưng không thể tiếp cận kho lưu trữ mật khẩu. Trong kiến trúc của NemoClaw, ngữ cảnh bị tiêm nằm ngay cạnh cả suy luận và thực thi bên trong sandbox được chia sẻ.

Kiểm toán kiến trúc Zero Trust cho AI Agent

Để bảo mật hệ thống AI Agent, các doanh nghiệp cần tập trung vào năm ưu tiên sau:

Kiểm toán mọi Agent đã triển khai: Cắm cờ bất kỳ Agent nào lưu trữ OAuth tokens trong môi trường thực thi. Các tài khoản dịch vụ chia sẻ là mục tiêu tấn công đầu tiên.
Yêu cầu cách ly thông tin đăng nhập: Cần chỉ định rõ nhà cung cấp có loại bỏ thông tin đăng nhập về mặt cấu trúc hay chỉ chặn chúng qua chính sách. Cả hai đều giảm rủi ro nhưng theo các mức độ và chế độ thất bại khác nhau.
Thử nghiệm phục hồi phiên: Tắt một sandbox giữa chừng để xác minh trạng thái có tồn tại hay không. Nếu không, các công việc kéo dài sẽ mang rủi ro mất dữ liệu.
Đảm bảo nhân lực cho mô hình quan sát: Kiến trúc của Anthropic tích hợp với quy trình quan sát hiện có, trong khi NemoClaw đòi hỏi một nhân viên vận hành trực tiếp (operator-in-the-loop).
Theo dõi lộ trình xử lý prompt injection gián tiếp: Cả hai kiến trúc chưa giải quyết hoàn toàn vectơ này. Cần yêu cầu các nhà cung cấp cam kết về lộ trình xử lý khoảng trống cụ thể này.

Zero Trust cho AI Agent không còn là một chủ đề nghiên cứu khi hai kiến trúc này được tung ra. Mô hình đơn khối mặc định hiện nay là một trách nhiệm pháp lý. Khoảng cách 65 điểm giữa tốc độ triển khai và sự phê duyệt bảo mật chính là nơi bắt đầu của lớp vi phạm bảo mật tiếp theo.