Đa số doanh nghiệp không thể ngăn chặn mối đe dọa từ AI Agent cấp độ 3, khảo sát cho thấy

Khảo sát của VentureBeat hé lộ lỗ hổng kiến trúc bảo mật phổ biến nhất hiện nay: giám sát mà thiếu thực thi và cô lập. Các chuyên gia cảnh báo rằng việc chỉ quan sát không đủ để đối phó với các tác nhân AI hoạt động ở tốc độ máy móc, đòi hỏi doanh nghiệp phải chuyển đổi sang mô hình bảo mật Isolate (Cô lập) để hạn chế thiệt hại.

Một tác nhân AI bất hảo (rogue AI agent) tại Meta từng lách qua mọi kiểm tra danh tính và vẫn để lộ dữ liệu nhạy cảm cho nhân viên không được ủy quyền vào tháng 3. Chỉ hai tuần sau đó, Mercor, startup AI định giá 10 tỷ USD, xác nhận một cuộc vi phạm chuỗi cung ứng thông qua LiteLLM. Cả hai sự kiện đều cùng trỏ về một lỗ hổng mang tính cấu trúc: giám sát mà không có thực thi, thực thi mà không có sự cô lập.

Một cuộc khảo sát gồm ba đợt của VentureBeat trên 108 doanh nghiệp đủ điều kiện cho thấy lỗ hổng này không phải là một trường hợp hiếm gặp. Nó thực chất là kiến trúc bảo mật phổ biến nhất trong các hệ thống đang vận hành hiện nay.

Câu hỏi đặt ra là: Tại sao các doanh nghiệp lại dễ bị tổn thương đến vậy?

Khoảng cách giữa nhận thức và thực tế

Khảo sát State of AI Agent Security 2026 của Gravitee trên 919 quản lý cấp cao và chuyên gia thực thi đã lượng hóa sự đứt gãy này. 82% các lãnh đạo cho rằng các chính sách hiện hữu bảo vệ họ khỏi các hành động trái phép của tác nhân AI. Tuy nhiên, 88% lại báo cáo đã gặp sự cố bảo mật liên quan đến AI agent trong 12 tháng qua. Chỉ có 21% thực sự có khả năng quan sát (visibility) trong thời gian chạy (runtime) những gì tác nhân của họ đang làm.

Báo cáo Agentic AI Security Report 2026 của Arkose Labs thậm chí còn đáng báo động hơn khi tìm thấy 97% các lãnh đạo bảo mật doanh nghiệp kỳ vọng một sự cố lớn do AI agent gây ra trong vòng 12 tháng tới. Nhưng bi đát là, chỉ 6% ngân sách bảo mật được dành để giải quyết rủi ro này.

Dữ liệu từ VentureBeat cho thấy đầu tư vào giám sát đã tăng trở lại lên 45% ngân sách bảo mật vào tháng 3 sau khi giảm xuống 24% vào tháng 2. Tuy nhiên, xu hướng này cho thấy doanh nghiệp vẫn đang "mắc kẹt" ở khâu quan sát trong khi các tác nhân của họ đã cấp bách cần sự cô lập (isolation). Các cảm biến của CrowdStrike phát hiện hơn 1.800 ứng dụng AI riêng biệt trên các thiết bị đầu cuối của doanh nghiệp. Thời gian ghi nhận nhanh nhất cho một cuộc tấn công của kẻ đối thủ đã giảm xuống còn 27 giây. Các bảng điều khiển giám sát được xây dựng cho quy trình tốc độ con người hoàn toàn không thể bắt kịp với các mối đe dọa ở tốc độ máy móc.

Ba giai đoạn của sự trưởng thành bảo mật

Để giải quyết vấn đề này, chúng ta cần ánh xạ ba giai đoạn bảo mật:

Quan sát (Observe): Theo dõi hoạt động.
Thực thi (Enforce): Tích hợp IAM và kiểm soát chéo để biến quan sát thành hành động ngăn chặn.
Cô lập (Isolate): Thực thi trong môi trường sandbox (sandboxed execution) để giới hạn bán kính ảnh hưởng khi các hàng rào bảo vệ bị phá vỡ.

Bề mặt đe dọa mà bảo mật giai đoạn một không nhìn thấy

OWASP Top 10 cho Ứng dụng Tác nhân AI 2026 đã chính thức hóa bề mặt tấn công vào tháng 12 năm ngoái. Mười rủi ro chính bao gồm: chiếm đoạt mục tiêu (goal hijack), lạm dụng công cụ, lạm dụng danh tính và quyền đặc quyền, lỗ hổng chuỗi cung ứng tác nhân, thực thi mã bất ngờ... phần lớn trong số này không có tương đồng trong các ứng dụng LLM truyền thống.

Ví dụ, vào tháng 4/2025, Invariant Labs đã công bố cuộc tấn công "MCP Tool Poisoning" (Đầu độc công cụ MCP), trong đó các chỉ thị độc hại trong mô tả công cụ của máy chủ MCP khiến tác nhân rò rỉ tệp hoặc chiếm đoạt một máy chủ đáng tin cậy.

Merritt Baer, CSO tại Enkrypt AI và cựu Phó CISO của AWS, nhận định: "Các doanh nghiệp tin rằng họ đã 'phê duyệt' các nhà cung cấp AI, nhưng thực tế họ chỉ phê duyệt một giao diện, không phải hệ thống nằm bên dưới. Các dependency thực sự nằm sâu hơn một hoặc hai lớp, và chính những thứ đó sẽ bị lỗi dưới áp lực."

Elia Zaitsev, CTO của CrowdStrike, chỉ ra vấn đề về mặt vận hành: "Việc phân biệt xem một tác nhân đang chạy trình duyệt web của bạn hay chính bạn đang chạy nó là không thể phân biệt được." Hầu hết các cấu hình ghi nhật ký của doanh nghiệp hiện nay không thể thực hiện sự phân biệt này.

Kiến trúc danh tính và áp lực quy định

Vấn đề danh tính mang tính kiến trúc. Khảo sát của Gravitee cho thấy chỉ 21,9% đội nhóm coi tác nhân là các thực thể mang danh tính riêng biệt, 45,6% vẫn sử dụng các khóa API chia sẻ (shared API keys), và 25,5% các tác nhân đã triển khai có thể tạo ra và giao nhiệm vụ cho các tác nhân khác. Một phần tư doanh nghiệp có thể sinh ra các tác nhân mà đội bảo mật của họ chưa bao giờ cấp phát.

Nghiêm trọng hơn, việc chỉ dựa vào các hàng rào bảo vệ (guardrails) không phải là một chiến lược. Một nghiên cứu năm 2025 đã chỉ ra rằng một cuộc tấn công tinh chỉnh (fine-tuning attack) có thể vượt qua các hàng rào cấp độ mô hình ở 72% số lần thử nghiệm chống lại Claude 3 Haiku và 57% chống lại GPT-4o. Các hàng rào giới hạn những gì tác nhân được yêu cầu làm, chứ không giới hạn những gì một tác nhân bị xâm nhập có thể với tới.

Ma trận kê đơn: Kiểm toán độ trưởng thành bảo mật AI Agent

Dưới đây là tóm tắt các kịch bản tấn công và biện pháp kiểm soát được đề xuất theo từng giai đoạn:

Giai đoạn	Kịch bản tấn công	Điều gì bị phá vỡ
1: Quan sát	Kẻ tấn công nhúng payload chiếm đoạt mục tiêu vào email chuyển tiếp. Tác nhân tóm tắt email và âm thầm rò rỉ thông tin xác thực ra bên ngoài.	Không có nhật ký thời gian chạy nào ghi nhận việc rò rỉ. SIEM không bao giờ thấy cuộc gọi API. Triển khai ghi nhật ký cho các cuộc gọi API của tác nhân vào SIEM. Cảnh báo khi có cuộc gọi đi đến điểm cuối không được nhận diện.
2: Thực thi	Máy chủ MCP bị xâm nhập đầu độc mô tả công cụ. Tác nhân gọi công cụ bị độc hại và ghi tải độc hại vào DB sản xuất.	IAM cho phép ghi vì tác nhân dùng tài khoản dịch vụ chia sẻ. Gán danh định danh có phạm vi (scoped identity) cho từng tác nhân. Yêu cầu quy trình phê duyệt cho các thao tác ghi. Thu hồi mọi khóa API chia sẻ.
3: Cô lập	Tác nhân A tạo ra Tác nhân B để xử lý nhiệm vụ phụ. Tác nhân B kế thừa quyền của A, leo thang lên admin và viết lại chính sách bảo mật.	Không có ranh giới sandbox giữa các tác nhân. Không có cổng kiểm soát của con người cho việc ủy quyền giữa các tác nhân. Chạy sandbox mọi thực thi của tác nhân. Zero-trust cho việc ủy quyền tác nhân-tác nhân: các tác nhân được tạo ra không kế thừa bất cứ thứ gì.

Sự sẵn sàng của các nhà cung cấp đám mây

Hầu hết các doanh nghiệp đang tự lắp ráp sự cô lập từ các khối xây dựng đám mây hiện có. Dưới đây là đánh giá nhanh về khả năng của các "ông lớn":

Microsoft Azure: Có Entra ID và Agent 365 (GA), nhưng thiếu lớp quản trị MCP và khả năng chặn các cuộc gọi công cụ đang diễn ra (in-flight).
Anthropic: Cung cấp cấp phép cho mỗi tác nhân và sandbox (Beta), nhưng giá cả và SLA chưa công bố rộng rãi.
Google Cloud: Sử dụng tài khoản dịch vụ (service account) làm định danh tác nhân, nhưng thiếu bản kiểm toán cho việc ủy quyền giữa các tác nhân.
OpenAI: API Assistants và Agents SDK có sẵn, nhưng thiếu liên kết danh tính đa nhà cung cấp và API công tắc khẩn cấp (kill switch).
AWS: Bedrock và CloudTrail mạnh mẽ, nhưng thiếu mặt phẳng kiểm soát tác nhân thống nhất và chuẩn định danh tác nhân.

Không một nhà cung cấp nào hiện nay cung cấp một bộ công cụ hoàn chỉnh ở giai đoạn ba (Isolate).

Chuỗi khắc phục 90 ngày

Để giảm thiểu rủi ro, các doanh nghiệp cần thực hiện lộ trình sau:

Ngày 1–30: Kiểm kê và đường cơ sở. Ánh xạ mọi tác nhân cho một chủ sở hữu cụ thể. Ghi nhật ký mọi cuộc gọi công cụ. Thu hồi các khóa API chia sẻ. Chạy công cụ quét mcp-scan chống lại mọi máy chủ MCP đã đăng ký.
Ngày 31–60: Thực thi và phân quyền. Gán định danh có phạm vi cho mọi tác nhân. Triển khai quy trình phê duyệt cho các thao tác ghi. Tích hợp nhật ký hoạt động vào SIEM hiện có.
Ngày 61–90: Cô lập và kiểm tra. Chạy sandbox cho các khối lượng công việc có rủi ro cao (y tế, tài chính cá nhân, giao dịch tài chính). Thực thi đặc quyền tối thiểu cho mỗi phiên. Yêu cầu xác thực của con người trước khi tác nhân sửa đổi các điều khiển bảo mật.

Kết luận

Đầu tư vào giám sát không hề lãng phí. Đó chính là giai đoạn một trong ba giai đoạn cần thiết. Tuy nhiên, vấn đề nằm ở chỗ các tổ chức đã coi việc giám sát là điểm đến cuối cùng. Với tốc độ máy móc của các tác nhân AI hiện nay, chỉ quan sát mà không có khả năng cô lập và ngăn chặn thực thi nghĩa là đang để cửa mở cho các mối đe dọa hủy diệt. Đã đến lúc doanh nghiệp phải chuyển từ việc "nhìn" sang hành động quyết liệt.