Bảo mật của 100 Tác nhân AI được Kiểm tra và Xếp hạng: Những Điều Bạn Cần Biết

Báo cáo mới từ Adversa AI đã kiểm tra 100 tác nhân AI và kết quả cho thấy chỉ có 11% được xếp hạng là có khả năng phòng thủ tốt. Nghiên cứu chỉ ra "bộ ba chết người" bao gồm quyền truy cập dữ liệu riêng tư, tiếp xúc với nội dung không đáng tin và khả năng thực hiện hành động ra ngoài.

AI đang trở thành người dẫn dắt mới của chúng ta. Chúng ta thường chấp nhận và làm theo những gì nó chỉ thị, nhưng có lẽ chúng ta cần thận trọng hơn.

Mối lo ngại về hiệu suất của các tác nhân AI (AI agents) luôn tồn tại, từ việc "rò rỉ" dữ liệu đến việc đưa ra quyết định sai lầm. Dưới áp lực phải sử dụng nhiều tác nhân tự chủ hơn để chống lại các cuộc tấn công được hỗ trợ bởi AI, Adversa AI đã tiến hành đo lường và so sánh hiệu suất cũng như bảo mật của 100 tác nhân AI trên 10 danh mục khác nhau.

Tuy nhiên, kết quả không mấy khả quan. Trong số 100 tác nhân được kiểm tra và xếp hạng trong "AI Risk Quadrant" mới, chỉ có 11 tác nhân được xếp vào nhóm "có khả năng và được phòng thủ tốt".

Bảo mật AI

"Bộ ba chết người" của Tác nhân AI

Vấn đề cốt lõi nằm ở "bộ ba chết người" (lethal trifecta) của tác nhân AI, mà Adversa mô tả là: "quyền truy cập dữ liệu riêng tư + tiếp xúc với nội dung không đáng tin + khả năng thực hiện hành động ra ngoài". Điều này tương đương trực tiếp với bộ ba tiêu chuẩn: quá nhiều quyền lực + quá nhiều sự tin tưởng + quá ít kiểm soát.

Vì cả ba yếu tố này đều cần thiết để một tác nhân AI đạt được mục tiêu của mình, việc cân bằng giữa khả năng và bảo mật luôn là một thách thức lớn. 98% các tác nhân đều sở hữu bộ ba này, vì vậy không ngạc nhiên khi rất ít trong số chúng vừa có khả năng (hữu ích) vừa có thể phòng thủ (an toàn).

Sự đảo ngược Quyền lực và Bảo vệ

Khả năng và bảo mật dường như loại trừ lẫn nhau. "Cùng những nhà cung cấp tung ra các tác nhân mạnh nhất cũng cung cấp bề mặt tấn công rộng nhất – đây là đặc điểm cấu trúc của thị trường, không phải là một vài ngoại lệ," báo cáo của Adversa nhận định. Họ gọi hiện tượng này là "sự đảo ngược quyền lực-bảo vệ" (power-protection inversion).

Các danh mục tác nhân có sự đảo ngược quyền lực-bảo vệ lớn nhất là "tác nhân máy tính" (computer agents), tiếp theo là "tác nhân mã hóa" (coding agents).

Tác nhân Máy tính

Tác nhân máy tính được thiết kế để thực hiện một nhiệm vụ cụ thể, chẳng hạn như đưa ra quyết định hoặc thực hiện hành động cho người dùng. Vì các tác nhân chỉ hoạt động dựa trên những gì chúng biết (vấn đề ngữ cảnh), chúng được cấp quyền truy cập rộng rãi, thực chất là toàn bộ hệ điều hành.

"Một cuộc tấn công thành công sẽ trao cho kẻ tấn công toàn bộ máy tính của người dùng, không chỉ một ứng dụng hay tab duy nhất," Adversa cảnh báo. Người dùng có ít hoặc không có khả năng nhìn thấy hay kiểm soát những gì tác nhân thực sự làm giữa đầu vào và đầu ra.

Tác nhân Mã hóa

"Tội phạm" tồi tệ thứ hai trong nhóm các gã khổng lồ bị phơi bày là các tác nhân mã hóa. Điều này đáng lo ngại vì các ứng dụng "vibe-coding" đang trở thành tương lai của phần mềm.

Adversa chia nhỏ tác nhân mã hóa thành ba loại: "coding copilots" (người dùng xem xét từng gợi ý), "tác nhân mã hóa tự chủ" (nhập mục tiêu, nhận repo), và "trình xây dựng ứng dụng" (từ lệnh đến ứng dụng triển khai). Ngay cả loại đầu tiên cũng tiềm ẩn rủi ro vì người dùng không biết tác nhân làm gì giữa đầu vào và đầu ra.

"Tác nhân mã hóa không chỉ viết mã – chúng chạm vào shell, các phần phụ thuộc (dependencies) và tokens rất lâu trước khi một bản diff (thay đổi mã) được đưa vào xem xét," Adversa bình luận. Nguy cơ không nằm ở các gợi ý mã xấu, mà là hoạt động có độ tin cậy cao bên trong chuỗi cung ứng phần mềm.

Khuyến nghị: Kiểm soát Đầu ra

Các tác nhân thực chất là những hộp đen – kịch bản "chấp nhận hoặc bỏ qua". Kinh tế học kinh doanh buộc chúng ta phải chấp nhận nó. Vì chúng ta không thể kiểm soát những gì tác nhân làm khi đang chạy, lựa chọn duy nhất là cẩn trọng với đầu vào và kiểm soát đầu ra nếu có thể.

Adversa khuyến nghị tập trung vào việc kiểm soát đầu ra vì ít có thể làm được với các đầu vào (prompt). "Hãy bảo vệ đôi chân bạn có thể sở hữu, không phải đôi chân bạn không thể," họ gợi ý. "Tiêm lệnh (prompt injection) không có giải pháp xác định – không có bộ phân loại nào phân biệt đáng tin cậy dữ liệu của tác nhân với hướng dẫn của nó. Hãy chấp nhận ranh giới đầu vào và chi ngân sách phòng thủ cho các yếu tố của bộ ba mà người vận hành có thể kiểm soát: egress (đường ra), danh tính và các hành động không thể đảo ngược."

Thông điệp cuối cùng từ phân tích chi tiết của Adversa rất rõ ràng: "Hãy cẩn thận ra đó."