Google DeepMind vạch trần "bẫy" web nhằm thao túng các tác nhân AI tự chủ

Các nhà nghiên cứu Google DeepMind đã xác định sáu loại tấn công mới sử dụng nội dung web độc hại để thao túng và khai thác các tác nhân AI. Những cuộc tấn công này tạo ra các bẫy kỹ thuật số có thể tiêm lệnh độc hại, làm hỏng bộ nhớ của AI và thậm chí kích hoạt hành vi chống lại người dùng.

Các nhà nghiên cứu từ Google DeepMind vừa công bố một nghiên cứu chi tiết về cách nội dung web độc hại có thể được sử dụng để thao túng, lừa đảo và khai thác các tác nhân AI (AI agents) tự chủ khi chúng điều hướng trên internet.

Nghiên cứu này chỉ ra rằng kẻ tấn công có thể thiết lập các "bẫy tác nhân AI" (AI Agent Traps) nằm chờ trong môi trường kỹ thuật số. Những bẫy này vũ khí hóa chính khả năng của AI để chống lại chính nó, cho phép kẻ tấn công quảng bá sản phẩm bất hợp pháp, đánh cắp dữ liệu hoặc lan truyền thông tin sai lệch quy mô lớn.

Minh họa AI

Được thiết kế để làm sai lệch hoặc khai thác các tác nhân AI tương tác, các yếu tố nội dung này có thể được nhúng vào các trang web hoặc tài nguyên kỹ thuật số số khác. Google DeepMind lưu ý rằng chúng có thể được "hiệu chỉnh theo khả năng tuân thủ lệnh, chuỗi công cụ và ưu tiên hóa mục tiêu của tác nhân".

Khung sáu loại tấn công mới

Google DeepMind đã phân loại các cuộc tấn công này thành sáu lớp chính, tạo thành một khung lý thuyết mới về bảo mật AI:

Tiêm nội dung (Content Injection): Kẻ tấn công có thể sử dụng các lệnh ẩn trong chú thích HTML hoặc thuộc tính metadata. Ngoài ra, chúng có thể tiêm bẫy động thông qua JavaScript hoặc cuộc gọi cơ sở dữ liệu, hoặc ẩn bẫy bằng cách sử dụng steganography (kỹ thuật ẩn giấu thông tin) và cú pháp của các ngôn ngữ định dạng.
Thao túng ngữ nghĩa (Semantic Manipulation): Loại bẫy này dựa vào ngôn ngữ được lựa chọn cẩn thận để thao túng tác nhân AI vào các thiên kiến nhận thức. Nó cũng nhắm vào các cơ chế xác minh của tác nhân giúp lọc các đầu ra có hại hoặc không phù hợp, hoặc đưa ra mô tả về tính cách của tác nhân để thay đổi hành vi của nó.
Trạng thái nhận thức (Cognitive State): Để làm hỏng bộ nhớ dài hạn của tác nhân, các bẫy trạng thái nhận thức sẽ đầu độc các nguồn dữ liệu bên ngoài mà tác nhân sử dụng, chèn dữ liệu vào các kho lưu trữ nội bộ như nhật ký liên tục, hoặc dựa vào các tương tác môi trường được tạo ra để thay đổi chính sách của tác nhân.
Kiểm soát hành vi (Behavioral Control): Những bẫy này nhằm khai thác khả năng tuân thủ lệnh thông qua các cuộc tấn công "jailbreak" được nhúng trong tài nguyên bên ngoài. Kẻ tấn công có thể ép buộc tác nhân làm rò rỉ thông tin đặc quyền thông qua đầu vào không đáng tin cậy hoặc ép buộc tác nhân tạo ra các tác nhân phụ bị xâm phạm hoạt động với đặc quyền của tác nhân nhưng phục vụ lợi ích của kẻ tấn công.
Hệ thống (Systemic): Các bẫy hệ thống nhắm vào hành vi tổng hợp của nhiều tác nhân chạy trong cùng một môi trường để vũ khí hóa động lực giữa các tác nhân, chẳng hạn như tính đồng nhất, sự liên tục tuần tự, đồng bộ hóa hành vi và hợp tác. Kẻ tấn công cũng có thể sử dụng danh tính giả danh để lật ngược các giả định về niềm tin và quy trình đồng thuận của hệ thống mạng.
Con người trong vòng lặp (Human-in-the-Loop): Các nhà nghiên cứu cho rằng loại bẫy này có thể được sử dụng để chiếm đoạt tác nhân và tấn công người dùng. Ví dụ, các lệnh nhúng vô hình (prompt injection) có thể được sử dụng để lừa tác nhân lặp lại các lệnh phần mềm độc hại tống tiền dưới dạng hướng dẫn khắc phục sự cố.

Bảo mật

Giải pháp và Thách thức

"Việc giảm thiểu mối đe dọa từ các bẫy tác nhân đòi hỏi phải điều hướng một bối cảnh đối đầu phức tạp và liên tục phát triển. Những bẫy này đặt ra ít nhất ba thách thức liên quan: phát hiện, quy trách nhiệm và thích nghi," các nhà nghiên cứu lưu ý.

Các giải pháp được đề xuất bao gồm các biện pháp phòng thủ kỹ thuật như gia cố mô hình nền tảng thông qua việc bổ sung dữ liệu huấn luyện (training data augmentation) và triển khai các cơ chế phòng thủ thời gian chạy (runtime defenses). Ngoài ra, việc cải thiện vệ sinh hệ sinh thái kỹ thuật số, thiết lập các khuôn khổ quản trị nội dung và tạo ra các điểm chuẩn đánh giá chuẩn hóa để xác định các mối đe dọa này cũng được khuyến nghị.

Nghiên cứu kết luận rằng nỗ lực bảo mật các tác nhân trước sự thao túng môi trường là một thách thức nền tảng. Việc giải quyết vấn đề này là điều kiện tiên quyết để hiện thực hóa lợi ích của một hệ sinh thái tác nhân đáng tin cậy, đòi hỏi sự hợp tác bền vững giữa các nhà phát triển, nhà nghiên cứu bảo mật và các nhà hoạch định chính sách.

Google DeepMind vạch trần "bẫy" web nhằm thao túng các tác nhân AI tự chủ

Khung sáu loại tấn công mới

Giải pháp và Thách thức

Bài viết liên quan