Tấn công ngụy trang tên miền: Điểm mù chết người trong hệ thống bảo vệ LLM đa tác nhân

Nghiên cứu mới từ Aaditya Pai đã phát hiện một lỗ hổng nghiêm trọng trong các công cụ phát hiện lệnh tiêm (prompt injection) hiện hành. Khi các payload độc hại được "ngụy trang" để bắt chước từ vựng và cấu trúc quyền hạn của tài liệu mục tiêu, tỷ lệ phát hiện sụt giảm thảm hại, từ gần 100% xuống còn dưới 10% trên một số mô hình AI tiên tiến.

Một nghiên cứu mới vừa được công bố trên arXiv đã hé lộ một lỗ hổng bảo mật nghiêm trọng ảnh hưởng đến các hệ thống Mô hình Ngôn ngữ Lớn (LLM) đa tác nhân. Nghiên cứu chỉ ra rằng các công cụ phát hiện lệnh tiêm (injection detectors) hiện nay đang dễ dàng bị qua mặt bởi một kỹ thuật tấn công tinh vi được gọi là "Domain-Camouflaged Injection" (Tấn công tiêm ngụy trang tên miền).

Điểm mù trong các bộ phát hiện truyền thống

Các hệ thống bảo vệ LLM hiện tại thường sử dụng các bộ phát hiện được hiệu chỉnh trên các payload tĩnh và dựa trên mẫu (template-based). Những payload này thường tự nhận mình là các chỉ thị ghi đè (override directives) với cấu trúc rõ ràng.

Tuy nhiên, nghiên cứu của Aaditya Pai đã xác định một điểm mù mang tính hệ thống: khi các payload độc hại được tạo ra để bắt chước từ vựng và cấu trúc quyền hạn của tài liệu mục tiêu, các bộ phát hiện tiêu chuẩn hoàn toàn thất bại trong việc nhận diện chúng.

Kỹ thuật "Domain-Camouflaged Injection"

Thay vì sử dụng các câu lệnh rõ ràng như "Bỏ qua các hướng dẫn trước đó", kỹ thuật ngụy trang tên miền sẽ hòa mình vào ngữ cảnh của tài liệu. Ví dụ, nếu tài liệu là một hợp đồng pháp lý, lệnh tấn công sẽ sử dụng ngôn ngữ luật sư và cấu trúc văn bản pháp lý để ẩn mình.

Điều này tạo ra một khái niệm mới được gọi là "Camouflage Detection Gap" (Khoảng cách Phát hiện Ngụy trang - CDG), đo lường sự khác biệt về tỷ lệ phát hiện giữa các payload tĩnh và các payload đã ngụy trang.

Tỷ lệ phát hiện sụt giảm nghiêm trọng

Dữ liệu thử nghiệm cho thấy sự sụt giảm đáng kinh ngạc về hiệu suất bảo mật:

Trên mô hình Llama 3.1 8B: Tỷ lệ phát hiện giảm từ 93,8% xuống chỉ còn 9,7%.
Trên mô hình Gemini 2.0 Flash: Tỷ lệ phát hiện giảm từ 100% xuống 55,6%.

Kết quả này được thu thập từ 45 nhiệm vụ trải rộng trên ba lĩnh vực và hai họ mô hình khác nhau, cho thấy CDG là một vấn đề lớn và có ý nghĩa thống kê rõ rệt (chi^2 = 38.03).

Hệ quả cho cộng đồng AI

Nghiên cứu này là một hồi chuông cảnh báo cho các nhà phát triển hệ thống AI. Việc chỉ dựa vào các bộ lọc từ khóa hoặc mẫu cố định không còn đủ để bảo vệ các tác nhân AI (AI agents) trước các cuộc tấn công ngày càng tinh vi.

Để đảm bảo an toàn cho các hệ thống LLM đa tác nhân trong tương lai, các cơ chế bảo vệ cần phải được nâng cấp để có thể hiểu sâu sắc về ngữ cảnh và phát hiện những bất thường về mặt ngữ nghĩa thay vì chỉ dựa vào cú pháp bề mặt.

Tấn công ngụy trang tên miền: Điểm mù chết người trong hệ thống bảo vệ LLM đa tác nhân

Điểm mù trong các bộ phát hiện truyền thống

Kỹ thuật "Domain-Camouflaged Injection"

Tỷ lệ phát hiện sụt giảm nghiêm trọng

Hệ quả cho cộng đồng AI

Bài viết liên quan