Những thay đổi nhỏ trong kỹ năng AI có thể khiến tác nhân hoạt động sai lệch

Các nhà nghiên cứu cảnh báo rằng việc chỉnh sửa nhẹ các tệp văn bản định nghĩa "kỹ năng" (skills) của AI có thể biến chúng thành công cụ tấn công nguy hiểm. Lỗ hổng này chuyển trọng tâm bảo mật từ mã nguồn sang ngôn ngữ tự nhiên, cho phép kẻ xấu thao túng hành vi của các tác nhân AI mà không cần chèn mã độc.

Sự phổ biến của các tác nhân AI (AI agents) đã mở rộng bề mặt tấn công tiềm năng vượt ra ngoài phạm vi của mã nguồn để bao gồm cả văn bản ngôn ngữ tự nhiên. Các tác nhân AI — là các mô hình được bao bọc bởi phần mềm có khả năng sử dụng công cụ và thực hiện các nhiệm vụ đa bước — thường nhận chỉ thị thông qua các "kỹ năng" (skills) dựa trên văn bản. Các nhà nghiên cứu mới đây đã chứng minh rằng những kỹ năng này hoàn toàn có thể bị vũ khí hóa.

"Nhiều khung tác nhân cho phép người dùng cài đặt các kỹ năng từ các sổ đăng ký trực tuyến để tác nhân có thể khám phá và sử dụng các khả năng mới theo yêu cầu," ông Soheil Feizi, giáo sư khoa học máy tính tại Đại học Maryland (UMD) và người sáng lập/CEO của RELAI.ai, cho biết trong một bài đăng trên mạng xã hội. "Điều này rất mạnh mẽ, nhưng nó cũng tạo ra một bề mặt tấn công mới."

Văn bản trở thành mục tiêu tấn công

Ông Feizi giải thích rằng các kỹ năng không chỉ là mã code hay các thư viện phụ thuộc. Về bản chất, chúng là các hướng dẫn dạng văn bản báo cho tác nhân biết cần làm gì. Các kỹ năng này thường được viết trong tệp SKILL.md, bao gồm các gợi ý (prompts) văn bản cùng với dữ liệu và tham chiếu tài nguyên khác (ví dụ: URL). Chúng có thể được thêm vào lời nhắc khởi tạo của người dùng và các lời nhắc hệ thống có sẵn, sau đó tất cả được đưa vào mô hình để tạo ra phản hồi.

Thông thường, quy trình này diễn ra khi người dùng muốn mô hình thực hiện một nhiệm vụ cụ thể đã được định nghĩa trong tệp kỹ năng, chẳng hạn như thực hiện xem xét chất lượng mã nguồn. Tuy nhiên, khi lời nhắc của mô hình — sự kết hợp giữa đầu vào của người dùng, hướng dẫn trong các kỹ năng và lời nhắc hệ thống — bị sửa đổi vô tình hoặc có chủ đích, đó chính là tình trạng "tiêm nhắc lệnh" (prompt injection).

Nguy cơ từ chuỗi cung ứng ngữ nghĩa

Một kỹ năng có thể đóng vai trò như một cuộc tấn công tiêm nhắc lệnh được người dùng ủy quyền. Nguy hiểm hơn, các tác nhân có thể tự động truy xuất và tải các kỹ năng của bên thứ ba nếu mô tả của chúng có vẻ phù hợp với nhiệm vụ đang thực hiện. Đây chính là điểm yếu mà các hacker có thể khai thác.

Vào tháng 2, công ty bảo mật Snyk đã phát hiện rằng 13,4% các kỹ năng trên ClawHub và skills.sh (khoảng 534 trên 3.984 kỹ năng) "chứa ít nhất một vấn đề bảo mật mức độ nghiêm trọng, bao gồm phân phối mã độc, tấn công tiêm nhắc lệnh và lộ bí mật".

Trong một bài báo nghiên cứu có tựa đề "Under the Hood of SKILL.md: Semantic Supply-chain Attacks on AI Agent Skill Registry" (Dưới lớp vỏ của SKILL.md: Các cuộc tấn công chuỗi cung ứng ngữ nghĩa trên Sổ đăng ký Kỹ năng Tác nhân AI), ông Feizi và các đồng nghiệp tại UMD đã xem xét vai trò của các sổ đăng ký kỹ năng trong việc phân phối các kỹ năng độc hại. Cụ thể, họ phân tích cách các kỹ năng thù địch được khám phá, lựa chọn và thẩm định trước khi thực thi.

"Một kẻ tấn công có thể không cần phải giấu mã độc trong mã thực thi," ông Feizi nói. "Những thay đổi ngữ nghĩa nhỏ trong mô tả kỹ năng có thể ảnh hưởng đến cách kỹ năng được khám phá trong sổ đăng ký, liệu tác nhân có chọn nó thay vì các lựa chọn thay thế hay không, và liệu nó có vượt qua các kiểm tra quản trị hay an toàn hay không."

Thống kê đáng báo động và thủ thuật lẩn tránh

Nhóm nghiên cứu đã chứng minh rằng các trình kích hoạt ngắn chỉ 20 token có thể được thêm vào tệp SKILL.md để ảnh hưởng đến khả năng tác nhân phát hiện ra nó trong sổ đăng ký, tăng khả năng tác nhân chọn kỹ năng đó và tránh bị phát hiện thông qua các chiến lược né tránh ngữ nghĩa.

Về khả năng phát hiện, các nhà nghiên cứu chứng minh họ có thể khiến tác nhân phát hiện kỹ năng của họ thay vì kỹ năng nguồn gốc không bị sửa đổi với tỷ lệ 86% thời gian. Họ cũng thành công trong việc khiến tác nhân chọn kỹ năng của họ thay vì các biến thể khác với tỷ lệ 77,6%. Đặc biệt, họ có thể né tránh các cơ chế quét bảo mật của sổ đăng ký từ 36,5% đến 100% thời gian.

Chiến lược thành công nhất để né tránh phát hiện là làm tràn cửa sổ ngữ cảnh (context window) của bộ quét — làm cho tệp kỹ năng quá dài để bộ quét xử lý hết.

"Trong quy trình xem xét kiểu ClawHub, chỉ 10.000 ký tự đầu tiên của các tệp SKILL.md dài được chuyển đến người xem xét LLM, vì vậy chúng tôi đặt hướng dẫn độc hại vượt quá giới hạn này trong khi vẫn giữ nó trong kỹ năng đã gửi," các tác giả giải thích.

Kết luận

Nghiên cứu này cho thấy việc bảo vệ các tác nhân đòi hỏi phải coi các đặc tả ngôn ngữ tự nhiên là các đối tượng nhạy cảm về bảo mật. Ông Feizi hy vọng điều này sẽ khuyến khích việc thiết kế cẩn trọng hơn các sổ đăng ký kỹ năng, cơ chế xếp hạng, quy trình quản trị và các biện pháp phòng thủ phía tác nhân.

Mã nguồn và tài liệu hỗ trợ cho nghiên cứu này đã được công bố trên GitHub.