Google: Tấn công Prompt Injection AI gia tăng nhưng độ tinh vi vẫn thấp

Google phân tích các nỗ lực tấn công chèn lệnh (prompt injection) gián tiếp trên web và nhận thấy sự gia tăng trong những tháng gần đây. Tuy nhiên, các nhà nghiên cứu cho rằng mức độ tinh vi của các cuộc tấn công này hiện vẫn còn thấp, dù xu hướng này báo hiệu những rủi ro lớn trong tương lai.

Google mới đây đã phân tích các nỗ lực tấn công chèn lệnh (prompt injection) gián tiếp liên quan đến các trang web trên mạng công cộng và nhận thấy sự gia tăng các cuộc tấn công độc hại trong vài tháng qua. Tuy nhiên, các nhà nghiên cứu của gã khổng lồ công nghệ này cho rằng mức độ tinh vi của chúng hiện vẫn tương đối thấp.

Tấn công AI

Prompt Injection trực tiếp và gián tiếp

Trong bối cảnh an ninh AI, prompt injection trực tiếp được hiểu là một dạng "jailbreak" (phá vỡ nhà tù), nơi người dùng tương tác trực tiếp với AI để lách qua các quy tắc an toàn. Ngược lại, prompt injection gián tiếp giống như một "cái bẫy ẩn", trong đó AI bị lừa bởi các chỉ thị độc hại có sẵn trong dữ liệu bên ngoài mà nó đang xử lý.

Các nhà nghiên cứu an ninh mạng đã phát hiện nhiều phương thức prompt injection gián tiếp trong những năm gần đây. Kẻ tấn công sử dụng các đoạn lệnh (prompt) được thiết kế đặc biệt và cài cắm trên các trang web, trong email hoặc tài nguyên dành cho nhà phát triển. Mục tiêu là lừa các công cụ AI tạo sinh như Gemini, Copilot hay ChatGPT bỏ qua các lớp bảo mật, từ đó hỗ trợ đánh cắp dữ liệu.

Phân tích quy mô thực tế

Mặc dù tồn tại nhiều phương thức tấn công lý thuyết, các chuyên gia tình báo mối đe dọa của Google gần đây đã quyết định xác định mức độ khai thác các lỗ hổng AI này trong thực tế. Nghiên cứu tập trung cụ thể vào các nỗ lực prompt injection gián tiếp được thiết lập trên các trang web internet công cộng.

Đội ngũ nghiên cứu đã quét các ảnh chụp nhanh (snapshot) của trang web được lưu bởi Common Crawl để tìm kiếm các mẫu prompt injection đã biết, sau đó sử dụng Gemini và xem xét thủ công để loại bỏ các dương tính giả.

Từ trò đùa đến tối ưu hóa SEO

Phân tích về các prompt injection được xác định cho thấy một bức tranh đa dạng. Nhiều trường hợp là các trò đùa vô hại, nỗ lực ngăn chặn các tác nhân AI, tối ưu hóa công cụ tìm kiếm (SEO) hoặc các hướng dẫn hữu ích, bên cạnh một số cuộc tấn công độc hại.

Ví dụ, các prompt injection đùa nghịch có thể hướng dẫn các trợ lý AI truy cập thay đổi hành vi của chúng, chẳng hạn như yêu cầu chúng "hành động như một chú chim non và tweet như một con chim".

Hình ảnh minh họa bảo mật

Một số chủ sở hữu trang web đặt các hướng dẫn hữu ích cho các nhiệm vụ tóm tắt nội dung của AI. Tuy nhiên, những người khác lại thêm các prompt được thiết kế để ngăn các trợ lý thu thập dữ liệu (crawl) trang web, bao gồm cả việc nói dối AI rằng nội dung đó nguy hiểm và nhạy cảm.

Các nhà nghiên cứu của Google cũng phát hiện ra một số trang web mà quản trị viên của họ cố gắng tăng cường SEO bằng cách hướng dẫn các trợ lý AI tuyên bố rằng công ty của họ là tốt nhất.

Nguy cơ từ các cuộc tấn công độc hại

Quan trọng nhất từ góc độ an ninh là các nỗ lực prompt injection độc hại. Các nhà nghiên cứu đã phát hiện ra hai loại tấn công như vậy: trích xuất dữ liệu (exfiltration) và phá hủy (destruction).

Một số trang web chứa các prompt hướng dẫn AI thu thập dữ liệu, bao gồm cả địa chỉ IP và thông tin đăng nhập, sau đó gửi chúng đến một địa chỉ email do kẻ tấn công chỉ định.

"Tuy nhiên, đối với nhóm tấn công này, mức độ tinh vi dường thấp hơn nhiều", các nhà nghiên cứu của Google nhận định. Họ bổ sung: "Chúng tôi không quan sát thấy lượng lớn các cuộc tấn công nâng cao (ví dụ: sử dụng các prompt trích xuất dữ liệu đã biết được các nhà nghiên cứu bảo mật công bố vào năm 2025). Điều này có vẻ cho thấy kẻ tấn công chưa đưa nghiên cứu này vào vận hành quy mô lớn."

Trong nhóm phá hủy, một số prompt đã cố gắng lừa AI xóa tất cả các tệp trên máy tính của người dùng, nhưng các nhà nghiên cứu lưu ý rằng các cuộc tấn công như vậy khó có khả năng thành công.

Xu hướng tương lai

Mặc dù không thấy bất kỳ cuộc tấn công nào đặc biệt tinh vi, các chuyên gia của Google chỉ ra rằng họ đã ghi nhận sự gia tăng 32% các nỗ lực prompt injection độc hại giữa tháng 11 năm 2025 và tháng 2 năm 2026. Họ cảnh báo rằng cả quy mô lẫn sự tinh vi của các cuộc tấn công prompt injection dự kiến sẽ tăng lên trong tương lai gần.

" Các phát hiện của chúng tôi cho thấy rằng, mặc dù các nỗ lực tấn công IPI (prompt injection gián tiếp) trên web trong quá khứ có mức độ tinh vi thấp, xu hướng đi lên của chúng cho thấy mối đe dọa này đang trưởng thành và sẽ sớm phát triển về cả quy mô lẫn độ phức tạp", các nhà nghiên cứu kết luận.

Google: Tấn công Prompt Injection AI gia tăng nhưng độ tinh vi vẫn thấp

Prompt Injection trực tiếp và gián tiếp

Phân tích quy mô thực tế

Từ trò đùa đến tối ưu hóa SEO

Nguy cơ từ các cuộc tấn công độc hại

Xu hướng tương lai

Bài viết liên quan