Tỷ lệ tấn công Prompt Injection: Anthropic minh bạch nhưng OpenAI, Google và Meta thiếu tiêu chuẩn chung

AI & ML01 tháng 6, 2026·12 phút đọc

Anthropic công bố con số 31,5% tấn công thành công trên trình duyệt cho mô hình Opus 4.8, cao nhất trong số các phòng lab hàng đầu. Tuy nhiên, sự thiếu vắng một tiêu chuẩn đo lường thống nhất khiến việc so sánh độ an toàn giữa các mô hình AI của Anthropic, OpenAI, Google và Meta trở nên cực kỳ khó khăn đối với các chuyên gia bảo mật.

Tỷ lệ tấn công Prompt Injection: Anthropic minh bạch nhưng OpenAI, Google và Meta thiếu tiêu chuẩn chung

Trong số các phòng thí nghiệm AI hàng đầu, Anthropic sở hữu những con số thống kê về prompt injection (tiêm nhắc lệnh) cao nhất được công bố mùa này. Nếu để một chuyên gia red-team (đội đỏ) tấn công vào mô hình mới nhất của Anthropic trên trình duyệt, kẻ tấn công có thể chiếm đoạt nó 31,5% thời gian trước khi các biện pháp bảo vệ được kích hoạt. OpenAI, Google và Meta chưa bao giờ cung cấp cho các lãnh đạo bảo mật một con số tương tự để so sánh. Con số đó trông có vẻ như một điểm yếu. Tuy nhiên, trong sự so sánh này, nó lại là điều ngược lại. Đó là mảnh đất vững chắc duy nhất.

Bốn phòng lab hàng đầu đều đã công bố các tiết lộ về prompt injection, nhưng không hai cái nào giống nhau. Anthropic đã đưa ra 244 trang tài liệu và bốn bề mặt tác nhân (agentic surfaces) lên bàn vào ngày 28 tháng 5. OpenAI chỉ báo cáo một bề mặt là bộ kết nối (connectors). Google đã chuyển chủ đề này ra khỏi thẻ mô hình và đưa vào một khung an toàn riêng biệt. Meta thì hoàn toàn không công bố thẻ mô hình đóng nào. Lưới so sánh dưới đây sẽ ánh xạ những gì mỗi phòng lab đã kiểm tra, đo lường và bốn nơi mà sự so sánh trực tiếp bị phá vỡ.

Prompt injection là việc ẩn một chỉ thị độc hại trong một thứ mà tác nhân AI đọc, chẳng hạn như trang web, tài liệu hoặc kết quả công cụ. Chỉ một dòng mã được cài cắm cũng có thể làm rò rỉ dữ liệu hoặc kích hoạt các hành động không được phê duyệt, và các thẻ hệ thống này là bằng chứng đầu tiên và duy nhất của người mua.

Hiện không có tiêu chuẩn ngành nào để đo lường tất cả những điều này, và đó là gốc rễ của vấn đề. Carter Rees, Phó chủ tịch AI tại Reputation, cho biết trên VentureBeat rằng prompt injection phá vỡ giả định mà mọi công cụ kế thừa từng được xây dựng nên. "Một cụm từ vô hại như 'bỏ qua các hướng dẫn trước đó' có thể mang theo tải trọng (payload) tàn khốc như một tràn bộ nhớ (buffer overflow), nhưng nó không có điểm chung nào với chữ ký malware đã biết." Vì không có chữ ký chung để quét, mỗi phòng lab đã tự xây dựng thước đo của riêng mình, và kết quả không khớp nhau.

Adam Meyers, Phó chủ tịch cấp cao về Phản hoạt động đối phương tại CrowdStrike, cho rằng rủi ro hiện thuộc về người mua để quản lý. "Khi bạn triển khai AI, nó làm tăng bề mặt tấn công của bạn, vì vậy giờ bạn phải có khả năng bảo vệ các mô hình AI đó trước việc lạm dụng của kẻ đối phương, đầu độc dữ liệu hoặc prompt injection." Dữ liệu thực tế của CrowdStrike cho thấy mặt trận đe dọa không đứng yên. Trong Báo cáo Cảnh quan Đe dọa Dịch vụ Tài chính 2026 được công bố vào tháng 5, công ty báo cáo rằng các đối thủ đang sử dụng AI để nén thời gian từ khi truy cập ban đầu đến khi gây tác động nhanh hơn mức mà các hệ thống phòng thủ cũ có thể phản ứng.

Anthropic đo lường bốn bề mặt. Con số thay đổi theo cấp độ nhân tùy thuộc vào bề mặt bạn đọc.

Thẻ hệ thống Opus 4.8 làm được điều mà các hãng khác không làm: nó phân loại prompt injection theo từng bề mặt, và sự chênh lệch chính là câu chuyện.

Đặt mô hình trong môi trường lập trình, một kẻ tấn công thích ứng từ công cụ Shade của Gray Swan đã vượt qua 7,03% số lần thử đơn lẻ khi tính năng suy nghĩ (thinking) được bật. Các biện pháp bảo vệ đã giảm con số này xuống 2,09%.

Đưa cùng lớp tấn công đó vào trình duyệt — bề mặt đằng sau Claude trong Chrome và Claude Cowork — và sàn nhà bị sụp đổ. Anthropic đã để các chuyên gia red-team chuyên nghiệp tấn công 129 môi trường web được giữ lại khỏi quá trình đào tạo và in mọi kết quả trong Bảng 5.2.2.4.A tại trang 81 của thẻ hệ thống. Tỷ lệ trên mỗi lần thử (per-attempt) là tỷ lệ phần trăm của tất cả các lần thử tiêm thành công trên 129 môi trường, mỗi môi trường 10 lần thử. Tỷ lệ trên mỗi kịch bản (per-scenario) là phép cắt khắt khe hơn, tỷ lệ phần trăm các môi trường mà ít nhất một lần thử thành công.

Đọc xuống cột per-attempt mà không có biện pháp bảo vệ, tính năng suy nghĩ bật, tỷ lệ thô giảm theo từng thế hệ, từ Sonnet 4.6 ở mức 50,7% xuống Opus 4.8 ở mức 31,5%. Con số thấp nhất trong bảng là 5,9%, thuộc về Mythos Preview, mà chưa ai mua được. Bật biện pháp bảo vệ lên, Opus 4.8 giảm xuống 0,5%. Tắt tính năng suy nghĩ đi và nó giảm xuống 0 trên tất cả 129 môi trường.

OpenAI chỉ đo lường một bề mặt, với các cuộc tấn công họ đã biết từ trước.

Thẻ hệ thống GPT-5.5, được công bố vào ngày 23 tháng 4 và cập nhật vào ngày 24 tháng 4, xử lý prompt injection ở một nơi duy nhất: một phần riêng về độ bền trước các cuộc tấn công đã biết đối với bộ kết nối. OpenAI báo cáo nó dưới dạng điểm độ bền (robustness score), nơi điểm cao hơn là tốt hơn, nghịch đảo của tỷ lệ tấn công thành công. GPT-5.5 đạt 0,963, giảm so với 0,998 của GPT-5.4-thinking. Con số duy nhất đó là toàn bộ sự tiết lộ.

Anthropic đã kiểm tra bốn bề mặt chống lại một kẻ tấn công thích ứng viết lại cách tiếp cận dựa trên hành vi của mô hình, sau đó chạy chương trình tiền thưởng lỗi (bug bounty) kéo dài một tuần nơi các red-teamer cố gắng phá vỡ mô hình trực tiếp. Khi kết quả lập trình tệ hơn Opus 4.7, thẻ hệ thống đã nói rõ điều đó.

Đặt 0,963 cạnh 31,5%, chúng trông giống như thuộc về một bảng xếp hạng. Nhưng thực tế không phải vậy. Một bên là điểm độ bền chống lại các cuộc tấn công đã biết trên một bề mặt. Bên kia là tỷ lệ tấn công thành công trên mỗi lần thử trên 129 môi trường trình duyệt chống lại một kẻ tấn công thích ứng trong thời gian thực.

Google và Meta chưa bao giờ đưa con số vào thẻ hệ thống

Google đưa prompt injection của Gemini 3 vào mục giảm thiểu (mitigations), và tài liệu ra mắt mô tả khả năng kháng cự mạnh hơn mà không gắn số liệu cụ thể. Báo cáo Khung An toàn Frontier (Frontier Safety Framework) có thực hiện red teaming, nhưng trên các lĩnh vực khả năng, và prompt injection không phải là một trong số đó. Không có thẻ mô hình, không có trang khung, không có số liệu trên mỗi bề mặt nào mà người mua có thể đưa vào bài đánh giá rủi ro.

Meta phát hành các trọng số mở (open weights) mà không có thẻ mô hình đóng. Phòng thủ prompt injection nằm trong một stack riêng, LlamaFirewall của Purple Llama. Một bộ phân loại PromptGuard 2 và trình kiểm toán AlignmentCheck, chạy trên chuẩn mực công cộng AgentDojo với 97 nhiệm vụ, đã cắt tỷ lệ tấn công thành công từ 17,6% (không có phòng thủ) xuống 1,75% (kết hợp). Những con số thực tế. Nhưng chúng chấm điểm các hàng rào an toàn (guardrails) trên một chuẩn mực công cộng, không phải chấm điểm mô hình trên một bề mặt triển khai mà đội ngũ bảo mật sẽ nhận ra.

Lưới so sánh tiết lộ Prompt Injection đa nhà cung cấp

Lưới dưới đây hoạt động với bất kỳ mô hình AI tiên phong nào mà đội ngũ bảo mật đang cân nhắc. Mỗi hàng đánh dấu một nơi mà bốn phòng lab bị chia rẽ. Mỗi sự chia rẽ là nơi mà sự so sánh nhanh chóng bị phá vỡ. Các con số của Anthropic đến từ thẻ hệ thống Opus 4.8. Mọi thứ cho ba hãng còn lại đến từ tài liệu an toàn được công bố bởi từng nhà cung cấp.

Chiều kíchAnthropic, Opus 4.8OpenAI, GPT-5.5Google, Gemini 3.xMeta, Llama stack
Tài liệu an toànThẻ hệ thống, 28/5/2026, 244 trangThẻ hệ thống, 23/4/2026, cập nhật 24/4Thẻ mô hình + Báo cáo Khung An toàn Frontier riêng biệtKhông có thẻ mô hình đóng. Trọng số mở + stack Purple Llama
Chuẩn mực hoặc tập dữ liệu tiêmART từ Gray Swan và UK AISI, công cụ Shade, plus đánh giá trình duyệt nội bộ, 129 môi trườngĐánh giá bộ kết nối nội bộ, các cuộc tấn công đã biếtKhông có cho tiêmAgentDojo, 97 nhiệm vụ
Bề mặt có đánh giá tiêmBốn. Sử dụng công cụ, lập trình, sử dụng máy tính, trình duyệtMột. Bộ kết nốiKhông công bố cho tiêmMột. Nhiệm vụ tác nhân AgentDojo
Hiển thị leo thang đa lần thửCó. Chuẩn mực ART ở 1, 10, 100. Lập trình và sử dụng máy tính ở 1 và 200Không. Chỉ một điểm sốKhôngKhông
Số liệu tiêu đề và đơn vịTỷ lệ tấn công thành công. Trình duyệt, có suy nghĩ, 31,5% thô, 0,5% đã bảo vệĐiểm độ bền, càng cao càng tốt. 0,963, giảm từ 0,998 của GPT-5.4-thinkingKhông công bố. Khẳng định kháng cự tăng lên một cách định tínhTỷ lệ tấn công thành công trên AgentDojo. 17,6% cơ sở xuống 1,75% kết hợp
Tiền thưởng bên ngoài trực tiếpCó. Chương trình tiền thưởng tiêm trực tiếp một tuần với red-teamer bên ngoàiKhông có tiền thưởng tiêm. Chỉ tiền thưởng sinh họcKhông tìm thấyKhông tìm thấy
Tiết lộ sự suy giảmCó, rõ ràng, có số liệuSố giảm từ 0,998 xuống 0,963, không được định khung là sự suy giảmKhẳng định kháng cự tăng, không có số liệuKhông áp dụng

Năm yếu tố đội ngũ bảo mật cần cân nhắc ngay bây giờ

Anthropic đã kiểm tra bốn bề mặt và in mọi con số. OpenAI kiểm tra một. Google không in tỷ lệ trên mỗi bề mặt. Meta chấm điểm các hàng rào an toàn, không phải mô hình. Bốn sự tiết lộ này không cộng lại thành một sự so sánh. Năm bước sau đây sẽ xây dựng nên nó.

  • Kéo mọi tác nhân bạn đã triển khai hoặc lên kế hoạch và gắn thẻ từng cái theo bề mặt nó chạm vào: trình duyệt, mã, bộ kết nối hoặc máy tính để bàn. Tỷ lệ của Anthropic cho Opus 4.8 là 2,09% trên lập trình và 0,5% trên trình duyệt. Một con số tổng hợp không bao quát được cái nào. Kéo tỷ lệ đã công bố của nhà cung cấp cho bề mặt cụ thể của bạn. Nếu nhà cung cấp chưa bao giờ công bố, hãy coi nó là chưa được kiểm tra.

  • Gửi lưới so sánh đa nhà cung cấp cho mọi nhà cung cấp đang được đánh giá. Một điểm số bộ kết nối 0,963 và tỷ lệ trình duyệt 31,5% chưa bao giờ nằm trên cùng một thang đo. Đòi hỏi tỷ lệ tấn công thành công trên mỗi bề mặt, cả thô và đã bảo vệ, với tên phương pháp tấn công được nêu rõ. Các ô trống là những bề mặt không có bằng chứng đầu tiên.

  • Xác nhận bằng văn bản số liệu nào mà tích hợp của bạn sẽ nhận được. Con số 0,5% của Anthropic đến từ Claude trong Chrome và Cowork với đầy đủ stack bảo vệ. Trên API, mô hình được vận chuyển mà không có chúng. Đừng chấp nhận số liệu sản phẩm cho triển khai API.

  • Thêm hai điều khoản vào RFP (Yêu cầu Đề xuất). Nhà cung cấp đã kiểm tra với một kẻ tấn công thích ứng viết lại tải trọng chống lại mô hình, và có ai đó bên ngoài công ty đã cố gắng phá vỡ nó. Anthropic đã chạy công cụ Shade thích ứng của Gray Swan và một chương trình tiền thưởng trả phí một tuần. OpenAI đã kiểm tra các cuộc tấn công đã biết trên một bề mặt. Kẻ đối thủ không gửi các tải trọng đã biết.

  • Chạy thử nghiệm tiêm của riêng bạn trước khi bất kỳ tác nhân nào được triển khai. Các con số của nhà cung cấp đến từ môi trường của nhà cung cấp với các lệnh hệ thống của nhà cung cấp. Stack của bạn có các lệnh nhắc (prompt), quyền hạn và quyền truy cập dữ liệu riêng. Thiết lập ngưỡng vượt qua. Bất cứ thứ gì cao hơn ngưỡng đó sẽ không được đưa vào hoạt động.

Kết luận: Hiện tại chưa có tiêu chuẩn nào cho việc này. Con số của nhà cung cấp cho bạn biết họ đã chọn đo lường cái gì. Đội red-team của riêng bạn cho bạn biết bạn đang tiếp xúc với rủi ro gì.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗