Ba tác nhân AI lập trình (Claude, Gemini, Copilot) lộ bí mật qua lệnh Prompt Injection

Một nhà nghiên cứu bảo mật đã phát hiện lỗ hổng "Comment and Control", cho phép đánh cắp khóa API từ ba tác nhân AI lập trình hàng đầu chỉ bằng một tiêu đề Pull Request độc hại. Lỗ hổng này ảnh hưởng đến Anthropic Claude, Google Gemini và GitHub Copilot, làm lộ những khoảng cách trong tài liệu bảo mật của các nhà cung cấp so với thực tế bảo vệ.

Một nhà nghiên cứu bảo mật, làm việc cùng các đồng nghiệp tại Đại học Johns Hopkins, đã mở một GitHub pull request, nhập một chỉ thị độc hại vào tiêu đề PR và quan sát hành động Claude Code Security Review của Anthropic tự đăng khóa API của chính nó dưới dạng bình luận. Cùng một cuộc tấn công prompt injection đó cũng hoạt động trên Google’s Gemini CLI Action và GitHub’s Copilot Agent (Microsoft). Không cần bất kỳ hạ tầng bên ngoài nào.

Aonan Guan, nhà nghiên cứu phát hiện ra lỗ hổng này, cùng với các đồng nghiệp Zhengyu Liu và Gavin Zhong, đã công bố đầy đủ tiết lộ kỹ thuật vào tuần trước, gọi nó là “Comment and Control”. GitHub Actions mặc định không để lộ bí mật cho các pull request từ fork khi sử dụng trigger pull_request, nhưng các quy trình công việc sử dụng pull_request_target — mà hầu hết các tích hợp tác nhân AI đều yêu cầu để truy cập bí mật — lại tiêm các bí mật đó vào môi trường runner. Điều này giới hạn bề mặt tấn công thực tế nhưng không loại bỏ nó: người cộng tác, các trường bình luận và bất kỳ kho lưu trữ nào sử dụng pull_request_target với tác nhân AI lập trình đều bị lộ.

Theo dòng thời gian tiết lộ của Guan: Anthropic phân loại đây là lỗ hổng CVSS 9.4 Nghiêm trọng (thưởng 100 USD), Google trả thưởng 1.337 USD và GitHub trao giải 500 USD thông qua Chương trình Thưởng Copilot. Số tiền 100 USD được coi là thấp tương đối so với xếp hạng CVSS 9.4; chương trình HackerOne của Anthropic phân loại các phát hiện về công cụ tác nhân riêng biệt với các lỗ hổng an toàn mô hình. Cả ba bên đều đã vá lỗ một cách âm thầm, và không bên nào phát hành CVE trong NVD hoặc đăng tư vấn bảo mật thông qua GitHub Security Advisories tính đến thứ Bảy tuần vừa rồi.

Lỗ hổng nằm ở đâu?

Cuộc tấn công Comment and Control đã khai thác lỗ hổng prompt injection trong Claude Code Security Review, một tính năng GitHub Action cụ thể mà thẻ hệ thống (system card) của chính Anthropic thừa nhận là “không được gia cố chống lại prompt injection”. Tính năng này được thiết kế để xử lý các đầu vào đáng tin cậy của bên thứ nhất theo mặc định; người dùng chọn xử lý các PR và vấn đề bên ngoài không đáng tin cậy sẽ chấp nhận thêm rủi ro và chịu trách nhiệm hạn chế quyền hạn của tác nhân. Anthropic đã cập nhật tài liệu để làm rõ mô hình hoạt động này sau khi tiết lộ.

Cùng lớp tấn công này hoạt động dưới lớp bảo vệ của OpenAI tại thời gian chạy tác nhân, dựa trên những gì thẻ hệ thống của họ không tài liệu hóa — chứ không phải một cuộc khai thác được chứng minh. Cuộc khai thác là bằng chứng, nhưng câu chuyện nằm ở những gì ba thẻ hệ thống tiết lộ về khoảng cách giữa những gì nhà cung cấp tài liệu hóa và những gì họ bảo vệ.

“Tại ranh giới hành động, không phải ranh giới mô hình,” Merritt Baer, CSO tại Enkrypt AI và cựu Phó CISO tại AWS, nói với VentureBeat khi được hỏi nơi bảo vệ thực sự cần nằm. “Thời gian chạy là bán kính nổ.”

Những gì thẻ hệ thống cho bạn biết

Thẻ hệ thống Opus 4.7 của Anthropic dài 232 trang với các tỷ lệ bị hack định lượng và chỉ số kháng injection. Nó tiết lộ chiến lược mô hình hạn chế (Mythos được giữ lại dưới dạng xem trước khả năng) và tuyên bố trực tiếp rằng Claude Code Security Review là “không được gia cố chống lại prompt injection”. Thẻ hệ thống giải thích cho người đọc rằng thời gian chạy đã bị lộ. Comment and Control đã chứng minh điều đó.

Thẻ hệ thống GPT-5.4 của OpenAI tài liệu hóa việc red teaming rộng rãi và công bố các đánh giá injection lớp mô hình nhưng không có chỉ số kháng ở thời gian chạy tác nhân hoặc thực thi công cụ. “Truy cập đáng tin cậy cho mạng lưới” (Trusted Access for Cyber) mở rộng quy mô truy cập cho hàng ngàn người dùng. Thẻ hệ thống cho bạn biết red teamer đã kiểm tra gì. Nó không cho bạn biết mô hình kháng cự các cuộc tấn công họ tìm thấy như thế nào.

Thẻ mô hình Gemini 3.1 Pro của Google, được phát hành vào tháng Hai, chuyển hầu hết phương pháp luận an toàn sang tài liệu cũ hơn, theo một đánh giá của VentureBeat. Chương trình Red teaming tự động của Google vẫn chỉ mang tính nội bộ. Không có chương trình mạng lưới bên ngoài nào.

Bảy lớp đe dọa không được giải quyết

Mỗi hàng dưới đây đặt tên cho những gì bị phá vỡ, tại sao các biện pháp kiểm soát của bạn bỏ sót nó, Comment và Control đã chứng minh gì và hành động được khuyến nghị cho tuần tới.

Mất khớp bề mặt triển khai: Các chương trình xác minh mạng lưới được thiết kế cho nghiên cứu bảo mật tấn công được ủy quyền, không phải phòng thủ prompt injection. Chúng không mở rộng sang các tenant Bedrock, Vertex hoặc ZDR. Đội ngũ của bạn có thể đang chạy một mô hình đã được xác minh trên một bề mặt chưa được xác minh.
Bí mật CI bị lộ cho tác nhân AI: ANTHROPIC_API_KEY, GEMINI_API_KEY, GITHUB_TOKEN và bất kỳ bí mật sản xuất nào được lưu trữ dưới dạng biến môi trường GitHub Actions đều có thể đọc được bởi mọi bước quy trình công việc, bao gồm cả tác nhân AI lập trình.
Thời gian chạy tác nhân được cấp quyền quá mức: Các tác nhân AI được cấp quyền thực thi bash, git push và quyền ghi API tại thời điểm thiết lập. Quyền hạn không bao giờ bị thu hẹp lại.
Không có tín hiệu CVE cho lỗ hổng tác nhân AI: Đánh giá CVSS 9.4 Nghiêm trọng. Anthropic, Google và GitHub đã vá. Không có mục CVE nào trong NVD. Máy quét lỗ hổng, SIEM và công cụ GRC của bạn đều hiển thị màu xanh.
Các biện pháp bảo vệ mô hình không chi phối hành động của tác nhân: Opus 4.7 chặn lời nhắc email lừa đảo (phishing). Nó không chặn tác nhân đọc $ANTHROPIC_API_KEY và đăng nó dưới dạng bình luận PR. Các biện pháp bảo vệ kiểm soát việc tạo ra, không phải hoạt động.
Đầu vào không đáng tin cậy được phân tích cú pháp thành hướng dẫn: Tiêu đề PR, nội dung PR, bình luận vấn đề, bình luận xem xét mã và thông báo commit đều được tác nhân AI lập trình phân tích cú pháp dưới dạng ngữ cảnh. Bất kỳ cái nào cũng có thể chứa các hướng dẫn đã được tiêm.
Không có dữ liệu kháng injection có thể so sánh giữa các nhà cung cấp: Anthropic công bố các tỷ lệ kháng injection định lượng trong 232 trang. OpenAI công bố các đánh giá injection lớp mô hình nhưng không có tỷ lệ kháng thời gian chạy tác nhân. Google công bố một thẻ vài trang tham chiếu mô hình cũ hơn.

Cần làm gì trước lần gia hạn hợp đồng nhà cung cấp tiếp theo

“Đừng chuẩn hóa theo một mô hình. Hãy chuẩn hóa theo một kiến trúc kiểm soát,” Baer nói. “Rủi ro mang tính hệ thống đối với thiết kế tác nhân, không phải đặc thù cho nhà cung cấp. Hãy duy trì tính di động để bạn có thể hoán đổi mô hình mà không cần xây dựng lại tư thế bảo mật của mình.”

Dưới đây là các bước hành động cụ thể cho các đội ngũ kỹ thuật:

Xây dựng bản đồ triển khai: Xác nhận nền tảng của bạn đủ điều kiện cho các biện pháp bảo vệ thời gian chạy mà bạn nghĩ đang bao phủ bạn. Nếu bạn chạy Opus 4.7 trên Bedrock, hãy hỏi đại diện tài khoản Anthropic của bạn xem những biện pháp bảo vệ prompt injection cấp thời gian chạy nào áp dụng cho bề mặt triển khai của bạn.
Kiểm tra mọi runner về việc lộ bí mật: Chạy lệnh grep -r ‘secrets\.’ .github/workflows/ trên mọi kho lưu trữ có tác nhân AI lập trình. Liệt kê mọi bí mật mà tác nhân có thể truy cập. Thay đổi mọi thông tin xác thực bị lộ.
Bắt đầu chuyển đổi thông tin xác thực ngay bây giờ: Chuyển đổi các bí mật được lưu trữ sang phát hành mã thông báo OIDC tồn tại trong thời gian ngắn. GitHub Actions, GitLab CI và CircleCI đều hỗ trợ liên kết OIDC. Đặt thời gian tồn tại của mã thông báo tính bằng phút, không phải giờ.
Sửa quyền hạn tác nhân cho từng kho lưu trữ: Loại bỏ thực thi bash khỏi mọi tác nhân AI đang thực hiện xem xét mã. Đặt quyền truy cập kho lưu trữ thành chỉ đọc. Kiểm soát quyền ghi (bình luận PR, commit, hợp nhất) đằng sau bước phê duyệt của con người.
Thêm “thời gian chạy tác nhân AI” vào sổ đăng ký rủi ro chuỗi cung ứng của bạn: Chỉ định nhịp độ kiểm tra vá lỗi 48 giờ với mỗi liên hệ bảo mật của nhà cung cấp. Đừng đợi CVE. Chưa có CVE nào xuất hiện cho lớp lỗ hổng này.
Chuẩn bị một câu hỏi mua hàng cho mỗi nhà cung cấp: Viết một câu: “Hãy cho tôi xem tỷ lệ kháng injection định lượng của bạn cho phiên bản mô hình tôi chạy trên nền tảng tôi triển khai đến.” Tài liệu hóa các từ chối để tuân thủ Đạo luật AI của EU cho rủi ro cao. Hạn chót: Tháng 8 năm 2026.

“Các zero-day thô sơ không phải là cách hầu hết các hệ thống bị xâm phạm. Khả năng kết hợp mới là,” Baer nói. “Đó là mã keo, các mã thông báo trong CI, các tác nhân được cấp quyền quá mức. Khi bạn kết nối một mô hình mạnh mẽ vào một thời gian chạy nới lỏng, bạn đã làm phần lớn công việc của kẻ tấn công cho họ rồi.”