Lỗ hổng 'Comment and Control' tấn công Prompt Injection trên Claude Code, Gemini CLI và GitHub Copilot

Một nhà nghiên cứu bảo mật đã công bố phương thức tấn công 'Comment and Control', cho phép khai thác lỗ hổng tiêm nhắc lệnh (prompt injection) trên các công cụ AI phổ biến như Anthropic Claude Code, Google Gemini CLI và GitHub Copilot Agent. Cuộc tấn công này có thể cho phép kẻ xấu chiếm quyền kiểm soát tác nhân AI và đánh cắp thông tin xác thực quan trọng thông qua các bình luận trên GitHub.

Một nhà nghiên cứu bảo mật đã công bố chi tiết về phương thức tấn công tiêm nhắc lệnh (prompt injection) được đặt tên là 'Comment and Control', được phát hiện là hoạt động hiệu quả đối với một số công cụ bảo mật và tự động hóa mã nguồn AI phổ biến.

Phương thức tấn công này do kỹ sư bảo mật Aonan Guan phát hiện, với sự hỗ trợ từ các nhà nghiên cứu Zhengyu Liu và Gavin Zhong thuộc Đại học Johns Hopkins.

Trong một bài đăng trên blog vào thứ Tư, Guan cho biết cuộc tấn công đã được xác nhận là hoạt động trên một số tác nhân AI được sử dụng rộng rãi: Anthropic Claude Code Security Review, Google Gemini CLI Action và GitHub Copilot Agent.

Trợ lý AI Chatbot

Cơ chế tấn công qua bình luận

Các nhà nghiên cứu phát hiện ra rằng các tác nhân AI liên kết với các công cụ này trên GitHub Actions có thể bị chiếm quyền kiểm soát bằng cách sử dụng các bình luận trên GitHub được tạo đặc biệt, bao gồm tiêu đề PR (Pull Request), bình luận và nội dung của vấn đề (issue).

Đối với Claude Code Security Review, công cụ được thiết kế để đánh giá bảo mật tự động, các nhà nghiên cứu đã chứng minh cách một kẻ tấn công có thể sử dụng tiêu đề PR được tạo đặc biệt để lừa tác nhân AI thực thi các lệnh tùy ý, trích xuất thông tin xác thực và tiết lộ chúng dưới dạng một phát hiện bảo mật hoặc một mục trong nhật ký GitHub Actions.

Với Gemini CLI Action, hoạt động như một tác nhân tự chủ cho các tác vụ lập trình thường ngày, các nhà nghiên cứu đã sử dụng một bình luận vấn đề kèm theo tiêu đề tiêm nhắc lệnh, cùng với các bình luận vấn đề được tạo đặc biệt để vượt qua các hàng rào bảo vệ (guardrails) và lấy được toàn bộ API key.

Trong cuộc tấn công 'Comment and Control' nhắm vào GitHub Copilot Agent, các chuyên gia đã tận dụng một bình luận HTML, giúp ẩn tải trọng (payload), để vượt qua bộ lọc môi trường, quét tìm các bí mật và vượt qua tường lưới mạng.

Nguyên nhân kiến trúc và phản hồi từ nhà sản xuất

Cuộc tấn công 'Comment and Control' có thể gây ra mối đe dọa nghiêm trọng, vì lời nhắc độc hại của kẻ tấn công được kích hoạt tự động bởi các quy trình làm việc của GitHub Actions mà không cần bất kỳ hành động nào từ nạn nhân — ngoại trừ trường hợp của Copilot, nơi vấn đề của kẻ tấn công phải được gán thủ công cho Copilot bởi nạn nhân.

"Mô hình này có thể áp dụng cho bất kỳ tác nhân AI nào tiêu thụ dữ liệu GitHub không đáng tin cậy và có quyền truy cập vào các công cụ thực thi trong cùng thời gian chạy với các bí mật sản xuất — và ngoài GitHub Actions, đối với bất kỳ tác nhân nào xử lý đầu vào không đáng tin cậy với quyền truy cập vào công cụ và bí mật: bot Slack, tác nhân Jira, tác nhân email, tự động hóa triển khai. Bề mặt tiêm thay đổi, nhưng mô hình thì giống nhau," Guan giải thích.

Các phát hiện đã được báo cáo cho Anthropic, Google và GitHub, và tất cả đều đã xác nhận chúng. Anthropic phân loại vấn đề này là 'nguy kịch' và đã triển khai một số biện pháp giảm thiểu, trao giải thưởng lỗi (bug bounty) 100 USD cho các nhà nghiên cứu. Google đã trả thưởng 1.337 USD.

GitHub đã trao cho các nhà nghiên cứu 500 USD, nói rằng công việc của họ "đã khơi dậy một số cuộc thảo luận nội bộ tuyệt vời", nhưng phân loại vấn đề bảo mật này là một hạn chế kiến trúc đã biết.

Đây là bản demo công khai đầu tiên trên nhiều nhà cung cấp về một mô hình tiêm nhắc lệnh duy nhất trên ba tác nhân AI lớn. Tất cả ba lỗ hổng đều tuân theo cùng một mô hình: dữ liệu GitHub không đáng tin cậy -> tác nhân AI xử lý nó -> tác nhân thực thi lệnh -> thông tin xác thực bị rò rỉ thông qua chính GitHub.

"Vấn đề sâu xa hơn là về kiến trúc: các tác nhân AI này được cung cấp các công cụ mạnh mẽ (thực thi bash, git push, gọi API) và bí mật (API key, token) trong cùng thời gian chạy xử lý đầu vào người dùng không đáng tin cậy. Ngay cả khi tồn tại nhiều lớp phòng thủ — ở cấp độ mô hình, cấp độ lời nhắc và ba lớp thời gian chạy bổ sung của GitHub — chúng đều có thể bị vượt qua vì tiêm nhắc lệnh ở đây không phải là lỗi; đó là bối cảnh mà tác nhân được thiết kế để xử lý," ông nói thêm.

Lỗ hổng 'Comment and Control' tấn công Prompt Injection trên Claude Code, Gemini CLI và GitHub Copilot

Cơ chế tấn công qua bình luận

Nguyên nhân kiến trúc và phản hồi từ nhà sản xuất

Bài viết liên quan