Tác nhân AI trên GitHub dễ bị tấn công đánh cắp thông tin đăng nhập: Anthropic, Google và Microsoft im lặng

Các nhà nghiên cứu bảo mật đã phát hiện lỗ hổng cho phép đánh cắp khóa API và token truy cập từ các tác nhân AI của Anthropic, Google và Microsoft tích hợp trên GitHub Actions. Mặc dù các lỗi này đã được sửa và trả tiền thưởng, nhưng các nhà cung cấp chưa công bố cảnh báo chính thức, khiến nhiều người dùng vẫn có thể gặp rủi ro.

Các nhà nghiên cứu bảo mật đã chiếm quyền kiểm soát ba tác nhân AI phổ biến tích hợp với GitHub Actions bằng cách sử dụng một loại tấn công chèn lệnh (prompt injection) hoàn toàn mới để đánh cắp khóa API và token truy cập. Tuy nhiên, đáng lo ngại là các nhà cung cấp vận hành các tác nhân này chưa hề đưa ra cảnh báo về vấn đề này.

Nhóm nghiên cứu đã nhắm mục tiêu vào Claude Code Security Review của Anthropic, Gemini CLI Action của Google và GitHub Copilot của Microsoft. Sau khi tiết lộ các lỗ hổng, họ đã nhận được tiền thưởng lỗi (bug bounty) từ cả ba công ty. Tuy nhiên, không một nhà cung cấp nào cấp mã định danh lỗ hổng (CVE) hay đăng tải các tư vấn an ninh công khai. Theo nhà nghiên cứu Aonan Guan, đây là một vấn đề lớn.

"Tôi chắc chắn rằng một số người dùng vẫn đang sử dụng các phiên bản dễ bị tổn thương," Guan chia sẻ trong một cuộc phỏng vấn độc quyền. "Nếu họ không đăng tải tư vấn an ninh, những người dùng đó có thể không bao giờ biết mình đang gặp rủi ro hoặc đang bị tấn công."

Guan cảnh báo rằng cuộc tấn công này có thể hoạt động trên các tác nhân khác tích hợp với GitHub, cũng như các GitHub Actions cho phép truy cập vào công cụ và bí mật, chẳng hạn như bot Slack, tác nhân Jira, tác nhân email và tác nhân tự động hóa triển khai.

Cơ chế tấn công "Comment and Control"

Guan gọi loại tấn công chèn lệnh này là "comment and control" (bình luận và kiểm soát), một cách chơi chữ dựa trên thuật ngữ "command and control" (chỉ huy và kiểm soát). Toàn bộ cuộc tấn công diễn ra ngay bên trong GitHub mà không cần bất kỳ hạ tầng chỉ huy và kiểm soát bên ngoài nào.

Về cơ bản, nó cho phép kẻ tấn công kiểm soát dữ liệu trên GitHub bằng cách chèn một lệnh (prompt) vào tiêu đề pull request, nội dung vấn đề (issue body) hoặc bình luận vấn đề. Các tác nhân AI chạy trong GitHub Actions sẽ xử lý dữ liệu này, thực thi các lệnh và sau đó làm lộ thông tin xác thực thông qua chính GitHub.

Guan chỉ ra sự khác biệt quan trọng giữa phương pháp này và chèn lệnh gián tiếp kinh điển. Chèn lệnh gián tiếp là "phản ứng": kẻ tấn công gieo mã độc vào một trang web hoặc tài liệu và chờ nạn nhân yêu cầu AI xử lý nó. Trong khi đó, "Comment and Control" là "chủ động": quy trình công việc GitHub Actions kích hoạt tự động dựa trên tiêu đề pull request hoặc nội dung vấn đề.

"Chỉ cần mở một PR hoặc gửi một issue là có thể kích hoạt tác nhân AI mà không cần bất kỳ hành động nào từ nạn nhân," Guan giải thích.

Tiêu hóa Claude, Gemini và Copilot

Guan ban đầu phát hiện lỗ hổng trong Claude Code Security Review của Anthropic. Tác nhân này sử dụng Claude để phân tích các thay đổi mã và pull request nhằm tìm lỗ hổng. Guan nhận thấy rằng tác nhân đọc dữ liệu GitHub (bao gồm tiêu đề PR, nội dung issue và bình luận) và xử lý nó như một phần của ngữ cảnh nhiệm vụ.

Ý tưởng táo bạo của Guan là: Nếu ông có thể chèn các chỉ thị độc hại vào dữ liệu này, ông có thể chiếm quyền kiểm soát tác nhân. Ông đã gửi một pull request và chèn các chỉ thị độc hại vào tiêu đề PR, yêu cầu Claude thực thi lệnh whoami bằng công cụ Bash và trả về kết quả dưới dạng một "phát hiện bảo mật".

Claude đã thực thi lệnh được chèn và nhúng kết quả vào phản hồi JSON của nó, sau đó được đăng dưới dạng bình luận pull request. Guan sau đó đã chứng minh rằng kỹ thuật này cũng có thể làm lộ thông tin xác thực nhạy cảm hơn như token truy cập GitHub hoặc khóa API của Anthropic.

Sau khi xác thực kỹ thuật này hoạt động với Claude, Guan và các nhà nghiên cứu từ Đại học Johns Hopkins đã xác minh các cuộc tấn công tương tự chống lại Google Gemini CLI Action và GitHub Copilot Agent.

Với Google Gemini, các nhà nghiên cứu đã sử dụng một tiêu đề chứa prompt độc hại và thêm các bình luận với các chỉ định tăng cấp để ghi đè các hướng dẫn an toàn của Gemini, khiến nó làm lộ khóa API. Google đã trả tiền thưởng 1.337 USD cho lỗi này.

Đối với GitHub Copilot Agent của Microsoft, việc tấn công phức tạp hơn một chút do các lớp bảo mật thời gian chạy như lọc môi trường, quét bí mật và tường lửa mạng. Tuy nhiên, Guan tuyên bố: "Tôi đã vượt qua tất cả chúng."

Cuộc tấn công Copilot yêu cầu kẻ tấn công chèn các chỉ thị độc hại vào một bình luận HTML mà Markdown hiển thị của GitHub làm ẩn đối với con người. Nạn nhân, người không thể thấy trình kích hoạt ẩn này, sẽ giao vấn đề cho tác nhân Copilot để sửa. GitHub đã trả 500 USD cho lỗi này.

Giải pháp và khuyến nghị

Tổng cộng, Guan và các đồng nghiệp đã chứng minh rằng kẻ tấn công có thể sử dụng kỹ thuật này để đánh cắp khóa API của Anthropic và Gemini, nhiều token GitHub và "bất kỳ bí mật nào khác được hiển thị trong môi trường chạy GitHub Actions".

Guan khuyến nghị nên coi chèn lệnh như một dạng lừa đảo (phishing), nhưng dành cho máy móc thay vì con người. Các tổ chức nên đối xử với các tác nhân AI giống như nhân viên con người.

"Hãy tuân theo nguyên tắc chỉ biết những gì cần biết," Guan nói. "Ví dụ, nếu tác nhân xem xét mã không cần thực thi bash, đừng cấp cho nó công cụ này. Sử dụng danh sách cho phép để tác nhân chỉ truy cập những gì cần thiết để hoàn thành công việc của nó."

Nếu nhiệm vụ của tác nhân là tóm tắt các vấn đề, chúng không cần thông tin xác thực cho quyền truy cập ghi của GitHub. "Hãy coi các tác nhân là một nhân viên siêu mạnh mẽ. Chỉ cung cấp cho họ những công cụ họ cần để hoàn thành nhiệm vụ."

Tác nhân AI trên GitHub dễ bị tấn công đánh cắp thông tin đăng nhập: Anthropic, Google và Microsoft im lặng

Cơ chế tấn công "Comment and Control"

Tiêu hóa Claude, Gemini và Copilot

Giải pháp và khuyến nghị

Bài viết liên quan