Lỗ hổng "TrustFall": Tác nhân AI viết code có thể kích hoạt cuộc khủng hoảng chuỗi cung ứng tiếp theo

Các nhà nghiên cứu từ Adversa.AI đã phát hiện lỗ hổng cho phép kẻ tấn công thao túng các tác nhân AI viết code như Claude Code để thực thi mã từ xa và gây ra các cuộc tấn công chuỗi cung ứng. Vấn đề này không chỉ giới hạn ở một công cụ mà là một lỗ hổng chung của các dòng lệnh AI hiện nay do cơ chế "tin cậy" mặc định.

Các nhà nghiên cứu từ Adversa.AI đã phát hiện một lỗ hổng nghiêm trọng cho phép kẻ tấn công lạm dụng tính năng tự động hóa của Claude Code, tiềm ẩn nguy cơ tạo ra mối đe dọa mới cho chuỗi cung ứng phần mềm. Vấn đề này không chỉ giới hạn ở Claude mà còn ảnh hưởng đến nhiều công cụ AI viết code phổ biến khác.

Mối đe dọa từ AI tự động hóa

Agentic AI (AI tác nhân) được thiết kế để hoạt động tự động và thường vô hình nhằm giúp công việc của chúng ta dễ dàng và hiệu quả hơn. Các công cụ tạo code bằng AI cũng không ngoại lệ. Claude Code (được ra mắt vào tháng 5 năm 2025) đã trở thành công cụ phát triển tăng trưởng nhanh nhất trong lĩnh vực khởi nghiệp và kỹ thuật cao, với mức độ hài lòng của người dùng dẫn đầu so với các đối thủ cạnh tranh.

Tuy nhiên, Adversa AI đã phát hiện ra cách thức mà hành vi tự động hóa này có thể bị kẻ tấn công thao túng, từ đó cung cấp quyền thực thi mã từ xa (RCE) chỉ với một cú nhấp chuột, hoặc thậm chí tạo ra mối đe dọa chuỗi cung ứng tiềm năng.

Rủi ro bảo mật từ code bên thứ ba

Cơ chế tấn công "TrustFall"

Tất cả những gì kẻ tấn công cần làm là đặt một đoạn mã hấp dẫn nhưng chứa mã độc vào một kho lưu trữ (repository) trên GitHub. Khi một nhà phát triển sử dụng Claude Code cho một nhiệm vụ mới, công cụ này sẽ quét các kho lưu trữ có sẵn để tìm kiếm tài nguyên hỗ trợ cho nhiệm vụ đó.

Nếu nó định vị, chọn và tải xuống mã độc hại đã được chuẩn bị sẵn, gần như ngay lập tức "game over" cho nhà phát triển. Kẻ tấn công giờ đây chỉ cần người dùng chấp nhận việc sử dụng của Claude Code là đáng tin cậy — điều mà người dùng có xu hướng làm vì tác nhân AI đang thực hiện đúng chức năng của nó.

Hộp thoại chấp nhận của Claude Code chỉ hiển thị thông báo: "Kiểm tra an toàn nhanh: Đây là dự án bạn tạo ra hay dự án bạn tin tưởng?", với tùy chọn mặc định được đặt thành 'tin tưởng'. Trong thực tế, thói quen này không khác nhiều với cảnh báo bảo mật của trình duyệt Chrome — thứ mà hầu hết mọi người thường bấm nút 'cho phép' mà không suy nghĩ nhiều.

"Một lần nhấn phím Enter trên hộp thoại tin cậy sẽ kích hoạt máy chủ dưới dạng quy trình hệ điều hành không sandbox (không bị cô lập) với đầy đủ đặc quyền của nhà phát triển. Không cần gọi công cụ nào từ Claude," Adversa báo cáo.

Tác nhân Claude Code và mã độc

Tác động đến chuỗi cung ứng và CI/CD

Kho lưu trữ bị sao chép chứa các tệp JSON nhỏ ở các vị trí tiêu chuẩn của Claude Code, cung cấp khả năng thực thi mã tùy ý. Cụ thể, thông qua các cài đặt như enableAllProjectMcpServers trong tệp .claude/settings.json, công cụ có thể tự động phê duyệt mọi máy chủ được định nghĩa trong dự án.

Adversa mô tả một số cách mà quá trình này có thể bị lạm dụng, nhưng có thể nguy hiểm nhất là khi Claude Code được sử dụng trong quy trình CI/CD (Tích hợp liên tục/Triển khai liên tục). Nếu nhiệm vụ của người dùng là tạo ra một công cụ mới để phân phối rộng rãi, nó có thể vô tình kích hoạt một cuộc tấn công chuỗi cung ứng hoàn toàn mới.

Alex Polyakov, đồng sáng lập và CTO tại Adversa.AI, chia sẻ với SecurityWeek: "Các nhà phát triển của các công cụ được sử dụng rộng rãi là mục tiêu chính thực tế. Claude Code được cài đặt trên hầu hết các máy của nhà phát triển và các lập trình viên thường xuyên sao chép các repo lạ và chạy Claude trên chúng, vì vậy cuộc tấn công này rất khả thi nếu mã được định đến cho CI/CD của người dùng."

Payload (tải trọng) của cuộc tấn công sẽ đọc các biến môi trường, khóa triển khai, chứng chỉ ký và bất kỳ thông tin đăng nhập nào có sẵn cho trình chạy. Sau đó, trình chạy sẽ âm thầm đưa các chi tiết này vào quy trình xây dựng.

Phản hồi của Anthropic và vấn đề rộng lớn hơn

Adversa đã báo cáo phát hiện của mình cho Anthropic, nhưng ít nhất là cho đến nay, Anthropic đã từ chối can thiệp. Vị trí của họ là nếu người dùng nhấp vào "Có, tôi tin thư mục này", sự đồng ý để sử dụng mọi thứ bên trong thư mục đó đã được đưa ra; và không phải là trách nhiệm của Anthropic can thiệp vào quyết định đó.

Tuy nhiên, người dùng thường không thực sự biết những gì nằm trong thư mục, và việc liệu sự đồng ý thiếu thông tin này có phải là sự đồng ý hợp pháp hay không vẫn còn gây tranh cãi.

Đáng lo ngại hơn, vấn đề này không giới hạn ở Claude Code. Adversa đã kiểm tra cùng một chuỗi hành động đối với Gemini CLI, Cursor CLI và Copilot CLI. Cả bốn công cụ đều hoạt động theo cùng một cách: một repo độc hại có thể tự động phê duyệt và kích hoạt máy chủ MCP ngay khi người dùng chấp nhận lời nhắc tin cậy thư mục, và cả bốn đều mặc định thành 'Có/Tin tưởng'.

Serge Malenkovich, cố vấn truyền thông của Adversa, nhận định: "Đây không phải là vấn đề của Claude Code; đây là một quy ước chung chia sẻ trên các CLI viết code agentic. Một lần nhấn phím Enter là đủ trên bất kỳ công cụ nào trong số này."

Giải pháp và Khuyến nghị

Báo cáo lưu ý rằng vấn đề có thể được giải quyết bằng cách Anthropic chặn các cài đặt như enableAllProjectMcpServers, enabledMcpjsonServers, và permissions.allow khỏi bất kỳ tệp cài đặt nào bên trong dự án, chỉ cho phép các khóa này từ các phạm vi cấu trúc nằm ngoài kho lưu trữ.

Nó cũng cung cấp chi tiết về cách người dùng có thể giảm thiểu các vấn đề mà không cần đợi Anthropic. Ví dụ, một khuyến nghị cụ thể cho vấn đề CI/CD ở trên là: "Nếu một pipeline thực sự cần Claude Code hoạt động không tương tác, hãy đặt cổng (gate) trên các nhánh nơi các cam kết (commits) đã được xem xét: sau khi hợp nhất trên nhánh chính (main), không phải là các nhánh PR tùy ý."

Lỗ hổng "TrustFall": Tác nhân AI viết code có thể kích hoạt cuộc khủng hoảng chuỗi cung ứng tiếp theo

Mối đe dọa từ AI tự động hóa

Cơ chế tấn công "TrustFall"

Tác động đến chuỗi cung ứng và CI/CD

Phản hồi của Anthropic và vấn đề rộng lớn hơn

Giải pháp và Khuyến nghị

Bài viết liên quan