Lỗ hổng nghiêm trọng trong Claude Code xuất hiện ngay sau khi mã nguồn bị rò rỉ

Vài ngày sau khi Anthropic vô tình rò rỉ bản nháp mã nguồn của Claude Code, một lỗ hổng bảo mật nghiêm trọng đã bị Adversa AI phát hiện. Lỗi này cho phép kẻ tấn công vượt qua hệ thống quản lý quyền hạn, dẫn đến nguy cơ lộ thông tin nhạy cảm và chiếm đoạt thông tin đăng nhập hệ thống.

Claude Code của Anthropic lại trở thành tâm điểm chú ý – và không phải vì những lý do tốt đẹp.

Vài ngày liên tiếp nhau, Anthropic trước tiên đã vô tình rò rỉ mã nguồn của Claude Code, và sau đó một lỗ hổng nghiêm trọng đã bị Adversa AI phát hiện ra. Hai sự kiện này đặt ra những lo ngại lớn về tính bảo mật của công cụ AI này.

Mô tả: Claude AI và ngữ cảnh bảo mật

Lỗi rò rỉ mã nguồn

Vào ngày 31/3/2026, Anthropic vô tình đã bao gồm một tệp sourcemap (dành cho việc gỡ lỗi JavaScript) của Claude Code phiên bản 2.1.88 lên npm. Chỉ trong vài giờ, nhà nghiên cứu Chaofan Shou đã phát hiện ra tệp này và đăng một liên kết trên X, dẫn đến cuộc đổ xô toàn cầu để xem xét mã nguồn đã được giải mã của Claude Code.

Sigrid Jin, sinh viên 25 tuổi tại Đại học British Columbia, cùng với Yeachan Heo đã tái tạo lại mã nguồn của Claude Code. "Tốn hai con người, 10 OpenClaws, một máy tính xách tay MacBook Pro và vài giờ để tái tạo mã nguồn của tác nhân AI phổ biến này và chia sẻ nó cho thế giới," báo Yahoo đưa tin, chứng minh rằng những gì lên mạng thì rất khó để hạ xuống.

Kết quả hiện diện trên internet, bao gồm 512.000 dòng TypeScript trong 1.900 tệp.

Đây là một tình huống nhức nhối nhưng chưa phải là thảm họa đối với Anthropic. Melissa Bischoping, giám đốc cao cấp về an ninh và nghiên cứu thiết kế sản phẩm tại Tanium, giải thích rằng "mặc dù việc rò rỉ Claude Code tạo ra rủi ro thực sự, nhưng nó không giống như việc bị lộ trọng số mô hình, dữ liệu huấn luyện hay dữ liệu khách hàng. Những gì bị phơi bày là bản kế hoạch vận hành về cách phiên bản hiện tại của Claude Code được thiết kế hoạt động."

Quan trọng là, nhà nghiên cứu có thể thấy cách Claude Code hoạt động nhưng không thể tái tạo nó vì bản rò rỉ không bao gồm trọng số mô hình Claude, dữ liệu huấn luyện, dữ liệu khách hàng, API hoặc thông tin xác thực. "Đó không phải là bản đồ lộ trình không thể sai, nhưng nó là sự insight có ý nghĩa về cách công cụ xử lý đầu vào, áp dụng quyền hạn và chống lại sự lạm dụng," Bischoping tiếp tục.

"Một lớp rủi ro khác từ bản rò rỉ này là rằng kẻ tấn công có thể sử dụng bản kế hoạch này để xây dựng các bản sao giả mạo trông và hành xử giống Claude Code trên bề mặt, nhưng cài đặt phần mềm độc hại hoặc thu thập thông tin xác thực và dữ liệu," bà nói thêm.

Đây là một tình huống xấu hổ và ngượng ngùng đối với Anthropic, nhưng không gây hại trực tiếp cho Claude Code.

Lỗ hổng trong Claude Code

Tuy nhiên, một lỗ hổng nghiêm trọng và thực sự đã được phát hiện trong chính Claude Code bởi Adversa AI Red Team. "Claude Code là... một ứng dụng TypeScript hơn 519.000 dòng cho phép các nhà phát triển tương tác trực tiếp với Claude từ dòng lệnh. Nó có thể chỉnh sửa tệp, thực thi lệnh shell, tìm kiếm cơ sở mã, quản lý quy trình git và điều phối các tác vụ phát triển phức tạp," Adversa báo cáo.

Claude Code bao gồm một hệ thống quyền hạn dựa trên các quy tắc (quy tắc cho phép - tự động duyệt, quy tắc từ chối - chặn cứng, và quy tắc hỏi - luôn hỏi). Adversa đưa ra ví dụ:

{"deny": ["Bash(curl:)", "Bash(wget:)"],"allow": ["Bash(npm:)", "Bash(git:)"]}

Tuyệt đối không cho phép curl hoặc wget (ngăn chặn rò rỉ dữ liệu), nhưng tự động cho phép các lệnh npm và git (công cụ phát triển phổ biến).

Điều này nghe có vẻ đúng và hợp lý. Tuy nhiên, sai lầm nằm ở chỗ các quy tắc 'deny' có thể bị vượt qua. "Hệ thống quyền hạn là ranh giới bảo mật chính giữa tác nhân AI và hệ thống của nhà phát triển," báo cáo Adversa. "Khi nó thất bại một cách im lặng, nhà phát triển không có điểm tựa an toàn nào."

Vấn đề bắt nguồn từ mong muốn của Anthropic về hiệu suất cao hơn sau khi phát hiện ra một vấn đề về hiệu suất: các lệnh phức tạp liên kết có thể làm treo giao diện người dùng. Anthropic đã khắc phục bằng cách giới hạn phân tích tại 50 lệnh con, với việc quay trở lại một truy vấn 'ask' thông thường cho bất kỳ điều gì khác. Lời bình trong mã ghi chú: "Năm mươi là hào phóng: lệnh hợp lệ của người dùng không chia rộng như vậy. Vượt quá giới hạn, chúng tôi quay lại 'ask' (mặc định an toàn — chúng tôi không thể chứng minh sự an toàn, nên chúng tôi hỏi)."

Lỗi được Adversa phát hiện ra là quy trình này có thể bị thao túng. Suy đoán của Anthropic không tính đến các lệnh được AI tạo ra từ prompt injection — nơi một tệp CLAUDE.md độc hại chỉ thị AI tạo ra một quy trình 50+ lệnh có vẻ như một quy trình xây dựng hợp lệ.

Nếu điều này được thực hiện, "behavior: 'ask', // KHÔNG PHẢI 'deny'" sẽ xảy ra ngay lập tức. "Quy tắc từ chối, trình xác thực bảo mật, phát hiện tiêm lệnh — tất cả đều bị bỏ qua," Adversa viết. Lệnh thứ 51 quay lại 'ask' như yêu cầu, nhưng người dùng không có bất kỳ chỉ thị nào cho thấy tất cả các quy tắc 'deny' đã bị bỏ qua.

Adversa cảnh báo rằng một kẻ tấn công có thiện chí có thể nhúng các bước xây dựng có vẻ thật trong tệp CLAUDE.md của một kho lưu trữ độc hại. Nó sẽ trông như một quy trình thông thường, nhưng khi số lượng vượt quá 50, không có phân tích từng lệnh con nào được chạy. Điều này có thể cho phép kẻ tấn công lộ các khóa riêng tư SSH, thông tin xác thực AWS, token GitHub, token npm hoặc bí mật môi trường. Điều này có thể dẫn đến chiếm đoạt thông tin xác thực quy mô lớn, làm suy yếu chuỗi cung ứng, xâm phạm cơ sở hạ tầng đám mây và độc hại quy trình CI/CD.

"Trong quá trình thử nghiệm, lớp bảo mật LLM của Claude đã tự động phát hiện và từ chối thực hiện một số gói tin độc hại rõ ràng. Đây là lớp phòng thủ tốt," Adversa viết. "Tuy nhiên, lỗ hổng trong hệ thống quyền hạn tồn tại bất kể lớp LLM — đó là một lỗi trong mã thực thi chính sách bảo mật. Một prompt injection được tinh chỉnh kỹ lưỡng có vẻ như các hướng dẫn xây dựng hợp lệ cũng có thể vượt qua lớp LLM."

Mô tả: Biểu tượng bảo mật và an ninh mạng

Lỗ hổng nghiêm trọng trong Claude Code xuất hiện ngay sau khi mã nguồn bị rò rỉ

Bài viết liên quan