Chính Claude cũng thừa nhận: Lỗ hổng sandbox là thật và cực kỳ nguy hiểm

Các nhà nghiên cứu bảo mật đã phát hiện hai lỗ hổng nghiêm trọng trong sandbox mạng của Claude Code, cho phép kẻ tấn công đánh cắp thông tin xác thực và mã nguồn. Anthropic đã âm thầm khắc phục sự cố mà không phát hành CVE hay cảnh báo công khai, gây lo ngại lớn về tính minh bạch.

Hai lỗi bypass đã được vá trong sandbox mạng của Claude Code đã đặt người dùng vào rủi ro cao, trong đó một lỗi cho phép kẻ xấu gửi bất kỳ dữ liệu nào bên trong sandbox — từ thông tin đăng nhập, mã nguồn đến dữ liệu riêng tư — đến bất kỳ máy chủ nào trên internet.

Aonan Guan, người đứng đầu bộ phận bảo mật đám mây và AI tại Wyze Labs và đã săn lùng lỗi trong hầu hết mọi hệ thống AI hiện nay, cho biết đây là lần thứ hai trong vòng năm tháng qua Anthropic âm thầm sửa một lỗ hổng bypass sandbox trong Claude Code mà không phát hành CVE hay tư vấn bảo mật cụ thể cho công cụ lập trình này.

Lỗ hổng SOCKS5 và nguy cơ từ Prompt Injection

Lỗi mới nhất được xác định là lỗ hổng tiêm byte null hostname SOCKS5. Nó có thể bị khai thác để đánh lừa bộ lọc danh sách cho phép (allowlist) của sandbox, khiến nó phê duyệt các kết nối lẽ ra phải bị chặn. Nguy hiểm hơn, khi kết hợp với prompt injection (tiêm lệnh), lỗi này có thể bị lạm dụng để ép buộc Claude đọc các chỉ dẫn ẩn và chạy mã do kẻ tấn công kiểm soát trong sandbox.

Khi kết hợp với prompt injection, lỗi mới này cho phép kẻ xấu rút ruột bất kỳ thứ gì mà sandbox có thể tiếp cận. Điều này bao gồm thông tin đăng nhập đám mây và GitHub, token xác thực GitHub của Claude, siêu dữ liệu đám mây và các API nội bộ.

"Đối với bất kỳ ai chạy Claude Code với danh sách cho phép dạng ký tự đại diện (wildcard) trên một hệ thống chứa thông tin xác thực, ranh giới mạng thực tế đã không tồn tại trong suốt 5,5 tháng từ khi sandbox ra mắt đến phiên bản v2.1.90," Guan viết trong nghiên cứu được công bố vào thứ Tư. "Hãy coi khoảng thời gian đó là một sự kiện rò rỉ dữ liệu tiềm năng."

Thiếu minh bạch trong việc công bố

Anthropic cho biết họ đã phát hiện và sửa lỗi mới nhất trước khi nhận được báo cáo của Guan. Bản sửa lỗi là một commit công khai trong kho lưu trữ sandbox-runtime, được tích hợp trong Claude Code 2.1.88 vào ngày 31 tháng 3. "Bất kỳ ai cũng có thể xem" commit này, đại diện của Anthropic cho biết.

Guan đã gửi báo cáo thưởng lỗi qua HackerOne vào ngày 3 tháng 4. "Vì báo cáo mô tả một lỗ hổng mà Anthropic đã bắt gặp và vá, nó đã bị đóng như một bản sao của phát hiện nội bộ," người phát ngôn cho biết.

Tuy nhiên, Guan không tranh cãi về mốc thời gian này. Ông nhấn mạnh vào vấn đề cốt lõi khác.

"Vấn đề cốt lõi là đây là một sự vượt qua của sandbox mạng do người dùng cấu hình, và vẫn không có tư vấn bảo mật hay CVE, cũng không có ghi chú trong nhật ký thay đổi," ông nói. "Việc vận hành một sandbox có lỗ hổng còn tệ hơn là không có sandbox. Người dùng không có sandbox biết rằng họ không có ranh giới. Người dùng có sandbox bị hỏng lại nghĩ rằng họ có."

Claude tự thú

Đáng chú ý, chính Claude cũng đồng ý với quan điểm này. Khi Guan chỉ ra lỗ hổng cho chính AI này, bot đã trả lời: "Đây là một sự vượt qua thực tế của bộ lọc sandbox mạng," theo một ảnh chụp màn hình được công bố trong nghiên cứu.

Lỗi trước đó mà Guan báo cáo vào tháng 12 năm 2025 cuối cùng đã được gán một trình theo dõi CVE - CVE-2025-66479 - và được vá trong phiên bản v0.0.16. Tuy nhiên, CVE chỉ áp dụng cho sandbox-runtime của Anthropic, một gói phần mềm thượng nguồn (upstream), chứ không cụ thể là Claude Code. Điều này có nghĩa là người dùng không có cách nào biết liệu trợ lý lập trình AI của họ có đang đọc "không cho phép gì" thành "cho phép mọi thứ" hay không.

Cần đối xử với AI như nhân viên

Vấn đề rộng lớn hơn mà bài viết này chỉ ra là cách các nhà cung cấp AI xử lý lỗ hổng bảo mật. Thường thì không có CVE được phát hành, và nếu lỗi được sửa, nó thường diễn ra âm thầm mà không có bất kỳ tư vấn công khai nào. Gánh nặng bảo mật các tác nhân AI và hệ thống khác thường bị đẩy sang người dùng cuối.

"Một số nhà cung cấp phát hành CVE và một số thì không," Guan nói. "Tôi nghĩ cả hai cách tiếp cận đều có thể hợp lý, nhưng việc đưa ra tư vấn là bắt buộc. Người dùng cần biết rủi ro là có thật, và trong nhiều trường hợp, họ có thể không bao giờ biết."

Guan cho rằng điều này cho thấy người dùng cần các biện pháp bảo vệ của riêng mình, từ các công ty bảo mật hoặc sự cô lập runtime do người dùng kiểm soát. Ông hy vọng các công ty công nghệ lớn sẽ "gánh vác gánh nặng thông báo rõ ràng" các vấn đề bảo mật cho người dùng.

"Vì vậy, tôi nghĩ các công ty nên đối xử với các tác nhân AI giống như nhân viên hơn là các công cụ phần mềm thông thường," Guan nhận định. "Trước khi tuyển dụng nhân viên, các công ty kiểm tra lý lịch. Trước khi cấp quyền truy cập vào hệ thống, họ định nghĩa quyền hạn. Kỷ luật tương tự cũng nên được áp dụng cho các tác nhân AI."

Chính Claude cũng thừa nhận: Lỗ hổng sandbox là thật và cực kỳ nguy hiểm

Lỗ hổng SOCKS5 và nguy cơ từ Prompt Injection

Thiếu minh bạch trong việc công bố

Claude tự thú

Cần đối xử với AI như nhân viên

Bài viết liên quan