Chuyên gia bảo mật tố chính phủ Mỹ cấm AI Anthropic chỉ vì lệnh 'sửa code' đơn giản

15 tháng 6, 2026·4 phút đọc

Một chuyên gia bảo mật hàng đầu đã tiết lộ rằng lý do chính phủ Mỹ cấm các mô hình AI tiên tiến của Anthropic không phải là một cuộc tấn công "jailbreak" phức tạp, mà chỉ là một yêu cầu đơn giản "sửa đoạn mã này". Katie Moussouris cảnh báo việc hạn chế công cụ này sẽ làm suy yếu khả năng phòng thủ của các chuyên gia an ninh mạng trong khi kẻ tấn công vẫn có thể tiếp cận các công nghệ tương tự từ nơi khác.

Chuyên gia bảo mật tố chính phủ Mỹ cấm AI Anthropic chỉ vì lệnh 'sửa code' đơn giản

Chuyên gia bảo mật tố chính phủ Mỹ cấm AI Anthropic chỉ vì lệnh 'sửa code' đơn giản

Một chuyên gia bảo mật hàng đầu đã tiết lộ rằng lý do chính phủ Mỹ cấm các mô hình AI tiên tiến của Anthropic không phải là một cuộc tấn công "jailbreak" phức tạp, mà chỉ là một yêu cầu đơn giản "sửa đoạn mã này". Katie Moussouris cảnh báo việc hạn chế công cụ này sẽ làm suy yếu khả năng phòng thủ của các chuyên gia an ninh mạng trong khi kẻ tấn công vẫn có thể tiếp cận các công nghệ tương tự từ nơi khác.

Cuộc "jailbreak" không có thật

Vào thứ Sáu tuần trước, chính phủ Mỹ đã ban hành chỉ thị kiểm soát xuất khẩu, đình chỉ quyền truy cập vào các mô hình Fable 5 và Mythos 5 của Anthropic đối với bất kỳ người nước nào, viện dẫn lo ngại về an ninh quốc gia. Động thái này buộc Anthropic phải vô hiệu hóa cả hai mô hình đối với tất cả khách hàng để đảm bảo tuân thủ quy định.

Tuy nhiên, theo Katie Moussouris, CEO của Luta Security và một nhân vật nổi tiếng trong cộng đồng săn lỗi (bug bounty), lý do thực sự đằng sau lệnh cấm này hoàn toàn khác biệt so với những gì được báo cáo. Bà khẳng định mình là chuyên gia độc lập duy nhất được đọc báo cáo nghiên cứu bên thứ ba về các kỹ thuật vượt rào chắn (guardrail bypass) của Fable 5.

Trong một bài đăng trên blog vào thứ Hai, Moussouris cho biết các nhà nghiên cứu bên ngoài đã cung cấp cho các mô hình Fable 5, Mythos và Claude Opus của Anthropic các đoạn mã nguồn mở chứa các lỗ hổng CVE đã biết, cũng như mã mới bị cài cắm lỗ hổng có chủ đích.

Ban đầu, các nhà nghiên cứu yêu cầu AI "xem xét mã để tìm các vấn đề bảo mật", nhưng Fable 5 đã từ chối. Tuy nhiên, khi họ chuyển sang yêu cầu "sửa đoạn mã này" (fix this code), mô hình đã tuân thủ. Sau một số lời nhắc bổ sung, AI thậm chí còn tạo ra các tập lệnh để kiểm tra các bản vá lỗi.

"Đó là tất cả," Moussouris viết. "'Sửa đoạn mã này', cộng với một vài bước thủ công để tạo tập lệnh kiểm thử, không bao giờ nên kích hoạt kiểm soát xuất khẩu. Tôi cảm thấy muốn làm những chiếc áo thởng kiểu thập niên 90 với mặt trước in 'sửa đoạn mã này' và mặt sau in 'chiếc áo này là vũ khí'."

Tác động tiêu cực đến lực lượng phòng thủ

Moussouris, người từng phục vụ trong nhóm chuyên gia kỹ thuật đàm phán lại Thỏa thuận Wassenaar (một hiệp định quốc tế về kiểm soát xuất khẩu công nghệ hai mặt), lập luận rằng không có sự vượt qua rào chắn hay jailbreak nào ở đây. Theo bà, những người bảo vệ nên có quyền yêu cầu các hệ thống AI tìm và sửa lỗi, cũng như viết các bài kiểm tra để xác thực bản vá.

Các mô hình của Anthropic đang thực hiện "việc có giá trị nhất mà một mô hình AI có thể làm cho an ninh phòng thủ: thực hiện vòng lặp tìm, sửa và kiểm tra mà những người bảo vệ thực hiện hàng ngày".

Vào Chủ Nhật, Moussouris đã cùng hơn 100 lãnh đạo an ninh mạng khác ký một bức thư ngỏ kêu gọi chính phủ Mỹ đảo ngược các hạn chế đối với Fable 5 và Mythos.

"Để tước bỏ những khả năng tốt nhất khỏi tay người phòng thủ mà không có lý do chính đáng, trong khi đối thủ của chúng ta đang tiến bộ nhanh chóng, là điều cực kỳ nguy hiểm," họ viết trong thư.

Bà cảnh báo rằng việc cấm các mô hình nâng cao của Anthropic sẽ làm tổn thương người phòng thủ nhiều hơn kẻ tấn công. Việc loại bỏ khả năng phản hồi các yêu cầu phòng thủ khiến các hệ thống AI "tệ hơn trong việc tìm lỗi và xác minh bản vá".

Hơn nữa, Mỹ không thể mở rộng kiểm soát xuất khẩu sang các hệ thống mã nguồn mở (open-weight) hoặc các mô hình nâng cao tương tự từ Trung Quốc và các quốc gia khác. Anthropic và Google trước đó đã cáo buộc các đối thủ Trung Quốc như DeepSeek sử dụng "các cuộc tấn công chưng cất" (distillation attacks) để đào tạo mô hình của họ bằng cách hút kiến thức từ các công ty Mỹ.

"Phòng thủ được cải thiện khi người phòng thủ tìm thấy cùng một lỗi mà kẻ tấn công tìm thấy và sửa chúng nhanh hơn," Moussouris kết luận. "Chúng tôi cần những công cụ tốt nhất để phòng thủ trước những kẻ tấn công ngày càng có năng lực trong kỷ nguyên an ninh mạng AI."

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗