Các chuyên gia an ninh mạng phản đối lệnh cấm "nguy hiểm" của Mỹ đối với các mô hình AI mạnh nhất của Anthropic

Một nhóm gồm hàng chục chuyên gia an ninh mạng hàng đầu đã gửi thư ngỏ đến chính phủ Mỹ, yêu cầu gỡ bỏ lệnh kiểm soát xuất khẩu đối với các mô hình Fable và Mythos của Anthropic. Theo nhóm chuyên gia, lệnh cấm này vô tình tước đi công cụ quan trọng của những người bảo vệ hệ thống, khiến việc phát hiện và khắc phục lỗ hổng bảo mật trở nên khó khăn hơn.

Một nhóm gồm hàng chục chuyên gia an ninh mạng, trong đó có nhiều cựu binh dày dặn kinh nghiệm trong ngành, đã công bố một bức thư ngỏ gửi chính phủ Mỹ yêu cầu gỡ bỏ lệnh kiểm soát xuất khẩu đối với hai mô hình AI là Fable và Mythos của Anthropic.

Theo nội dung bức thư, "hành động này đã lấy đi những mô hình tốt nhất khỏi tay những người [bảo vệ an ninh mạng]", những người hiện không thể sử dụng các mô hình này để tìm kiếm lỗ hổng và làm cho phần mềm cũng như sản phẩm của họ an toàn hơn.

"Việc tước bỏ những khả năng tốt nhất khỏi tay người phòng thủ mà không có lý do chính đáng, trong khi đối thủ của chúng ta đang tiến bộ nhanh chóng, là vô cùng nguy hiểm", thư viết.

Bối cảnh của lệnh cấm

Vào thứ Sáu tuần trước, chính phủ Mỹ đã ra lệnh cho Anthropic hạn chế việc xuất khẩu các mô hình Fable và Mythos với lý do lo ngại về an ninh quốc gia, mặc dù không giải thích cụ thể các lý do đằng sau lệnh này. Phản ứng lại, Anthropic đã đình chỉ quyền truy cập vào các mô hình này đối với tất cả người dùng trên toàn thế giới.

Tính đến thời điểm này, bức thư đã nhận được chữ ký của 76 chuyên gia an ninh mạng. Trong số những người ký tên có những cái tên nổi tiếng như: Alex Stamos, cựu Giám đốc an ninh của Facebook; Casey Ellis, người sáng lập nền tảng săn lỗi Bugcrowd; Jon Callas, nhà mật mã học nổi tiếng và cựu quản lý thiết kế và kiến trúc bảo mật của Apple; nhà khoa học máy tính Paul Vixie; Dino Dai Zovi, cựu trưởng bộ phận kỹ thuật bảo mật ứng dụng tại Block; Katie Moussouris, người sáng lập Luta Security; và Rachel Tobac, CEO của công ty đào tạo nhận thức bảo mật SocialProof Security.

Khả năng của Fable và Mythos

Khi Mythos được ra mắt dưới dạng bản xem trước vào tháng 4, Anthropic từng tuyên bố rằng mô hình này quá mạnh mẽ trong việc tìm kiếm các lỗ hổng bảo mật đến mức công ty cần phải hạn chế chặt chẽ quyền truy cập để ngăn chặn tin tặc hoặc các đối thủ nước ngoài sử dụng nó gây hại cho internet. Trên thực tế, Anthropic chỉ cấp quyền truy cập ban đầu cho khoảng 50 công ty, gần đây mở rộng nhóm này lên khoảng 150 tổ chức tại 15 quốc gia.

Tuần trước, Anthropic đã phát hành Fable, một phiên bản công khai của Mythos. Công ty cho biết phiên bản này có các "hàng rào bảo vệ" (guardrails) nghiêm ngặt để chặn việc sử dụng trong các lĩnh vực sinh học, hóa học và an ninh mạng, cũng như ngăn chặn việc chưng cất (distill) mô hình để tái tạo lại. Tuy nhiên, các giới hạn trên Fable lại quá nghiêm ngặt khiến nhiều chuyên gia an ninh mạng nhận thấy rằng nó chặn về cơ bản mọi yêu cầu liên quan đến an ninh mạng.

Anthropic cho biết lệnh kiểm soát xuất khẩu của Nhà Trắng có thể dựa trên một báo cáo cho rằng có một phương pháp để vượt qua - hay còn gọi là "jailbreak" - Fable để mở khóa các khả năng mạnh mẽ cấp độ Mythos.

Phản biện về "Jailbreak" và báo cáo của Amazon

Theo Katie Moussouris, một trong những người ký thư ngỏ, phương pháp này đã được các nhà nghiên cứu từ Amazon chứng minh trong một bài báo chưa được công bố, nhưng bà đã xem xét.

Tuy nhiên, Moussouris cho biết trong một bài đăng trên blog rằng bài báo đó thực sự không chứng minh một cuộc jailbreak thực sự. Thay vào đó, các nhà nghiên cứu chỉ đơn giản là yêu cầu Fable sửa chữa mã nguồn mở có các lỗ hổng đã biết và công khai cùng với "các lỗ hổng được cố tình cài đặt", sau khi mô hình ban đầu từ chối "xem xét mã để tìm các vấn đề bảo mật".

"Hành vi được mô tả trong bài báo không thể được sửa chữa một cách có ý nghĩa, và bất kỳ nỗ lực nào cũng chỉ làm suy yếu mô hình cho mục đích phòng thủ", Moussouris viết. "Những người bảo vệ cần có khả năng yêu cầu AI sửa lỗi trong một tệp, giải thích tại sao bản sửa lỗi quan trọng và viết các bài kiểm tra để xác nhận bản vá hoạt động. Đó không phải là việc vượt qua hàng rào bảo vệ. Đó là điều có giá trị nhất mà một mô hình AI có thể làm cho bảo mật phòng thủ: thực hiện vòng lặp tìm kiếm, sửa lỗi và kiểm tra mà những người bảo vệ thực hiện mỗi ngày."

Phản biện của Moussouris cũng được phản ánh trong thư ngỏ. Thư cũng nêu rõ rằng nhóm chuyên gia tin rằng phương pháp trong bài báo của Amazon "có thể được sao chép" trên GPT-5.5 của OpenAI, trên Claude Opus 4.8 và Sonnet có sẵn công khai của chính Anthropic, "và thậm chí cả các mô hình của Trung Quốc như Kimi 2.7".

Bức thư cũng kêu gọi các quy định được thực thi một cách minh bạch và công bằng, được tạo ra bởi "quy trình lập pháp dân chủ", dựa trên nghiên cứu khoa học của các chuyên gia trong ngành và học viện, và "chỉ được sử dụng ở mức độ tối thiểu cần thiết để đảm bảo an toàn cho người dân Mỹ".

Các chuyên gia an ninh mạng phản đối lệnh cấm "nguy hiểm" của Mỹ đối với các mô hình AI mạnh nhất của Anthropic

Bối cảnh của lệnh cấm

Khả năng của Fable và Mythos

Phản biện về "Jailbreak" và báo cáo của Amazon

Bài viết liên quan