Mô hình Fable của Anthropic bị cộng đồng bảo mật chỉ trích vì "rào chắn" quá chặt

Anthropic vừa ra mắt mô hình Fable, phiên bản công khai của hệ thống bảo mật Mythos. Tuy nhiên, nhiều chuyên gia an ninh mạng phàn nàn rằng các cơ chế an toàn của Fable quá nghiêm ngặt, gây cản trở cho cả những tác vụ nghiên cứu hợp pháp. Những rào chắn này được thiết lập để ngăn chặn việc tạo ra mã độc, nhưng lại kích hoạt ngay cả khi người dùng yêu cầu xem xét mã hoặc đọc bài viết kỹ thuật.

Anthropic đã tung ra mô hình mới nhất mang tên Fable vào thứ Ba, mô tả đây là phiên bản công khai và giới hạn của Mythos - mô hình bảo mật mạnh mẽ và được mong chờ từ trước đến nay của họ.

Tuy nhiên, không phải ai cũng hài lòng với các hạn chế này. Một số nhà nghiên cứu và chuyên gia an ninh mạng đã bày tỏ sự phàn nàn trực tuyến về trải nghiệm của họ.

Valentina "Chompie" Palmiotti, một nhà nghiên cứu bảo mật nổi tiếng làm việc tại IBM X-Force, cho biết: "Fable từ chối mọi yêu cầu có thể liên quan gián tiếp đến an ninh mạng. Ngay cả những tác vụ vô hại như đọc một bài đăng blog cũng bị chặn."

Khi một câu lệnh (prompt) kích hoạt các rào chắn an toàn, Fable sẽ tạm dừng cuộc trò chuyện và thông báo rằng "các biện pháp an toàn đã gắn cờ tin nhắn này vì chủ đề an ninh mạng hoặc sinh học".

Các rào chắn này được đưa ra nhằm hạn chế rủi ro Fable có thể bị sử dụng để phát triển phần mềm độc hại (malware) hoặc tấn công phần mềm - một mối lo ngại lâu dài tại Anthropic. Các hạn chế đối với sinh học xuất phát từ mối lo ngại tương tự liên quan đến việc phát triển vũ khí sinh học.

Khi gã khổng lồ AI này phát hành Mythos vào tháng 4, họ đã hạn chế mô hình chỉ dành cho một số lượng hạn chế các công ty và tổ chức trong khuôn khổ cái gọi là Dự án Glasswing, một nỗ lực triển khai mô hình để bảo vệ phần mềm và cơ sở hạ tầng quan trọng. Tuần trước, Anthropic đã mở rộng quyền truy cập Mythos cho hàng trăm tổ chức tại 15 quốc gia.

Tuy nhiên, bất chấp ý định tốt đẹp, nhiều chuyên gia an ninh mạng vẫn cảm thấy khó chịu vì tính thiếu chính xác của các hạn chế này. Matt Suiche, một cựu binh trong lĩnh vực an ninh mạng, chia sẻ với TechCrunch rằng: "nếu bạn yêu cầu nó viết mã an toàn, nó giả định đó là công việc liên quan đến an ninh mạng thay vì là các phương pháp thực hành tốt nhất của kỹ sư phần mềm, và bạn bị hạ cấp". Fable được lập trình để quay lại Claude Opus 4.8 nếu gặp rào chắn. "Có vẻ như nó dựa trên từ khóa, vì vậy bất cứ thứ gì trong lĩnh vực từ vựng của 'an ninh mạng' đều kích hoạt các rào chắn."

"Nhưng điều này là dễ hiểu vì chúng ta vẫn ở những ngày đầu tiên và họ vẫn đang điều chỉnh các rào chắn của mình. Tôi chắc chắn rằng chúng sẽ phát triển theo thời gian khi Anthropic và các công ty mô hình tiên phong khác hợp tác nhiều hơn với thế hệ các công ty an ninh mạng mới hiện nay," Suiche, người hiện là nhân viên kỹ thuật tại startup an ninh mạng AI Tolmo, nhận định. "Thà bắt được nhiều người hơn là không đủ khi bạn thực hiện một bản phát hành như vậy và sau đó nới lỏng các rào chắn theo thời gian."

Một nhà nghiên cứu khác cũng than phiền trên X rằng "chỉ cần yêu cầu xem xét mã nguồn (code review)" cũng kích hoạt các rào chắn của Fable.

Anthropic chưa phản hồi ngay lập tức yêu cầu bình luận.

Ngoài các rào chắn bên trong các mô hình của mình, Anthropic còn yêu cầu các chuyên gia an ninh mạng phải đăng ký vào Chương trình Xác minh An ninh mạng (Cyber Verification Program). Nếu được phê duyệt, người nộp đơn sẽ có ít hạn chế hơn khi sử dụng Claude cho công việc an ninh mạng. OpenAI cũng có một chương trình tương tự gọi là Trusted Access for Cyber.

Mô hình Fable của Anthropic bị cộng đồng bảo mật chỉ trích vì "rào chắn" quá chặt

Bài viết liên quan