Anthropic xin lỗi vì cơ chế bảo mật vô hình trong mô hình AI Claude Fable 5
Anthropic đã xin lỗi vì áp dụng các hạn chế ngầm trên mô hình Claude Fable 5 mới, gây ảnh hưởng đến các nhà nghiên cứu và đối thủ cạnh tranh. Công ty cam kết sẽ minh bạch hơn về thời điểm các biện pháp an toàn này được kích hoạt.

Anthropic xin lỗi vì cơ chế bảo mật vô hình trong mô hình AI Claude Fable 5
Anthropic vừa chính thức xin lỗi vì đã áp dụng các biện pháp hạn chế ngầm trên mô hình AI mới nhất của mình, Claude Fable 5. Quyết định này được đưa ra sau khi cộng đồng nghiên cứu phản đối dữ dội về việc công ty âm thầm làm suy giảm chất lượng câu trả lời nhằm ngăn chặn việc sao chép mô hình.
Claude Fable 5
Vấn đề về các hàng rào bảo mật "vô hình"
Fable 5 là mô hình đầu tiên trong lớp hệ thống AI "Mythos" của Anthropic, được công ty cảnh báo là quá nguy hiểm để phát hành rộng rãi trong nhiều tháng qua. Để giảm thiểu rủi ro, Anthropic đã triển khai các biện pháp bảo vệ nhằm ngăn mô hình trả lời các truy vấn "nguy cơ cao", đặc biệt là kỹ thuật distillation (chưng cất) — một phương pháp sử dụng đầu ra của các mô hình AI lớn để huấn luyện các mô hình nhỏ hơn.
Trong thẻ hệ thống (system card) công khai, Anthropic từng cho biết họ sẽ xử lý các truy vấn bị nghi ngờ là nỗ lực chưng cất bằng cách thay đổi và làm giảm chất lượng câu trả lời trực tiếp. Tuy nhiên, người dùng sẽ không nhận được bất kỳ thông báo nào về việc họ đã kích hoạt tính năng an toàn hay câu trả lời đã bị sửa đổi.
Thay đổi hướng đi: Minh bạch hơn
Trước làn sóng chỉ trích, Anthropic tuyên bố sẽ thay đổi cách tiếp cận đối với vấn đề chưng cất. Các truy vấn bị gắn cờ hiện nay sẽ được chuyển sang mô hình chủ lực trước đó của Anthropic là Claude Opus 4.8. Quan trọng hơn, công ty cam kết sẽ thông báo rõ ràng cho người dùng: "Bạn sẽ thấy điều này mỗi khi nó xảy ra".
Cách xử lý này tương tự như cách Fable xử lý các truy vấn trong các lĩnh vực rủi ro cao khác như sinh học, hóa học và an ninh mạng. Khi các tính năng an toàn được kích hoạt, truy vấn sẽ được định tuyến qua Opus 4.8 thay vì bị chặn hoàn toàn.
"Hàng rào bảo mật hữu hình có thể được thăm dò, nên chúng phải mạnh mẽ, điều này mất thời gian để thực hiện đúng. Hàng rào bảo mật vô hình có thể nhắm mục tiêu hẹp hơn, cho phép chúng tôi phát hành nhanh chóng với rất ít dương tính giả. Chúng tôi đã chọn hàng rào vô hình vì lý do này — và đó là sự đánh đổi sai lầm," Anthropic viết trong một bài đăng trên X.
Công ty thừa nhận rằng người dùng nên có khả năng nhìn thấy các biện pháp bảo mật đang được áp dụng và lý do tại sao. Sự thay đổi này diễn ra trong bối cảnh Anthropic trước đây đã cáo buộc các đối thủ Trung Quốc như DeepSeek đang chưng cất các mô hình của họ ở quy mô "công nghiệp".
Việc chuyển sang minh bạch hơn có thể khiến Fable từ chối nhiều truy vấn hơn, nhưng Anthropic hy vọng điều này sẽ giúp khôi phục niềm tin của cộng đồng nghiên cứu và người dùng.



