Claude Fable 5: Mô hình AI mạnh nhất của Anthropic lại từ chối trả lời câu hỏi sinh học cơ bản

Anthropic vừa ra mắt Claude Fable 5, mô hình AI được đánh giá là mạnh nhất từng được công bố rộng rãi với khả năng xuất sắc trong sinh học. Tuy nhiên, mô hình này lại từ chối trả lời những câu hỏi sinh học cơ bản nhất mà học sinh cấp 3 cũng biết, do các rào chắn an toàn "quá bảo thủ" nhằm ngăn chặn nguy cơ vũ khí sinh học.

Anthropic vừa chính thức phát hành Claude Fable 5, mô hình trí tuệ nhân tạo thuộc lớp "Mythos" mà công ty này tự hào là phiên bản mạnh nhất từng được tung ra thị trường đại chúng. Đặc biệt, Anthropic đã ca ngợi khả năng của Fable trong lĩnh vực sinh học. Tuy nhiên, trong thực tế sử dụng, người dùng đã phát hiện một nghịch lý thú vị: mô hình này từ chối trả lời những câu hỏi sinh học cơ bản đến mức học sinh phổ thông cũng có thể trả lời được.

Thay vì đưa ra câu trả lời, Fable 5 thường chuyển các truy vấn này sang cho Claude Opus 4.8, mô hình flagship thế hệ trước. Nguyên nhân không phải do Fable thiếu kiến thức, mà là do Anthropic đã thiết kế nó để không được phép làm như vậy.

Claude Fable 5 Interface

Rào chắn an toàn "quá bảo thủ"

Fable là một mô hình công khai thuộc lớp Mythos, dòng sản phẩm có khả năng vượt trội trong các tác vụ an ninh mạng đến mức Anthropic từng cho rằng việc phát hành rộng rãi là quá nguy hiểm. Mặc dù Anthropic đã dành nhiều thời gian cảnh báo về rủi ro an ninh mạng, nhưng rõ ràng các hàng rào bảo vệ trong lĩnh vực sinh học của Fable mới là thứ nổi bật nhất và cũng gây hạn chế nhiều nhất.

Khi thử nghiệm, mô hình này từ chối trả lời một loạt câu hỏi sinh học cơ bản, nhiều câu trong số đó hoàn toàn không có vẻ gì liên quan đến rủi ro an ninh. Nó không giải thích được "màng tế bào là gì", không trả lời được "ty thể là gì" (cơ quan sản xuất năng lượng nổi tiếng của tế bào), hay giải thích về "prion" (hạt protein gây bệnh bò điên) và cơ chế hoạt động của vắc-xin mRNA.

Các hạn chế này thậm chí áp dụng cả cho các truy vấn y khoa thông thường và vô hại. Fable từ chối giải thích nguyên nhân gây sốt cỏ khô, cách thuốc trị hen suyễn hoạt động, cơ chế kháng kháng sinh, hay thông tin về virus Ebola và cách lây lan. Một số câu hỏi cơ bản đôi khi vẫn lọt lưới, như "ung thư là gì" hay "DNA là gì", nhưng khi Fable từ chối, Opus 4.8 thường sẽ trả lời hoàn hảo.

Nỗi lo về vũ khí sinh học

Anthropic xác nhận các bộ lọc sinh học rộng rãi này là một lựa chọn có chủ đích và được thiết kế một cách bảo thủ, với mối lo ngại chính là vũ khí sinh học.

"Với sự ra mắt của Claude Fable 5, mô hình Mythos-class đầu tiên của chúng tôi, chúng tôi tin rằng các mô hình hiện nay có khả năng thực hiện các tác vụ khoa học thực tế tốt hơn, đồng thời các tác nhân độc hại cũng có khả năng sử dụng mô hình của chúng tôi cho các nghiên cứu sinh học rủi ro cao," người phát ngôn Paruul Maheshwary chia sẻ với The Verge.

"Chúng tôi luôn sử dụng bộ phân loại để chặn các mô hình hỗ trợ các yêu cầu liên quan đến vũ khí sinh học. Để triển khai Fable 5 một cách an toàn, chúng tôi cho rằng cần phải quá bảo thủ với các biện pháp an toàn để chúng chặn hầu hết các truy vấn liên quan đến công việc sinh học."

Anthropic trước đây đã nhấn mạnh bốn lĩnh vực chính mà họ sẽ hạn chế phản hồi của Fable vì lý do an toàn: hóa học, sinh học, an ninh mạng và chưng cất (distillation) - kỹ thuật đào tạo AI nhỏ hơn bằng cách sử dụng đầu ra của AI lớn hơn.

So sánh với Hóa học và An ninh mạng

Mặc dù sinh học bị hạn chế tối đa, Fable dường sẵn sàng trả lời các câu hỏi về hóa học và an ninh mạng hơn. Ví dụ, nó đưa ra tổng quan cơ bản về chất nổ TNT, mặc dù giữ lại hướng dẫn tổng hợp "vì những lý do rõ ràng". Nó sẵn sàng trả lời về việc sử dụng khí clo làm vũ khí hóa học, các mối đe dọa mật khẩu phổ biến, cũng như giải thích cách bảo vệ iPhone trước tin tặc.

Tuy nhiên, nó vẫn có giới hạn: Fable chuyển câu hỏi sang Opus khi được hỏi về khí sarin, một tác nhân thần kinh cực độc. Cả Fable và Opus đều từ chối câu lệnh "cách làm than anthrax" và Claude thậm chí tạm dừng cuộc trò chuyện hoàn toàn. Điều này là hợp lý. Nhưng việc từ chối câu hỏi về ty thể dường như là một trường hợp dương tính giả (báo động sai).

"Chúng tôi thực hiện sự đánh đổi này để khách hàng có thể hưởng lợi từ khả năng của mô hình sớm hơn mà không gặp rủi ro," Maheshwary giải thích, thêm rằng Anthropic đang nỗ lực cải thiện khả năng phát hiện và giảm thiểu các trường hợp dương tính giả.

Công ty có kế hoạch cung cấp các mô hình Mythos-class mà không có các biện pháp an toàn này cho cộng đồng sinh học và khoa học đời sống rộng lớn hơn, nhằm thúc đẩy nghiên cứu y sinh và phát hiện thuốc mới.

Claude Fable 5: Mô hình AI mạnh nhất của Anthropic lại từ chối trả lời câu hỏi sinh học cơ bản

Rào chắn an toàn "quá bảo thủ"

Nỗi lo về vũ khí sinh học

So sánh với Hóa học và An ninh mạng

Bài viết liên quan