Mô hình tìm lỗi Mythos của Anthropic bị đánh giá là "không có gì đáng sợ" dù bị lộ trái phép

Mô hình Mythos của Anthropic từng được coi là quá nguy hiểm để công khai vì khả năng tìm lỗ hổng vượt trội, nhưng các phân tích ban đầu cho thấy thực tế không đáng sợ như lời quảng cáo. Dù xảy ra sự cố lộ trái phép, các chuyên gia nhận định mô hình này chỉ là một công cụ hỗ trợ hữu ích chứ không thể thay thế hoàn toàn các nhà nghiên cứu bảo mật hàng đầu hay tạo ra mối đe dọa chưa từng có.

Anthropic, công ty mẹ của mô hình AI Claude, từng gây lo ngại lớn trong cộng đồng an ninh mạng khi giới thiệu Mythos - một mô hình được cho là cực kỳ giỏi trong việc phát hiện lỗ hổng bảo mật đến mức họ sợ phát hành rộng rãi vì sợ tội phạm mạng lợi dụng. Tuy nhiên, các phân tích mới đây cho thấy "cỗ máy" này có thể không đáng sợ như những gì mà Anthropic đã quảng cáo.

Sự cố truy cập trái phép

Anthropic ban đầu chỉ cung cấp Mythos cho một số tổ chức được chọn lọc thông qua dự án mang tên Project Glasswing, nhằm giúp họ tìm và sửa lỗi trước khi kẻ xấu có thể khai thác. Tuy nhiên, kế hoạch này đã gặp trục trặc. Vào thứ Tư, một phát ngôn viên của Anthropic xác nhận với The Register rằng một số đối tác không thuộc dự án Glasswing đã truy cập được vào mô hình này, nhưng không phải thông qua API sản phẩm chính thức của Anthropic.

"Chúng tôi đang điều tra một báo cáo cáo buộc việc truy cập trái phép vào bản xem trước Claude Mythos thông qua môi trường của một trong các nhà cung cấp bên thứ ba của chúng tôi," phát ngôn viên cho biết.

Theo Bloomberg, nhóm người dùng này đã truy cập được vào Mythos bằng cách "đoán vị trí trực tuyến" của mô hình dựa trên các mô hình trước đây của Anthropic. Thông tin này được tiết lộ sau vụ vi phạm dữ liệu tại Mercor - một startup nhân sự AI cung cấp nhân sự cho các phòng thí nghiệm AI lớn, bao gồm cả Anthropic. Mercor là một trong hàng nghìn công ty bị ảnh hưởng bởi cuộc tấn công chuỗi cung ứng LiteLLM.

Lỗ hổng trong chuỗi cung ứng

Sự kiện này làm nổi bật những điểm yếu trong việc kiểm soát quyền truy cập mã nguồn và mô hình AI. Ram Varadarajan, CEO tại Acalvio (một công ty chuyên về công nghệ đánh lừa), nhận định rằng vụ việc không đòi hỏi một cuộc tấn công tinh vi.

"Việc xâm nhập vào Mythos không cần một cuộc tấn công tinh vi. Nó chỉ cần một nhà thầu, một mẫu URL và một phỏng đoán vào ngày đầu tiên, điều này có nghĩa là mô hình 'phát hành có kiểm soát' đã thất bại ở điểm yếu nhất của nó trước khi khả năng của mô hình trở thành vấn đề," ông nói.

Tim Mackey, người đứng đầu chiến lược rủi ro tại Black Duck, cũng cho rằng thông điệp tiếp thị của Anthropic cho Mythos thực chất giống như một lời thách thức, tương tự như các cuộc thi bắt cờ (capture-the-flag), trong đó việc tuyên bố truy cập trái phép thành công cũng là một phần của "thành tích".

Thực tế giữa bão truyền thông

Mặc dù Anthropic tung hô Mythos như một mối đe dọa tiềm tàng, nhưng các báo cáo ban đầu từ những người dùng thử như AWS và Mozilla cho thấy một bức tranh khác. Mô hình này rất giỏi và nhanh trong việc tìm lỗi, đòi hỏi ít sự hướng dẫn thủ công từ kỹ sư bảo mật, nhưng chưa thể vượt qua các nhà nghiên cứu bảo mật con người.

Bobby Holley, CTO của Mozilla, cho biết sau khi Mythos tìm thấy 271 lỗ hổng trong Firefox 150: "Cho đến nay, chúng tôi chưa tìm thấy danh mục hay độ phức tạp lỗ hổng nào mà con người tìm thấy được mà mô hình này không thể. Tuy nhiên, chúng tôi cũng chưa thấy bất kỳ lỗi nào mà một nhà nghiên cứu con người ưu tú không thể tìm ra."

Nói cách khác, Mythos giống như việc thêm một nhà nghiên cứu bảo mật tự động vào đội ngũ của bạn, chứ không phải là một cỗ máy tạo ra lỗ hổng zero-day quá nguy hiểm cho thế giới.

Phân tích từ các chuyên gia

Nhiều chuyên gia cho rằng Anthropic đã thổi phồng khả năng của Mythos. Trong khi Anthropic tuyên bố mô hình xác định "hàng nghìn lỗ hổng mức độ nghiêm trọng cao và quan trọng", nhà nghiên cứu Patrick Garrity từ VulnCheck ước tính con số này chỉ khoảng 40, hoặc thậm chí không có gì.

Một kỹ sư tên Devansh đã phân tích kỹ các tài liệu của Anthropic và kết luận rằng câu chuyện về Mythos thực chất là "thông tin sai lệch và sự thổi phồng". Ông chỉ ra rằng nhiều khai thác được Anthropic tuyên bố chạy với sandbox của trình duyệt bị tắt, và bản ghi khai thác lỗ hổng kernel Linux thực chất do mô hình công cộng Opus 4.6 tìm thấy chứ không phải Mythos.

Nhà nghiên cứu Davi Ottenheimer so sánh tình huống này với "kết thúc của bộ phim Phù thủy xứ Oz", một sự thất vọng lớn về một mô hình được vũ khí hóa bằng hai lỗi mà một mô hình khác đã tìm ra, trong phần mềm mà nhà cung cấp đã vá, trong môi trường thử nghiệm với các biện pháp giảm thiểu rủi ro bị loại bỏ.

Kết luận: Không cần Mythos để hack

Snehal Antani, CEO của Horizon3.ai, khẳng định rằng kẻ tấn công không cần Mythos để tăng tốc nghiên cứu lỗ hổng, vì các mô hình như 4.6 và các mô hình mã nguồn mở đã đang làm điều đó rồi.

Khi được hỏi liệu cộng đồng bảo mật có nên lo lắng về việc truy cập trái phép Mythos hay không, Antani trả lời: "Theo thành thật của tôi, đó không có gì đáng lo. Kẻ địch không cần Mythos để hack bạn."

Mô hình tìm lỗi Mythos của Anthropic bị đánh giá là "không có gì đáng sợ" dù bị lộ trái phép

Sự cố truy cập trái phép

Lỗ hổng trong chuỗi cung ứng

Thực tế giữa bão truyền thông

Phân tích từ các chuyên gia

Kết luận: Không cần Mythos để hack

Bài viết liên quan