Sự cố Mythos: Cú vấp ngã nhục nhã của Anthropic trong vấn đề an ninh AI

Anthropic đã gặp một sự cố bảo mật nhục nhã khi mô hình AI Mythos - được cho là quá nguy hiểm để phát hành công khai - bị truy cập trái phép bởi một nhóm nhỏ người dùng. Thay vì một cuộc tấn công kỹ thuật tinh vi, kẻ xâm nhập đã sử dụng thông tin nội bộ và sự phán đoán may mắn để tiếp cận mô hình, đặt dấu hỏi về năng lực an ninh của công ty tự nhận là tiên phong về an toàn AI.

Việc tung ra thị trường được kiểm soát chặt chẽ của Anthropic đối với mô hình Claude Mythos đã gặp phải một tình huống vô cùng khó xử. Sau nhiều tuần kiên quyết rằng mô hình AI này có khả năng an ninh mạng quá mạnh mẽ đến mức nguy hiểm nếu phát hành công khai, thực tế cho thấy nó đã rơi vào tay sai người.

Theo Bloomberg, một "nhóm nhỏ người dùng trái phép" đã có quyền truy cập vào Mythos kể từ ngày Anthropic công bố kế hoạch cung cấp mô hình này cho một nhóm công ty được chọn để thử nghiệm. Anthropic cho biết họ đang điều tra vụ việc. Đây là một hình ảnh tồi tệ đối với một công ty đã xây dựng thương hiệu dựa trên việc coi trọng an toàn AI trong khi vẫn khoe khoang về khả năng an ninh mạng vượt trội của mô hình mới nhất của mình.

Ảnh minh họa về an ninh mạng và AI

Một lỗ hổng "ngây thơ" về mặt kỹ thuật

Về mặt công nghệ, vụ việc Mythos bị xâm phạm thực sự là một sự cố thảm hại về sự tinh vi. Bloomberg đưa tin nhóm này đã tiếp cận Mythos bằng cách "đưa ra một phán đoán có cơ sở về vị trí trực tuyến của mô hình". Họ đã sử dụng thông tin về các mô hình khác của Anthropic bị lộ trong vụ vi phạm dữ liệu tại Mercor — một công ty chuyên cung cấp dữ liệu huấn luyện AI — kết hợp với quyền truy cập mà một thành viên trong nhóm có được thông qua công việc hợp đồng đánh giá các mô hình của Anthropic.

Nhóm đó đã có được quyền truy cập trái phép vào Mythos thông qua sự kết hợp giữa kiến thức nội bộ và một chút may mắn, chứ không phải là một khai thác công nghệ tinh vi hay hành vi đánh cắp mô hình quy mô lớn.

Một thất bại có thể dự đoán trước

Các lỗ hổng bảo mật là điều không thể tránh khỏi, và chính là Mercor, chứ không phải Anthropic, đã tiết lộ thông tin mà những tin tặc này sử dụng để đoán vị trí của Mythos. Pia Hüsch, một nghiên cứu viên tại Viện Các Dịch vụ Thống nhất Hoàng gia Anh (RUSI), cho biết không có công ty nào bao giờ được bảo mật hoàn toàn và con người thường là mắt xích yếu nhất, mặc dù việc không có hậu quả nghiêm trọng ban đầu "dường như hơi may mắn".

Tuy nhiên, không hoàn toàn là do may mắn. Những kiểu phán đoán có cơ sở như vậy là một kỹ thuật hack rất tiêu chuẩn, và vụ vi phạm dữ liệu của Mercor đã được biết đến trước khi Mythos được phát hành. Nhà nghiên cứu bảo mật Lukasz Olejnik mô tả đây là một "thất bại hoàn toàn có thể tưởng tượng được" mà ngành công nghiệp an ninh mạng đã phải đối mặt thường xuyên trong 20 năm qua. Do đó, Anthropic lẽ ra phải dự đoán trước điều này và chuẩn bị tương ứng, đặc biệt khi biết rằng thông tin của họ đã bị xâm phạm.

Anthropic dường như cũng có phương tiện để phát hiện vụ vi phạm này. Olejnik cho biết công ty có khả năng "ghi nhật ký và theo dõi việc sử dụng mô hình", điều này sẽ giúp ngăn chặn quyền truy cập trái phép hoặc độc hại, đặc biệt khi việc tung ra Mythos được cho là bị giới hạn rất chặt. Rõ ràng, Anthropic đã không giám sát đủ chặt chẽ — và xét đến mức độ nguy hiểm mà họ tuyên bố về mô hình này, việc đặt câu hỏi tại sao là hoàn toàn hợp lý.

Mối đe dọa từ "vũ khí" AI

Theo tài liệu của Bloomberg, nhóm này không sử dụng Mythos cho các nhiệm vụ an ninh mạng, một phần vì họ chỉ muốn nghịch ngợm với mô hình mới và một phần vì việc làm vậy có thể đã báo động cho Anthropic. Nếu thông điệp của Anthropic xung quanh Mythos được coi trọng, thì đó thực sự là một may mắn lớn. Công ty đã mô tả Mythos là một "bước ngoặt về an ninh", tuyên bố nó tìm thấy lỗ hổng trong "mọi hệ điều hành và trình duyệt web lớn", và nói rằng việc phát hành nó phải được phối hợp để có thời gian "củng cố các hệ thống phòng thủ mạng trên thế giới".

Màn hình làm việc với mã nguồn và dữ liệu

Anthropic có thói quen sử dụng ngôn ngữ kịch tính, đáng báo động, bao gồm cả việc ám chỉ rằng mô hình Claude của họ có thể có ý thức. Dù vậy, các báo cáo ban đầu từ các bên có quyền truy cập cho thấy Mythos đặc biệt giỏi trong lĩnh vực an ninh mạng. CTO của Mozilla, Bobby Holley, cho biết nó đã tìm thấy hàng trăm lỗi trong Firefox 150 và có thể cuối cùng sẽ mang lại cho những người bảo vệ cơ hội chiến thắng hoàn toàn trước những kẻ tấn công. Không ngạc nhiên khi các chính phủ và tổ chức tài chính trên toàn thế giới đang mong muốn được tiếp cận nó.

Sự nhục nhã của "người giữ cửa" AI

Thực tế là vụ vi phạm này được phát hiện bởi một phóng viên thay vì chính Anthropic cũng đặt ra câu hỏi rõ ràng liệu đây có phải là một sự cố cô lập hay không. Nó "thực sự minh họa vòng tròn những người có khả năng làm điều này rộng đến mức nào, ngay cả khi họ không có các phương tiện kỹ thuật quá tinh vi," Hüsch nói. Anthropic có thể sẽ rà soát chuỗi cung ứng của mình để xem việc này đã xảy ra như thế nào và bịt lỗ hổng, nhưng cô cho rằng có rất nhiều tác nhân muốn tiếp cận một mô hình như thế này, một số trong số đó có rất nhiều tiền phía sau. Không có lý do gì để giả định rằng bất kỳ ai khác có được quyền truy cập sẽ kiềm chế như nhóm mà Bloomberg đưa tin.

Anthropic, ở một mức độ nào đó, đã tự bắn vào chân mình. Công ty đã xây dựng danh tính của mình xung quanh việc coi trọng an toàn AI hơn các đối thủ cạnh tranh, tạo ra những kỳ vọng cao ngất ngưởng về bảo mật mô hình mà mâu thuẫn với sự cẩu thả rõ ràng này; việc Mythos bị lộ thông qua một thất bại cơ bản và dễ dự đoán như vậy chỉ làm nổi bật thêm điều đó.

Đối với Hüsch, toàn bộ sự việc có thể được tóm gọn trong một từ: nhục nhã. "Anthropic tuyên bố đứng ở vị trí tiên phong tuyệt đối của tất cả các công nghệ này, nhưng cũng tự định vị mình là tác nhân có trách nhiệm trong tất cả những điều này," cô nói. "Việc mô hình này hiện đã được tiếp cận bằng phương tiện trái phép nhanh chóng như vậy, và thông qua một nỗ lực không tinh vi gì, thực sự là một sự sỉ nhục đối với họ."