Đánh giá Claude Mythos Preview: Khả năng an ninh mạng vượt trội và những rủi ro tiềm ẩn

Viện An ninh AI (AISI) của Anh vừa công bố báo cáo đánh giá Claude Mythos Preview, khẳng định mô hình này sở hữu khả năng tấn công mạng tự chủ vượt trội so với các thế hệ trước. Kết quả cho thấy AI này có thể tự động thực hiện các cuộc tấn công đa giai đoạn và khai thác lỗ hổng ở mức độ chuyên gia, đặt ra yêu cầu cấp thiết về việc củng cố an ninh mạng cơ bản cho các tổ chức.

Viện An ninh AI (AISI) thuộc Vương quốc Anh đã tiến hành đánh giá chi tiết khả năng an ninh mạng của Claude Mythos Preview từ Anthropic. Kết quả cho thấy đây là một bước tiến lớn, trong đó hiệu suất an ninh mạng của AI đã cải thiện nhanh chóng so với các mô hình tiên phong (frontier models) trước đó.

Từ năm 2023, AISI đã theo dõi các khả năng mạng của AI, xây dựng các bài kiểm tra ngày càng khó khăn để bắt kịp sự tiến bộ của công nghệ — từ việc thăm dò dựa trên trò chuyện, đến các thử thách Capture-the-Flag (CTF), và cuối cùng là các mô phỏng tấn công mạng đa bước. Hai năm trước, các mô hình tốt nhất khó có thể hoàn thành các nhiệm vụ mạng cấp độ người mới bắt đầu. Ngay bây giờ, trong các môi trường được kiểm soát và được cấp quyền truy cập mạng, Mythos Preview đã chứng minh khả năng thực hiện các cuộc tấn công đa giai đoạn trên các mạng lưới dễ bị tổn thương và tự chủ khám phá cũng như khai thác các lỗ hổng bảo mật — những nhiệm vụ mà các chuyên gia con người phải mất nhiều ngày để hoàn thành.

Biểu đồ hiệu suất CTF

Kết quả thử nghiệm Capture-the-Flag (CTF)

Trong các thử thách CTF, các mô hình AI phải xác định và khai thác các điểm yếu trong hệ thống mục tiêu để lấy về các "cờ" ẩn. Biểu đồ dữ liệu cho thấy hiệu suất của Mythos Preview trên bộ công cụ CTF mạng của AISI so với các mô hình khác. Mỗi điểm đại diện cho tỷ lệ thành công trung bình của một mô hình ở một mức độ khó khăn nhất định.

Đáng chú ý, trên các nhiệm vụ cấp độ chuyên gia — mà trước tháng 4 năm 2025 chưa có mô hình nào hoàn thành được — Mythos Preview đã thành công tới 73% thời gian. Điều này đánh dấu một cột mốc quan trọng trong khả năng giải quyết vấn đề kỹ thuật phức tạp của AI.

Kết quả mô phỏng tấn công mạng (Cyber Range)

Tuy nhiên, các thử thách CTF cấp độ chuyên gia chỉ kiểm tra các kỹ năng cụ thể một cách cô lập. Các cuộc tấn công mạng trong thế giới thực đòi hỏi việc xâu chuỗi hàng chục bước qua nhiều máy chủ và phân đoạn mạng — các hoạt động kéo dài mà các chuyên gia con người phải mất nhiều giờ, ngày hoặc tuần để hoàn thành.

Để đo lường điều này, AISI đã xây dựng "The Last Ones" (TLO): một mô phỏng tấn công mạng doanh nghiệp gồm 32 bước, từ trinh sát ban đầu đến việc chiếm quyền kiểm soát toàn bộ mạng lưới, ước tính yêu cầu con người mất 20 giờ để hoàn thành.

Mô phỏng TLO

Claude Mythos Preview là mô hình đầu tiên giải quyết được TLO từ đầu đến cuối, trong 3 trên 10 lần thử. Trên tất cả các lần thử, mô hình đã hoàn thành trung bình 22 trên 32 bước. So sánh với Claude Opus 4.6 — mô hình có hiệu suất tốt tiếp theo — chỉ hoàn thành trung bình 16 bước.

Dữ liệu cũng cho thấy các mô hình tiếp tục tiến bộ khi tăng ngân sách token (tài nguyên tính toán cho suy luận). Mythos Preview đạt hiệu suất cao nhất ở mức giới hạn 100 triệu token mà AISI đã thử nghiệm.

Hạn chế và Tác động

Mặc dù ấn tượng, Mythos Preview vẫn cho thấy một số hạn chế trong phạm vi đánh giá của AISI. Nó không thể hoàn thành phạm vi mạng tập trung vào công nghệ vận hành (OT) có tên "Cooling Tower", dù kết quả này không nhất thiết chứng tỏ mô hình kém cỏi trong việc thực hiện các cuộc tấn công trong môi trường OT, mà đơn giản là nó bị mắc kẹt ở các phần IT của phạm vi này.

Thành công của Mythos Preview trên một phạm vi mạng cho thấy nó có khả năng tấn công tự chủ các hệ thống doanh nghiệp nhỏ, được bảo vệ yếu và có lỗ hổng, nơi đã có quyền truy cập mạng. Tuy nhiên, các phạm vi thử nghiệm này có những khác biệt quan trọng so với môi trường thực tế khiến chúng trở thành mục tiêu dễ dàng hơn. Chúng thiếu các tính năng bảo mật thường gặp như người phòng thủ tích cực và công cụ phòng thủ. Ngoài ra, không có hình phạt nào đối với mô hình khi thực hiện các hành động kích hoạt cảnh báo bảo mật.

Điều này có nghĩa là chúng ta chưa thể khẳng định chắc chắn liệu Mythos Preview có thể tấn công các hệ thống được bảo vệ tốt hay không. Trong bối cảnh kẻ tấn công có thể hướng dẫn và cung cấp quyền truy cập mạng cho các mô hình để tiến hành các cuộc tấn công tự chủ vào các hệ thống được bảo vệ kém, các đánh giá an ninh mạng cần phải tiến hóa. Khi khả năng tiếp tục cải thiện, các môi trường đánh giá thiếu phòng thủ sẽ không còn đủ thách thức để phân biệt khả năng của các mô hình mạng mạnh nhất hay đánh giá xu hướng.

Công việc trong tương lai của AISI sẽ bao gồm đánh giá khả năng sử dụng các phạm vi mô phỏng môi trường được củng cố và phòng thủ, bao gồm các phạm vi có giám sát tích cực, phát hiện điểm cuối và phản ứng sự cố thời gian thực.

Lời khuyên cho các tổ chức

Thử nghiệm của AISI cho thấy Mythos Preview có thể khai thác các hệ thống có tư thế bảo mật yếu, và có khả năng sẽ có nhiều mô hình hơn với các khả năng này được phát triển trong tương lai. Điều này làm nổi bật tầm quan trọng của những điều cơ bản về an ninh mạng: áp dụng thường xuyên các bản cập nhật bảo mật, kiểm soát truy cập mạnh mẽ, cấu hình bảo mật và ghi nhật ký toàn diện.

Các đồng nghiệp tại Trung tâm An ninh Mạng Quốc gia (NCSC) vận hành chương trình Cyber Essentials để giúp các tổ chức bảo vệ mình trước các mối đe dọa trực tuyến phổ biến, dù những mối đe dọa đó có sự hỗ trợ của AI hay không.

Các mô hình tiên phong trong tương lai sẽ có khả năng cao hơn nữa, vì vậy việc đầu tư vào phòng thủ mạng ngay bây giờ là vô cùng quan trọng. Các khả năng mạng của AI có tính chất hai mặt; trong khi chúng tạo ra thách thức bảo mật, chúng cũng có thể giúp mang lại những cải tiến mang tính thay đổi cuộc chơi trong phòng thủ.