Đánh giá độc lập từ Anh: Mô hình AI Mythos của Anthropic vượt qua thử nghiệm thâm nhập hệ thống đa bước

Viện An ninh AI của Anh (AISI) đã công bố kết quả đánh giá độc lập về khả năng an ninh mạng của mô hình Mythos Preview từ Anthropic. Mặc dù không vượt trội ở các tác vụ đơn lẻ, Mythos là hệ thống AI đầu tiên có khả năng xâu chuỗi thành công các bước tấn công phức tạp để thâm nhập hoàn toàn vào hệ thống mục tiêu.

Tuần trước, Anthropic thông báo họ đang giới hạn bản phát hành ban đầu của mô hình Mythos Preview chỉ dành cho "một nhóm nhỏ các đối tác quan trọng trong ngành". Quyết định này nhằm giúp họ có thêm thời gian chuẩn bị cho một mô hình mà Anthropic mô tả là có "khả năng ấn tượng trong các nhiệm vụ bảo mật máy tính". Giờ đây, Viện An ninh AI của chính phủ Anh (AISI) đã công bố một bản đánh giá ban đầu về khả năng tấn công mạng của mô hình này, mang lại sự xác minh công khai độc lập cho những báo cáo trước đó của Anthropic.

Khả năng xâu chuỗi các cuộc tấn công

Các phát hiện của AISI cho thấy Mythos không có sự khác biệt đáng kể so với các mô hình tiên phong (frontier models) gần đây khi xét trên các bài kiểm tra nhiệm vụ an ninh mạng riêng lẻ. Tuy nhiên, điểm mạnh giúp Mythos nổi bật so với các mô hình trước đó nằm ở khả năng kết nối hiệu quả các nhiệm vụ này lại với nhau.

Cụ thể, Mythos có thể thực hiện thành công chuỗi các tác vụ đa bước cần thiết để thâm nhập hoàn toàn vào một số hệ thống, thay vì chỉ giải quyết các vấn đề rời rạc.

Tiến bộ vượt bậc qua thử thách Capture the Flag

AISI đã đưa các mô hình AI khác nhau qua các thử thách Capture the Flag (CTF) được thiết kế đặc biệt kể từ đầu năm 2023. Lúc bấy giờ, GPT-3.5 Turbo đã gặp khó khăn trong việc hoàn thành bất kỳ nhiệm vụ nào thuộc nhóm "Apprentice" (học việc) tương đối cơ bản của tổ chức này.

Kể từ đó, hiệu suất của các mô hình kế tiếp đã tăng trưởng đều đặn. Điểm nhấn là Mythos Preview hiện đã có thể hoàn thành hơn 85% các nhiệm vụ cùng cấp độ "Apprentice" trong thử thách CTF đó. Điều này đánh dấu một cột mốc quan trọng, cho thấy các rào cản cuối cùng trong khả năng tự động hóa tấn công mạng của AI đang dần bị phá vỡ.

Đánh giá độc lập từ Anh: Mô hình AI Mythos của Anthropic vượt qua thử nghiệm thâm nhập hệ thống đa bước

Khả năng xâu chuỗi các cuộc tấn công

Tiến bộ vượt bậc qua thử thách Capture the Flag

Bài viết liên quan