Thực tế về AI an ninh mạng: Các mô hình nhỏ cũng tìm thấy lỗ hổng như Mythos

Các thử nghiệm mới cho thấy các mô hình AI nhỏ, giá rẻ và mã nguồn mở có thể phát hiện và phân tích các lỗ hổng bảo mật tương tự như mô hình Mythos cao cấp của Anthropic. Điều này chứng minh rằng năng lực AI trong an ninh mạng là "gồ ghề" và không phụ thuộc hoàn toàn vào kích thước mô hình, mà quan trọng hơn là hệ thống bao quanh nó.

Vào ngày 7 tháng 4, Anthropic đã công bố Claude Mythos Preview và Dự án Glasswing, một liên minh các công ty công nghệ sử dụng mô hình AI mới có quyền truy cập hạn chế này để tìm và vá các lỗ hổng bảo mật trong phần mềm quan trọng. Anthropic cam kết lên tới 100 triệu USD tín dụng sử dụng và 4 triệu USD quyên góp trực tiếp cho các tổ chức bảo mật mã nguồn mở.

Bài viết kỹ thuật đi kèm của Anthropic mô tả Mythos đã tự chủ tìm thấy hàng nghìn lỗ hổng zero-day trên mọi hệ điều hành và trình duyệt web chính, bao gồm cả một lỗi 27 năm tuổi trong OpenBSD và lỗi 16 năm trong FFmpeg. Đây là một công việc quan trọng và sứ mệnh mà chúng tôi tại AISLE cũng chia sẻ.

AI và An ninh mạng

Tuy nhiên, khi chúng tôi thử nghiệm, chúng tôi đã phát hiện một thực tế thú vị: Chúng tôi đã lấy các lỗ hổng cụ thể mà Anthropic giới thiệu, cô lập đoạn mã liên quan và chạy chúng qua các mô hình nhỏ, giá rẻ và mã nguồn mở. Những mô hình này đã khôi phục phần lớn phân tích tương tự. Tám trong số tám mô hình đã phát hiện ra khai thác FreeBSD tiêu biểu của Mythos, bao gồm một mô hình chỉ có 3,6 tỷ tham số hoạt động với giá 0,11 USD mỗi triệu token.

Điều này chỉ ra một bức tranh tinh tế hơn là "một mô hình thay đổi mọi thứ". Năng lực AI trong an ninh mạng là rất "gồ ghề" (jagged): nó không tăng trưởng mượt mà theo kích thước mô hình.

Biên giới năng lực gồ ghề

Để tìm hiểu năng lực thực sự nằm ở đâu, chúng tôi đã chạy một loạt thí nghiệm sử dụng các mô hình nhỏ, giá rẻ và mã nguồn mở trên các nhiệm vụ liên quan trực tiếp đến thông báo Mythos. Kết quả cho thấy năng lực an ninh mạng là gồ ghề: nó không tỷ lệ thuận với kích thước mô hình, thế hệ mô hình hay giá cả.

Chúng tôi đã công bố toàn văn các bản ghi để người khác có thể kiểm tra trực tiếp các câu hỏi và đầu ra. Dưới đây là tóm tắt qua ba bài kiểm tra:

Bài kiểm tra OWASP: Một bài tập giả mạo dương tính (false-positive) mà một nhân viên an ninh mới vào nghề được kỳ vọng sẽ làm tốt. Kết quả cho thấy quy mô nghịch đảo: các mô hình mã nguồn mở nhỏ vượt trội hơn các mô hình tiên phong (frontier models) lớn.
Phát hiện khai thác FreeBSD: Đây là kết quả nổi bật nhất của Mythos. Tất cả tám mô hình chúng tôi thử nghiệm, kể cả mô hình nhỏ nhất, đều đã xác định chính xác tràn bộ đệm stack, tính toán không gian bộ đệm còn lại và đánh giá mức độ nghiêm trọng.
Phân tích lỗi OpenBSD SACK: Đây là ví dụ tinh tế nhất trong bài đăng của Anthropic, đòi hỏi lý luận toán học về tràn số nguyên có dấu. Một mô hình mã nguồn mở 5.1B tham số đã khôi phục toàn bộ chuỗi công khai trong một lệnh gọi duy nhất.

Không có một "mô hình tốt nhất cho an ninh mạng" ổn định. Xếp hạng năng lực bị xáo trộn hoàn toàn qua các nhiệm vụ khác nhau.

Lợi thế thực sự là Hệ thống, không phải Mô hình

Thông báo Mythos trình bày AI an ninh mạng như một khả năng tích hợp duy nhất: chỉ điểm Mythos vào một cơ sở mã và nó sẽ tìm ra lỗ hổng. Tuy nhiên, trên thực tế, AI an ninh mạng là một đường ống mô-đun gồm các nhiệm vụ rất khác nhau: quét phổ quát, phát hiện lỗ hổng, phân loại và xác minh, tạo bản vá, và xây dựng khai thác.

Hệ thống AI an ninh mạng

Anthropic không nghi ngờ gì là đang tối đa hóa trí tuệ trên mỗi token với Mythos. Nhưng kinh nghiệm của AISLE cho thấy các yếu tố đầu vào khác cũng quan trọng không kém: token trên mỗi đồng đô la, token trên mỗi giây, và chuyên môn bảo mật được nhúng trong scaffold (khung hệ thống) và tổ chức điều phối tất cả.

Kết luận trước khi xem bằng chứng là: Lợi thế (moat) trong AI an ninh mạng là hệ thống, không phải mô hình.

Có một hệ quả thực tế của tính chất gồ ghề này. Vì các mô hình nhỏ, rẻ và nhanh đã đủ cho phần lớn công việc phát hiện, bạn không cần phải triển khai khéo léo một mô hình đắt tiền và hy vọng nó nhìn đúng chỗ. Bạn có thể triển khai các mô hình rẻ tiền rộng rãi, quét mọi thứ, và bù đắp cho trí tuệ thấp hơn trên mỗi token bằng phạm vi phủ sóng và chi phí thấp hơn.

Một ngàn thám tử đủ tốt tìm kiếm khắp nơi sẽ tìm thấy nhiều lỗi hơn một thiên tài bril-liant phải đoán mò nơi cần nhìn. Các mô hình nhỏ đã cung cấp đủ sự nâng cấp để, khi được bọc trong sự điều phối của chuyên gia, chúng tạo ra kết quả mà hệ sinh thái nghiêm túc chấp nhận.

Kết luận

Thông báo Mythos là tin rất tốt cho hệ sinh thái. Nó xác nhận danh mục này, nâng cao nhận thức và cam kết nguồn lực thực sự cho bảo mật mã nguồn mở. Nhưng phiên bản mạnh nhất của câu chuyện rằng công việc này phụ thuộc cơ bản vào một mô hình tiên phong bị hạn chế, chưa được phát hành có vẻ như bị cường điệu hóa.

Những gì có thể tiếp cận rộng rãi ngày nay là nhiều lớp phát hiện và phân tích khi một hệ thống tốt đã thu hẹp phạm vi tìm kiếm. Bằng chứng chúng tôi trình bày ở đây chỉ ra một kết luận rõ ràng: các năng lực AI an ninh mạng cấp độ phát hiện có thể tiếp cận rộng rãi với các mô hình hiện tại, bao gồm cả các lựa chọn thay thế mã nguồn mở giá rẻ.

Ưu tiên của những người bảo vệ là bắt đầu xây dựng ngay bây giờ: các scaffold, các đường ống, các mối quan hệ với người bảo trì, và sự tích hợp vào quy trình phát triển. Các mô hình đã sẵn sàng. Câu hỏi là liệu phần còn lại của hệ sinh thái có sẵn sàng hay không.

Thực tế về AI an ninh mạng: Các mô hình nhỏ cũng tìm thấy lỗ hổng như Mythos

Biên giới năng lực gồ ghề

Lợi thế thực sự là Hệ thống, không phải Mô hình

Kết luận

Bài viết liên quan