Anthropic lên kế hoạch công khai mô hình AI tìm lỗi Mythos cho cộng đồng

Công ty AI Anthropic cho biết họ có kế hoạch phát hành các mô hình cấp Mythos — công cụ phát hiện lỗ hổng mạnh mẽ — cho công chúng trong tương lai gần, miễn là các biện pháp an toàn được hoàn thiện. Hiện tại, mô hình này đã phát hiện hơn 6.000 lỗ hổng nghiêm trọng trong các dự án mã nguồn mở, gây áp lực lớn lên đội ngũ bảo mật.

Anthropic đã tiết lộ ý định sẽ một ngày nào đó phát hành các mô hình có hiệu năng tương đương với AI tìm lỗi Mythos của mình cho công chúng rộng rãi, miễn là họ có thể đảm bảo tính an toàn cho chúng.

Để bạn chưa nắm bắt thông tin, vào đầu tháng 4, Anthropic đã công bố sự phát triển của một mô hình có tên Mythos. Mô hình này cực kỳ giỏi trong việc phát hiện các lỗ hổng bảo mật trong mã lập trình đến mức công ty quyết định chỉ cung cấp nó cho các thực thể được chọn. Lý do là cho phép truy cập không giới hạn sẽ có nghĩa là các tội phạm mạng có thể nhanh chóng phát hiện và khai thác các lỗi phần mềm.

Chương trình truy cập này được gọi là "Project Glasswing" (Dự án Cánh kính), và các thành viên tham gia báo cáo rằng nó tìm ra rất nhiều lỗi nhanh chóng, dù ít lỗi trong số đó là con người không thể tìm thấy nếu có đủ thời gian và nguồn lực. Những người có quyền truy cập vào Mythos cũng đôi khi cho biết số lượng lỗi nó tìm ra hơi quá sức khả năng vá lỗi của họ.

Chính sự tồn tại của Mythos đã gây ra một chút hoảng loạn — chính phủ Nhật Bản đã yêu cầu một đợt xem xét an ninh toàn diện, và chính quyền Ấn Độ đã yêu cầu các định chế tài chính tăng tốc vá lỗi. Ngoài ra, còn có sự nhận thức chung rằng ngay cả các mô hình AI kém khả năng hơn cũng là những công cụ tìm lỗi khá tốt, điều này có nghĩa là các chuyên gia phòng thủ mạng giờ đây phải kỳ vọng rằng kẻ tấn công sẽ vũ khí hóa nhiều lỗ hổng hơn, thường xuyên hơn.

Không có công ty nào — kể cả Anthropic — phát triển được các biện pháp bảo vệ đủ mạnh để ngăn chặn việc lạm dụng các mô hình như vậy.

Tuần trước, Anthropic đã công bố một "cập nhật ban đầu" về Project Glasswing, trong đó đoạn sát cuối cùng tiết lộ bước tiếp theo của công ty sẽ là "... làm việc với các đối tác trọng yếu — bao gồm chính phủ Mỹ và các đồng minh — để mở rộng Project Glasswing sang thêm các đối tác khác. Và trong tương lai gần, một khi chúng tôi đã phát triển được các biện pháp bảo vệ mạnh hơn nhiều như chúng tôi cần, chúng tôi mong muốn sẽ cung cấp các mô hình cấp Mythos thông qua bản phát hành chung."

Công ty không giải thích ý nghĩa của cụm từ "tương lai gần" và thừa nhận rằng "Hiện tại, không có công ty nào — kể cả Anthropic — đã phát triển được các biện pháp bảo vệ đủ mạnh để ngăn chặn việc lạm dụng các mô hình như vậy và có khả năng gây ra tổn hại nghiêm trọng."

Một minh chứng khác cho nhận định này có thể được tìm thấy trước đó trong bài đăng của công ty, trong đó tiết lộ rằng Anthropic đã sử dụng Mythos để quét hơn 1.000 dự án mã nguồn mở mà theo công ty này "tổng thể đóng vai trò nền tảng cho phần lớn internet — và phần lớn cơ sở hạ tầng của chính chúng tôi."

Tính đến nay, Mythos đã tìm thấy khoảng 6.202 lỗ hổng mức độ nghiêm trọng hoặc cao (high-or-critical) trong các dự án này — và tổng cộng 23.019 lỗi.

Bài đăng tiết lộ rằng khi Mythos tìm ra một lỗi, Anthropic và các đồng minh trong cộng đồng bảo mật sẽ tái tạo vấn đề mà Mythos đã tìm thấy và "đánh giá lại mức độ nghiêm trọng của nó."

"Khi chúng tôi đã xác nhận rằng một lỗ hổng là có thật, chúng tôi kiểm tra xem liệu đã có bản sửa lỗi nào chưa, và viết một báo cáo chi tiết gửi cho những người duy trì phần mềm," Anthropic giải thích. "Chúng tôi rất thận trọng ở bước này: trên top những thách thức thường trực trong việc duy trì phần mềm mã nguồn mở, những người duy trì đang đối mặt với làn sóng các báo cáo lỗi do AI tạo ra chất lượng thấp. Thực tế, một số người duy trì đã cho chúng tôi biết rằng họ hiện đang bị hạn chế nghiêm trọng về năng lực, và một số thậm chí đã yêu cầu chúng tôi chậm lại tốc độ tiết lộ vì họ cần thêm thời gian để thiết kế bản vá."

1.752 trong số các lỗ hổng mức độ cao hoặc nghiêm trọng mà Mythos tìm thấy trong phần mềm tự do nguồn mở (FOSS) đã trải qua quy trình này và 90,6% (1.587) được xác nhận là lỗi thật. Trong số đó, 62,4% (1.094) "được xác nhận là ở mức độ nghiêm trọng hoặc cao," bài đăng stated.

Một trong những lỗi nghiêm trọng ảnh hưởng đến thư viện mã hóa wolfSSL được sử dụng bởi hàng tỷ thiết bị trên toàn thế giới.

" bản xem trước Mythos đã xây dựng một exploit (khai thác) cho phép kẻ tấn công giả mạo chứng chỉ sẽ (ví dụ) cho phép họ lưu trữ một trang web giả cho ngân hàng hoặc nhà cung cấp dịch vụ email," Anthropic viết. "Trang web sẽ trông hoàn toàn hợp pháp với người dùng cuối, mặc dù đang bị kiểm soát bởi kẻ tấn công." May mắn thay, các nhà phát triển đã vá lỗi cho wolfSSL, và Anthropic cho biết họ sẽ cung cấp một phân tích kỹ thuật đầy đủ "trong vài tuần tới."

Hãy chú ý đến CVE-2026-5194 để tìm hiểu thêm về lỗi này.

Mythos đang thêm gánh nặng lên một hệ sinh thái bảo mật vốn đã quá tải

"75 trong số 530 lỗi mức độ cao hoặc nghiêm trọng mà chúng tôi báo cáo đã được vá, và 65 trong số đó đã được đưa ra các công bố công khai," bài đăng stated, sau đó giải thích tỷ lệ vá lỗi thấp bằng cách tiết lộ rằng Anthropic "vẫn còn ở giai đoạn đầu trong khung thời gian 90 ngày được quy định trong Chính sách Tiết lộ Lỗ hổng Phối hợp của chúng tôi: chúng tôi kỳ vọng nhiều bản vá sẽ được áp dụng sớm." Công ty cũng cho rằng họ "có thể đang đếm thiếu các bản vá vì một số lỗ hổng được vá mà không có công bố công khai."

Cuối cùng, làn sóng các lỗi mà Mythos tìm thấy "đang thêm gánh nặng lên một hệ sinh thái bảo mật vốn đã quá tải."

Đề xuất của Anthropic cho các đội ngũ bảo mật đang gặp khó khăn trong việc phát triển bản vá cho các lỗi do AI phát hiện là, không ngạc nhiên đâu, sử dụng nhiều AI hơn, chẳng hạn như các kỹ năng giúp cải thiện khả năng hỗ trợ nhà phát triển của mô hình Claude của họ.

Anthropic lên kế hoạch công khai mô hình AI tìm lỗi Mythos cho cộng đồng

Bài viết liên quan