Anthropic giới thiệu Project Glasswing: Mô hình AI mạnh nhất nhưng quá nguy hiểm để phát hành công khai

Anthropic ra mắt Project Glasswing cùng mô hình AI Claude Mythos Preview, hợp tác với nhiều công ty lớn để phát hiện và vá lỗi bảo mật trên các nền tảng quan trọng. Mô hình này có thể tự động phát hiện hàng nghìn lỗ hổng zero-day, nhưng công ty quyết định giữ kín do mức độ nguy hiểm tiềm ẩn.

Anthropic vừa công bố Project Glasswing, một sáng kiến an ninh mạng quy mô lớn tích hợp mô hình AI frontier chưa từng công bố mang tên Claude Mythos Preview với liên minh gồm 12 tập đoàn công nghệ và tài chính hàng đầu như Amazon Web Services, Apple, Google, Microsoft, Nvidia, CrowdStrike, và Linux Foundation.

Mục tiêu của dự án là phát hiện và vá các lỗ hổng phần mềm trên hạ tầng cơ sở hạ tầng trọng yếu toàn cầu trước khi những kẻ tấn công có thể khai thác. Anthropic cũng cung cấp quyền truy cập cho hơn 40 tổ chức phát triển phần mềm quan trọng khác, cùng cam kết sử dụng khoảng 100 triệu USD tín dụng để chạy mô hình này và 4 triệu USD tài trợ trực tiếp cho các tổ chức bảo mật mã nguồn mở.

Claude Mythos Preview: Mô hình AI quá nguy hiểm để phát hành công khai

Điểm đặc biệt của Project Glasswing là sử dụng một mô hình AI đa năng có khả năng tự động phát hiện hàng nghìn lỗ hổng zero-day - những lỗi chưa từng được biết đến trước đó - trên mọi hệ điều hành và trình duyệt nổi tiếng, cùng nhiều phần mềm thiết yếu khác.

Tuy nhiên, Anthropic không có kế hoạch phát hành mô hình này ra công chúng vì những khả năng bảo mật quá mạnh mẽ của nó. Newton Cheng, Trưởng nhóm an ninh mạng Frontier tại Anthropic, chia sẻ:

"Với tốc độ phát triển AI hiện nay, sẽ không lâu nữa các năng lực như thế sẽ lan rộng rộng, có thể rơi vào tay những tổ chức thiếu trách nhiệm. Hệ quả đối với kinh tế, an toàn công cộng và an ninh quốc gia có thể rất nghiêm trọng."

Mô hình Mythos Preview đã tìm ra gần như toàn bộ các lỗ hổng được phát hiện, thậm chí có thể tự phát triển nhiều mã khai thác liên quan mà không cần sự tương tác của con người. Một số điểm nổi bật bao gồm:

Phát hiện lỗi tồn tại 27 năm trong OpenBSD, hệ điều hành được xem là rất cứng rắn về bảo mật, cho phép kẻ tấn công làm sập máy từ xa.
Phát hiện lỗi trong FFmpeg, thư viện mã hóa và giải mã video phổ biến, mà các công cụ kiểm thử tự động đã bỏ sót sau 5 triệu lần chạy thử.
Tự động tìm và kết hợp nhiều lỗi trên kernel Linux để leo thang quyền kiểm soát hoàn toàn máy tính từ quyền người dùng bình thường.

Tất cả các lỗ hổng này đã được báo cáo và các bản vá được phát hành. Nhưng dịch vụ này đặt ra câu hỏi lớn về cách Anthropic sẽ xử lý lượng thông tin rất lớn về các lỗ hổng một cách trách nhiệm, không làm quá tải cộng đồng duy trì mã nguồn mở vốn đa phần là tình nguyện viên.

Quản lý lỗ hổng với quy trình sàng lọc nghiêm ngặt

Để tránh việc tràn ngập các báo cáo lỗi chưa được kiểm duyệt, Anthropic đã xây dựng một hệ thống phân loại và sàng lọc các lỗi tìm được. Những lỗ hổng nghiêm trọng nhất sẽ được các chuyên gia bảo mật kiểm tra thủ công để đảm bảo báo cáo chính xác trước khi gửi cho người duy trì dự án.

Khi có quyền truy cập mã nguồn, Anthropic đồng thời cung cấp bản vá ứng viên được tạo hoặc kiểm duyệt bởi AI, giúp người duy trì có thể phối hợp tạo ra bản vá chất lượng cao hơn. Thời gian công bố chi tiết kỹ thuật bị giới hạn trong khoảng 45 ngày kể từ khi bản vá sẵn sàng, để cho các bên liên quan kịp thời triển khai.

Những tai nạn bảo mật và nguy cơ niềm tin

Ironi là trong lúc ra mắt dự án an ninh mạng đỉnh cao này, Anthropic cũng gặp phải những sự cố về an ninh thông tin:

Bài viết blog về Mythos được lưu giữ trong kho dữ liệu không được bảo mật, làm lộ kế hoạch triển khai.
Mã nguồn gốc hoàn chỉnh của Claude Code bị rò rỉ trong khoảng 3 giờ do lỗi đóng gói npm.

Dù phía Anthropic khẳng định đây đều là lỗi con người trong quy trình công cụ xuất bản, không phải vi phạm hạ tầng bảo mật lõi, nhưng những sự cố này làm dấy lên lo ngại về việc liệu công ty có đủ đáng tin cậy khi nắm giữ một mô hình AI có khả năng khai thác lỗ hổng với mức độ cực kỳ nguy hiểm.

Phản hồi từ các đối tác lớn và cộng đồng

Liên minh trong Project Glasswing có sự góp mặt của cả đối thủ như Google và Microsoft, cùng các tổ chức an ninh mạng và tài chính lớn. Một số đã thử nghiệm mô hình Mythos Preview trên hạ tầng của chính mình và ghi nhận sự cải thiện đáng kể trong tăng cường bảo mật.

Jim Zemlin, CEO Linux Foundation, nhận định:

"Trước đây, chuyên môn bảo mật chỉ dành cho các tổ chức có đội ngũ lớn. Những người duy trì mã nguồn mở vốn đã chịu nhiều rủi ro và không có đủ nguồn lực. Project Glasswing hứa hẹn thay đổi cục diện đó."

Anthropic cũng đóng góp hơn 4 triệu USD cho nhiều tổ chức bảo mật mã nguồn mở lớn như Alpha-Omega, OpenSSF và Apache Software Foundation.

Tính toán kinh phí và triển vọng IPO

Sau giai đoạn nghiên cứu, mô hình Claude Mythos Preview sẽ được tính phí sử dụng cao, tương ứng 25 USD cho mỗi triệu token đầu vào, và 125 USD cho mỗi triệu token đầu ra, phản ánh yêu cầu tính toán cực lớn. Mô hình được cung cấp qua nền tảng API Claude, Amazon Bedrock, Google Vertex AI, và Microsoft Foundry.

Dự án cũng gắn với bước tiến tài chính quan trọng khi Anthropic ký kết hợp đồng năng lực tính toán hàng gigawatt với Google và Broadcom - một trong những thỏa thuận chip AI lớn nhất từ trước đến nay. Tin đồn IPO của Anthropic có thể diễn ra sớm nhất vào tháng 10 năm 2026 càng làm cho dự án Glasswing có vị thế quan trọng trong câu chuyện phát triển và an ninh AI.

Thời gian vàng: Chỉ còn tính bằng tháng để phòng thủ trước kẻ thù

Newton Cheng thẳng thắn cảnh báo:

"Năng lực AI frontier sẽ tiến triển mạnh mẽ trong vài tháng tới. Nếu không phải những tổ chức nghiêm túc triển khai an toàn thì hậu quả có thể cực kỳ nghiêm trọng."

Project Glasswing nhằm tạo lợi thế bền vững cho phe phòng thủ trong thế giới an ninh mạng do AI thúc đẩy, nhưng đồng thời cũng thừa nhận:

"Không một tổ chức nào có thể giải quyết vấn đề bảo mật mạng toàn cầu một mình."

So với cuộc thi Cyber Grand Challenge của DARPA năm 2016, khi AI còn thua xa con người, Anthropic hiện nay đã sở hữu mức năng lực có thể tự động phát hiện và khai thác những lỗ hổng tồn tại hàng chục năm mà cả cộng đồng bảo mật chưa phát hiện ra.

Dự án Glasswing, cùng với sự tăng trưởng doanh thu gấp ba lần lên 30 tỷ USD và khả năng tính toán cực lớn, đánh dấu một bước ngoặt quan trọng trong ngành an ninh mạng lại thời đại AI. Thách thức giờ đây là liệu tốc độ hợp tác, minh bạch và đóng góp vì lợi ích chung có đủ nhanh để ngăn chặn sự phổ biến của những năng lực AI nguy hiểm này vào tay kẻ xấu hay không.

Project Glasswing của Anthropic biểu tượng cho một cuộc đua mới trong an ninh mạng: minh bạch và hợp tác có thể là chìa khóa để giữ an toàn trước một kỷ nguyên AI vừa mang lại cơ hội vừa tiềm ẩn nguy cơ khôn lường.