Anthropic Mythos: Mô hình AI giúp Firefox phát hiện hàng loạt lỗ hổng bảo mật nghiêm trọng

Các nhà nghiên cứu của Mozilla tiết lộ rằng mô hình Mythos của Anthropic đã phát hiện ra vô số lỗ hổng bảo mật mức độ nghiêm trọng trong trình duyệt Firefox, bao gồm cả những lỗi ẩn sâu trong mã nguồn hơn một thập kỷ. Sự kiện này đánh dấu bước ngoặt lớn khi công cụ tìm lỗi bằng AI hiện nay đã vượt xa các công cụ cũ về độ chính xác và khả năng tự đánh giá.

Khi Anthropic ra mắt mô hình Mythos mới vào tháng 4, họ cũng đưa ra một lời cảnh báo mạnh mẽ dành cho bất kỳ ai đang phát triển phần mềm. Phòng thí nghiệm này khẳng định rằng mô hình quá mạnh mẽ trong việc phát hiện các lỗ hổng phần mềm, đến mức nó đã tìm thấy hàng nghìn lỗi nghiêm trọng cần được khắc phục trước khi có thể công bố rộng rãi.

Hiện tại, các nhà nghiên cứu bảo mật của trình duyệt Firefox thuộc Mozilla đang cung cấp cái nhìn cận cảnh hơn về quá trình này trong thực tế, cũng như ý nghĩa của sức mạnh Mythos đối với an ninh phần mềm nói chung.

Ảnh minh họa

Trong một bài đăng được công bố vào thứ Năm, Mozilla cho biết Mythos đã khai thác ra một kho tàng các lỗi nghiêm trọng, bao gồm cả những lỗi đã nằm im lìm trong mã nguồn hơn một thập kỷ.

Đây là một bước cải thiện đáng kể so với khả năng của các công cụ bảo mật AI chỉ cách đây sáu tháng. Cho đến nay, các công cụ tìm lỗi bằng AI thường đi kèm với những nhược điểm lớn, thường xuyên làm ngập các đội ngũ bảo mật bằng các báo cáo chất lượng thấp và dương tính giả (báo sai). Tuy nhiên, các nhà nghiên cứu của Mozilla cho biết thế hệ công cụ mới nhất đã có bước chuyển mình tích cực, đặc biệt là khi các hệ thống tác nhân (agentic systems) hiện có thể tự đánh giá công việc của mình và lọc bỏ các kết quả sai lệch.

"Rất khó để nói hết sự thay đổi động lực này đối với chúng tôi trong vài tháng ngắn ngủi vừa qua," các nhà nghiên cứu viết. "Thứ nhất, các mô hình đã trở nên có khả năng hơn rất nhiều. Thứ hai, chúng tôi đã cải thiện đáng kể các kỹ thuật để tận dụng các mô hình này."

Kết quả thu được thật ấn tượng: Vào tháng 4 năm 2026, Firefox đã phát hành 423 bản sửa lỗi, so với chỉ 31 bản vào đúng một năm trước đó. Các nhà nghiên cứu cũng đã công bố chi tiết về 12 trong số các lỗi này, dao động từ một cặp lỗ hổng sandbox bất thường, đến một lỗi tồn tại 15 năm trong cách trình duyệt phân tích một phần tử HTML.

"Những thứ này thực sự đột nhiên trở nên rất tốt," Brian Grinstead, một kỹ sư xuất sắc của Mozilla, nói với TechCrunch. "Chúng tôi thấy điều đó trong quá trình quét nội bộ, thấy trong các báo cáo lỗi bên ngoài và thấy trong tất cả các tín hiệu trên toàn ngành."

Việc hệ thống giúp phát hiện ra các lỗ hổng trong hệ thống "sandbox" của Firefox là đặc biệt ấn tượng, xét đến tính chất phức tạp của một cuộc tấn công khai thác nó. Để tìm ra lỗ hổng sandbox, mô hình phải viết một bản vá bị xâm nhập cho trình duyệt, sau đó tấn công vào phần bảo mật nhất của phần mềm với mã mới được triển khai. Việc tìm kiếm và chứng minh lỗi là một quy trình nhiều bước tinh tế, đòi hỏi cả sự sáng tạo và sự chú ý tỉ mỉ.

Để đặt vào bối cảnh, chương trình tiền thưởng tìm lỗi (bug bounty) của Mozilla trả tới 20.000 USD cho các nhà nghiên cứu có thể tìm thấy lỗi trong sandbox của Firefox — đây là phần thưởng cao nhất hiện có. Mặc dù có mức thưởng hậu hĩnh, Grinstead nói rằng Mythos đang tìm thấy nhiều vấn đề về sandbox hơn nhiều so với các nhà nghiên cứu con người. "Chúng tôi vẫn nhận được chúng," ông nói với TechCrunch, "nhưng không với số lượng mà chúng tôi có thể tìm thấy với kỹ thuật này."

Đáng chú ý, đội ngũ Firefox vẫn chưa sử dụng AI để sửa lỗi, bất chấp sự tiến bộ được ghi nhận rộng rãi trong các công cụ lập trình AI. Đội ngũ có yêu cầu AI viết bản vá cho từng lỗi, nhưng mã kết quả thường không thể triển khai trực tiếp và thay vào đó đóng vai trò là mô hình cho kỹ sư con người.

"Đối với các lỗi chúng tôi đang thảo luận trong bài đăng này, mỗi lỗi là một kỹ sư viết bản vá và một kỹ sư xem xét nó," Grinstead nói. "Chúng tôi nhận thấy rằng nó chưa thể tự động hóa hoàn toàn."

Vẫn chưa rõ các khả năng mới nổi của AI sẽ thay đổi cán cân quyền lực trong an ninh mạng như thế nào. Một tháng sau khi Mythos được giới thiệu, hầu hết các lỗi được phát hiện có thể vẫn chưa được vá, điều này làm khó khăn trong việc nắm bắt đầy đủ phạm vi ảnh hưởng của chúng. Anthropic đã rất cẩn trọng trong việc tuân thủ các quy tắc công bố có trách nhiệm, nhưng có khả năng những kẻ xấu đang sử dụng các kỹ thuật tương tự đằng sau hậu trường, ngay cả khi các mô hình chúng sử dụng không hoàn toàn tốt như vậy.

Phát biểu tại một sự kiện gần đây, CEO Anthropic Dario Amodei lạc quan rằng các công cụ mới cuối cùng sẽ có lợi cho những người phòng thủ. "Nếu chúng ta xử lý điều này đúng cách, chúng ta có thể ở vị trí tốt hơn so với lúc bắt đầu, vì chúng ta đã sửa tất cả các lỗi này. Chỉ có giới hạn số lượng lỗi để tìm," ông Amodei nói. "Vì vậy, tôi nghĩ có một thế giới tốt đẹp hơn ở phía bên kia của vấn đề này."

Sau khi đã làm việc với các chi tiết phức tạp, Grinstead có cái nhìn thận trọng hơn: "Nó hữu ích cho cả người tấn công và người phòng thủ, nhưng việc có công cụ này sẵn có sẽ chuyển lợi thế một chút sang phía phòng thủ. Thực tế, chưa ai biết câu trả lời cho điều này."

Anthropic Mythos: Mô hình AI giúp Firefox phát hiện hàng loạt lỗ hổng bảo mật nghiêm trọng

Bài viết liên quan