Mythos "phát hiện" lỗ hổng CVE từ dữ liệu huấn luyện: Tại sao điều này vẫn đáng báo động?

Anthropic từng gây chấn động khi tuyên bố AI Mythos tìm ra lỗ hổng kernel từ xa đầu tiên, nhưng điều tra cho thấy đây thực chất là một lỗi cũ đã tồn tại từ năm 2007. Sự việc này đặt ra vấn đề cốt lõi: liệu AI có thực sự sáng tạo hay chỉ đang khớp mẫu từ dữ liệu huấn luyện, và rủi ro thực sự nằm ở việc các mô hình này tái tạo lỗi bảo mật cũ vào hệ thống mới.

Gần đây, Anthropic đã tạo nên một cơn sóng lớn khi tuyên bố mô hình Claude Mythos của họ đã đạt được thành tựu "khai thác lỗ hổng kernel từ xa đầu tiên được phát hiện và khai thác bởi AI". Tuy nhiên, khi đi sâu vào phân tích kỹ thuật, chúng tôi phát hiện ra rằng "phát hiện" này thực chất là một lỗi cũ đã ẩn mình trong mã nguồn suốt hai thập kỷ qua.

Hãy cùng phân tích chính xác những gì Mythos đã làm và ý nghĩa thực sự của nó đối với quốc phòng an ninh mạng.

Chi tiết về lỗ hổng "mới"

Trong bài đăng ban đầu về Claude Mythos, Anthropic đã thảo luận về nhiều lỗ hổng khác nhau mà mô hình này đã tìm thấy và khai thác. Lỗ hổng được đề cập chi tiết nhất (bao gồm cả CVE và bài viết kỹ thuật đầy đủ) là CVE-2026-4747 - một khả năng thực thi mã từ xa trong hệ thống tệp mạng của FreeBSD. Các hệ thống tệp mạng này được sử dụng trong hàng nghìn hệ thống lưu trữ mạng on-prem tại các doanh nghiệp và trung tâm nghiên cứu học thuật.

Mặc dù cuộc khai thác này thể hiện một kỹ thuật kỹ thuật ấn tượng, nhưng bất kỳ ai theo dõi lĩnh vực AI cũng không nên quá ngạc nhiên trước khả năng viết mã của một hệ thống AI tác tử (agentic AI). Điều khiến chúng tôi tò mò hơn là cách nó nhận ra lỗ hổng này ngay từ đầu.

Bài viết về lỗ hổng này lưu ý đến tính chất "kinh điển" của nó - một lỗi tràn bộ nhớ stack (stack overflow) cổ điển, trở nên dễ dàng hơn nữa do các cơ chế bảo vệ tiêu chuẩn (KASLR/Stack Canaries) không được biên dịch vào FreeBSD.

Cụ thể, trong tệp sys/rpc/rpcsec_gss/svc_rpcsec_gss.c, hàm svc_rpc_gss_validate() tái tạo lại một header RPC vào một bộ đệm stack 128 byte (rpchdr[]) để xác minh chữ ký GSS-API. Nó trước tiên ghi 32 byte của các trường header RPC cố định, sau đó sao chép toàn bộ phần thân thông tin xác thực RPCSEC_GSS (oa_length byte) vào phần không gian còn lại — mà không kiểm tra xem oa_length có vừa hay không.

Bộ đệm chỉ có 128 - 32 = 96 byte không gian cho phần thân thông tin xác thực. Bất kỳ thông tin xác thực nào lớn hơn 96 byte sẽ gây ra tràn bộ đệm stack.

Một lỗ hổng cũ kỹ

Ban đầu, điều này nghe có vẻ đáng sợ. Liệu còn bao nhiêu lỗi sâu trong kernel mà chưa có con người nào nhận ra đang tồn tại? Tuy nhiên, câu chuyện "lỗ hổng kernel đầu tiên được AI phát hiện" này có thể là đúng, nhưng chắc chắn không phải là toàn bộ sự thật.

Đoạn mã dễ bị tấn công này có nguồn gốc từ Open Network Computing Remote Procedure Call (ONC RPC) và Network File System (NFS) của Sun Microsystems — được phát triển lần đầu vào năm 1984 và phát hành vào năm 1985.

Khi mạng mở rộng từ các môi trường tin cậy nhỏ lẻ sang các hệ thống khổng lồ trong thập niên 90, các giao thức NFS và RPC của Sun đã trở thành một tiêu chuẩn thực tế. Vào tháng 4 năm 1995, Sun đã chuyển quyền kiểm soát ONC RPC cho IETF để được duy trì như một tiêu chuẩn mở (RFC 1790).

IETF đã thiết lập một nhóm công tác để phát triển tiêu chuẩn này, nhóm đã xuất bản giao thức RPCSEC_GSS vào năm 1997 (RFC 2203). Phần lớn công việc mã nguồn mở để triển khai NFSv4, RPCSEC_GSS và các thành phần cấp kernel cần thiết được tài trợ và phát triển bởi Trung tâm Tích hợp Công nghệ Thông tin (CITI) tại Đại học Michigan.

Điều thú vị là mã nguồn này gần như giống hệt nhau giữa các triển khai khác nhau. FreeBSD duy trì toàn bộ hệ điều hành cơ bản của mình — kernel, trình điều khiển và các tiện ích hệ thống thiết yếu — trong một kho lưu trữ khổng lồ, thống nhất. Điều này bao gồm chức năng RPCSEC_GSS, vốn gần như giống hệt mã trong Kerberos của MIT.

Sự trùng hợp với CVE-2007-3999

Bạn có thể mong đợi CVE của Mythos cũng áp dụng cho triển khai của MIT? Liệu chúng ta có đang đối mặt với một vấn đề lớn hơn không?

Hãy chào đón một "bài hát cũ" nhưng vẫn hay: CVE-2007-3999! Cơ sở dữ liệu Quốc gia về Lỗ hổng (NVD) của NIST mô tả lỗ hổng này như sau:

"Lỗi tràn bộ nhớ dựa trên stack trong hàm svcauth_gss_validate... trong thư viện RPCSEC_GSS RPC (librpcsecgss) trong MIT Kerberos 5 (krb5) phiên bản 1.4 đến 1.6.2... cho phép kẻ tấn công từ xa gây từ chối dịch vụ (daemon sập) và có thể thực thi mã tùy ý thông qua một chuỗi dài trong thông báo RPC."

CVE này đã được vá vào năm 2007. Nhưng có điều gì đó trong mô tả đó có vẻ cực kỳ quen thuộc...

Khi so sánh hàm dễ bị tấn công từ năm 2007 (có khả năng nằm trong dữ liệu huấn luyện của Claude) với phát hiện của Mythos, sự tương đồng là cực kỳ đáng báo động. Đoạn vá lỗi của thời Tổng thống George Bush dành cho Kerberos cũng gần như giống hệt với những gì FreeBSD đã triển khai vào tháng trước để phản hồi lại Mythos.

AI: Sáng tạo hay Khớp mẫu?

Vậy, liệu AI có thể tìm ra các lỗ hổng hoàn toàn mới, sáng tạo cao độ? Có thể. Nhưng trong trường hợp của CVE-2026-4747, việc tìm ra lỗ hổng dường như nhiều hơn là một ví dụ về sự sáng tạo tổ hợp, nơi AI đưa ra một khám phá đã có trong dữ liệu huấn luyện của nó.

Có một cuộc thảo luận ngày càng tăng xung quanh các "phát hiện lại" tương tự mà AI đã thực hiện trong toán học và các khoa học khác, và giờ đây đến lượt an ninh mạng có cuộc thảo luận này. Ranh giới, nếu có, cho việc AI đưa ra những khám phá thực sự mới là gì? Sự khác biệt đó có quan trọng không?

Hiểu đúng về rủi ro thực sự của AI trong an ninh mạng có nghĩa là phải tách bạch sự cường điệu hóa khoa học viễn tưởng khỏi thực tế về cách các mô hình này hoạt động.

CVE của FreeBSD được gây ra bởi sự sơ suất của con người vào đầu những năm 2000. Nhưng vào năm 2026, các lỗi cũ kỹ đang được "nướng" trực tiếp vào hệ thống của chúng ta nhanh hơn bao giờ hết. Các Mô hình Ngôn ngữ Lớn (LLM), khi chúng cấu hình môi trường của chúng ta và viết mã mới, đang nôn ra các mẫu không an toàn giống hệt những gì chúng đã được huấn luyện.

Kết luận: Rủi ro thực sự

Các mô hình nâng cao không cần phải quá sáng tạo để tê liệt một công ty hoặc một lưới điện. Chúng chỉ cần đóng vai trò như những bộ khớp mẫu mạnh mẽ, phát hiện và khai thác các lỗi cũ mà các mô hình AI yếu hơn đã vô tâm copy-paste vào môi trường.

Cuối cùng, không quan trọng việc việc khai thác là "duy nhất" hay thực sự là dữ liệu huấn luyện đã được ghi nhớ. Điều quan trọng là thiệt hại nó có thể gây ra khi bị khai thác — và AI đã làm cho việc khai thác trở nên rẻ hơn nhiều so với trước đây.

Tuy nhiên, việc vá lỗi vẫn có thể rẻ hơn và nhanh hơn việc tấn công. Những tổ chức sẽ chiến thắng là những tổ chức chuyển sang sử dụng các khả năng tác nhân (agentic capabilities) trước cả những kẻ tấn công.