Mythos: Mối đe dọa từ AI có thể phá vỡ cơ chế bảo vệ của Internet?

Anthropic vừa công bố bản xem trước mô hình Mythos với khả năng tạo ra mã khai thác lỗ hổng sandbox thành công ở mức đáng báo động. Sự phát triển này đặt ra nghi ngờ về tính hiệu quả của các lớp bảo mật ảo vốn được coi là nền tảng an toàn của Internet hiện đại.

Trong gần 20 năm qua, "thỏa thuận" ngầm của Internet rất đơn giản: bạn nhấp vào một liên kết, các đoạn mã tùy ý sẽ chạy trên thiết bị của bạn, và một chồng các sandbox (môi trường cô lập) sẽ ngăn chặn mã đó thực hiện các hành động gây hại. Các sandbox trình duyệt cho JavaScript chưa được xác thực, sandbox ảo hóa cho đám mây đa người thuê, hay iframe quảng cáo để các banner không thể chiếm quyền điều khiển điện thoại hay laptop của bạn — toàn bộ Internet hiện đại được xây dựng dựa trên giả định rằng các sandbox này vững chắc.

Tuy nhiên, Anthropic vừa tung ra một bản xem trước nghiên cứu cho thấy mô hình AI của họ có thể tạo ra các khai thác (exploit) hoạt động được cho một trong những sandbox này với tỷ lệ thành công lên tới 72,4%, tăng vọt từ mức dưới 1% chỉ vài tháng trước. Có vẻ như thỏa thuận đó đang bắt đầu lung lay.

Mythos JS Sandbox Escape

Mythos và vấn đề về nguồn lực tính toán

Từ những gì tôi đã đọc, Mythos là một mô hình cực kỳ lớn. Các tin đồn cho thấy kích thước của nó tương đương với GPT-4.5 — phiên bản tồn tại trong thời gian ngắn và gây thất vọng lớn. Do đó, tôi đồng ý với nhiều bình luận viên rằng lý do chính khiến mô hình này chưa được triển khai rộng rãi hơn là vấn đề tính toán. Anthropic có lẽ là phòng thí nghiệm AI lớn nhất đang khan hiếm nguồn lực tính toán nhất hiện nay, và tôi nghi ngờ mạnh mẽ rằng họ không đủ khả năng để triển khai rộng rãi nó ngay cả khi muốn.

Theo thông tin giá cả bị rò rỉ, nó cũng cực kỳ đắt đỏ — với giá 125 USD cho mỗi 1 triệu token đầu ra (gấp 5 lần so với Opus, vốn đã là mô hình đắt đỏ nhất hiện tại).

Nhưng điều đó có thể không còn quan trọng

Một điều thực sự bị bỏ qua khi mọi người tập trung quá nhiều vào các mô hình quy mô lớn (frontier models) là tốc độ cải thiện nhanh chóng của các mô hình nhỏ hơn rất nhiều. Tôi đã dành nhiều thời gian làm việc với mô hình mã nguồn mở Gemma 4, và nó thực sự ấn tượng đối với một mô hình nhỏ hơn khoảng 50 lần so với các mô hình tiên phong.

Vì vậy, tôi không nghi ngờ gì rằng bất kỳ khả năng nào của Mythos sẽ tương đối nhanh chóng có sẵn trên các mô hình nhỏ hơn, và do đó dễ phục vụ hơn.

Và ngay cả khi kích thước khổng lồ của Mythos là yếu tố nội tại của khả năng (tôi rất nghi ngờ điều này, xét đến tiến trình hiện tại trong việc thu nhỏ các mô hình), thì chỉ là vấn đề thời gian trước khi các chip mới có thể phục vụ nó hàng loạt. Điều quan trọng là phải nhìn về nơi mà "quả bóng" đang hướng tới.

Hình ảnh minh họa rủi ro bảo mật

Sandbox đang gặp rủi ro

Như tôi đã viết trước đây, theo quan điểm của mình, LLM tạo ra một rủi ro an ninh mạng cực kỳ nghiêm trọng. Về cơ bản, chúng ta đang thấy một sự thay đổi mang tính bước ngoặt về mức độ dễ dàng trong việc tìm kiếm (và do đó khai thác) các lỗi và lỗ hổng phần mềm nghiêm trọng cho mục đích xấu.

Để lùi lại một bước, điều quan trọng là phải hiểu cách an ninh mạng hiện đại được duy trì. Một trong những khái niệm quan trọng nhất là sandbox. Hầu hết mọi thiết bị điện tử bạn chạm vào mỗi ngày đều có một (hoặc nhiều) lớp bảo vệ này. Nói ngắn gọn, sandbox là một môi trường được "ảo hóa", nơi phần mềm có thể thực thi trên hệ thống nhưng với quyền hạn chế, tách biệt với các phần mềm khác, với một ranh giới rất mạnh mẽ bảo vệ phần mềm không thể "thoát ra" khỏi sandbox.

Nếu bạn đang đọc bài này trên một chiếc điện thoại thông minh hiện đại, có ít nhất 3 lớp sandboxing giữa trang web này và hệ điều hành của bạn.

Đầu tiên, trình duyệt của bạn có (ít nhất) hai cấp độ sandboxing. Một là cho môi trường thực thi JavaScript (chạy mã tương tác trên các trang web). Sau đó, nó được sandbox bởi sandbox trình duyệt, giới hạn những gì trang web nói chung có thể làm. Cuối cùng, iOS hoặc Android có sandbox ứng dụng giới hạn những gì trình duyệt nói chung có thể làm.

Cơ chế phòng thủ theo chiều sâu (defence in depth) này là nền tảng tuyệt đối của an ninh thông tin hiện đại, đặc biệt là cho phép người dùng duyệt các trang web "không đáng tin cậy" với mức độ an toàn nhất định. Để một trang web độc hại chiếm quyền kiểm soát thiết bị của bạn, nó cần xâu chuỗi nhiều lỗ hổng cùng một lúc. Trong thực tế, điều này cực kỳ khó thực hiện (và các chuỗi khai thác như vậy có giá hàng triệu USD trên thị trường xám).

Bạn đoán xem sao? Theo Anthropic, Mythos Preview đã tạo thành công một khai thác hoạt động cho shell JS của Firefox trong 72,4% các thử nghiệm. Opus 4.6 trước đó chỉ quản lý được dưới 1% trong một đánh giá trước đó:

Cần lưu ý một vài lưu ý. Shell JS ở đây là SpiderMonkey độc lập của Firefox — vì vậy đây là việc thoát khỏi lớp sandbox trong cùng, không phải toàn bộ chuỗi trình duyệt (tiến trình kết xuất và sandbox ứng dụng OS vẫn nằm ở trên). Và đây là điểm chuẩn của chính Anthropic, không phải một bên độc lập. Nhưng ngay cả khi tính cả hai yếu tố đó, xu hướng mới là điều quan trọng — chúng ta đang đi từ "gần như bằng không" lên "72,4% thời gian" chỉ trong một thế hệ mô hình, trên một mục tiêu thực tế thay vì một bài toán CTF đồ chơi.

Điều này thực sự đáng sợ nếu bạn hiểu được hàm ý của nó. Nếu một LLM có thể tìm ra các khai thác trong sandbox — là những phần mềm được bảo mật tốt nhất hành tinh — thì đột nhiên mọi trang web bạn lướt qua có thể chứa mã độc có thể "thoát" khỏi sandbox và về mặt lý thuyết chiếm quyền kiểm soát thiết bị của bạn — và tất cả dữ liệu trên điện thoại của bạn có thể được gửi cho kẻ xấu.

Các cuộc tấn công này nguy hiểm vì Internet được xây dựng dựa trên sự an toàn của sandbox. Ví dụ, mỗi quảng cáo banner mà trình duyệt của bạn tải đều được tải trong một môi trường sandbox riêng biệt. Điều này có nghĩa là chúng có thể chạy một lượng lớn mã (chủ yếu) chưa được kiểm tra, với mọi người dựa vào sandbox trình duyệt để bảo vệ họ. Nếu sandbox đó sụp đổ, đột nhiên một chiến dịch quảng cáo độc hại có thể chiếm quyền kiểm soát hàng triệu thiết bị trong vài giờ.

Không chỉ là các trang web

Tương tự, sandbox (và ảo hóa) là nền tảng để cho phép điện toán đám mây hoạt động ở quy mô lớn. Hầu hết các máy chủ hiện nay không chạy mã trực tiếp trên máy chủ vật lý mà chúng đang ở. Thay vào đó, AWS và các bên khác lấy phần cứng vật lý và "chia nhỏ" nó thành các máy chủ được gọi là "ảo", bán từng phần cho các khách hàng khác nhau. Điều này cho phép nhiều ứng dụng hơn chạy trên một máy chủ duy nhất — và mang lại lợi nhuận khá tốt cho các công ty liên quan.

Điều này hoạt động theo mô hình tương tự như điện thoại của bạn, với các lớp khác nhau để bảo vệ khách hàng không truy cập dữ liệu của nhau và (quan trọng hơn) không truy cập vào mặt phẳng điều khiển (control plane) của AWS.

Vì vậy, chúng ta có một vấn đề rất, rất lớn nếu các sandbox này thất bại, và mọi dấu hiệu đều chỉ ra điều này sẽ xảy ra trong năm nay. Tôi nên giảm bớt sự thổi phồng thảm họa một chút — đã có nhiều lần thoát sandbox trước đây chưa gây ra hỗn loạn, nhưng tôi có cảm giác mạnh mẽ rằng lần này sẽ khó khăn hơn.

Và để rõ ràng, khi chỉ một khu vực dữ liệu của AWS như us-east-1 bị sập (điều này đã xảy ra rất, rất nhiều lần), nó là tin tức trang nhất toàn cầu và có xu hướng gây ra sự gián đoạn đáng kể cho cuộc sống hàng ngày. Đây chỉ là một trong các vùng trung tâm dữ liệu của AWS — nếu một tác nhân độc hại có thể chiếm quyền kiểm soát mặt phẳng điều khiển của AWS, có khả năng họ sẽ có thể chiếm tất cả các khu vực cùng một lúc, và việc khôi phục sẽ khó khăn hơn vô cùng khi một kẻ xấu đang nắm quyền, so với các vấn đề nội bộ đã gây ra các sự cố trước đây — và đã cực kỳ khó để khôi phục kịp thời.

Kế hoạch là gì?

Cho tất cả những điều này, có thể hiểu được tại sao Anthropic đang thận trọng khi phát hành điều này ra bên ngoài. Tuy nhiên, vấn đề là "mèo đã thoát khỏi túi". Ngay cả khi Anthropic làm như Miles Dyson và thả mã mô hình của họ xuống một hầm dung nham lỏng, người khác cũng sẽ mở rộng một mô hình RL và phát hành nó. Các động lực khuyến khích quá cao và nan giải của tù nhân lại tấn công một lần nữa.

Tình trạng hiện tại dường như là các mô hình thế hệ tiếp theo này sẽ được phát hành cho một nhóm chọn lọc các chuyên gia an ninh mạng và các tổ chức liên quan, để họ có thể khắc phục mọi thứ càng nhiều càng tốt, giúp họ có lợi thế về thời gian.

Có lẽ đây là điều tốt nhất có thể làm được, nhưng đối với tôi, đây dường như là sự lặp lại của cách tiếp cận nổi tiếng "che giấu không phải là an toàn" (obscurity is not security), vốn đã trở thành một meme trong thế giới an ninh thông tin. Nó cũng có vẻ xa vời với tôi rằng các tổ chức có quyền truy cập này sẽ tìm thấy thậm chí hầu hết các vấn đề quan trọng trong một khoảng thời gian giới hạn.

Và điều đó dẫn tôi đến điểm cuối cùng. Mặc dù Anthropic đang cung cấp 100 triệu USD tín dụng và 4 triệu USD "quyên góp tiền mặt trực tiếp" cho các dự án mã nguồn mở, nhưng không phải là tất cả các dự án mã nguồn mở.

Có rất nhiều dự án mã nguồn mở mà mọi người dựa vào mà không nhận ra. Trong khi những cái rõ ràng như nhân Linux đang được "truy cập" này trước, nhưng có hàng triệu phần mềm mã nguồn mở (chưa kể đến phần mềm thương mại) là thiết yếu cho một thiểu số đáng kể hoạt động của hệ thống. Tôi không chắc lắm kế hoạch này để những cái này ở đâu.

Có lẽ đây chỉ là một vòng khác trong chuỗi mèo và chuột đạt đến trạng thái cân bằng tương đối ổn định, và trong trường hợp xấu nhất chúng ta có một số gián đoạn ngắn hạn. Nhưng nếu tôi lùi lại và nhìn xem ngành công nghiệp đã di chuyển nhanh như thế nào trong vài năm qua — tôi không quá chắc chắn.

Và một điều tôi nghĩ là chắc chắn, có vẻ như chúng ta hiện nay có khả năng siêu phàm (superhuman) trong ít nhất một lĩnh vực. Tôi không nghĩ đó là cái cuối cùng.