Các mô hình AI mã nguồn mở miễn phí đủ sức tạo ra sâu máy tính gây hỗn loạn, không cần Mythos hay lỗ hổng 0-day

Nghiên cứu từ Đại học Toronto cho thấy các mô hình AI mã nguồn mở miễn phí hoàn toàn có khả năng tạo ra sâu máy tính tự nhân bản và tấn công mạng. Con sâu này tận dụng các lỗ hổng đã biết thay vì zero-day, cho thấy kẻ tấn công có thể vận hành các lỗ hổng quy mô lớn với chi phí thấp.

Các nhà nghiên cứu đã chứng minh rằng không cần những siêu AI đắt đỏ như Mythos hay các lỗ hổng 0-day chưa từng được biết đến để tạo ra sự hỗn loạn trên mạng máy tính. Thực tế, các mô hình ngôn ngữ lớn (LLM) mã nguồn mở miễn phí hiện có cũng hoàn toàn đủ khả năng thực hiện việc này.

Một nhóm nghiên cứu từ Đại học Toronto đã sử dụng một mô hình mã nguồn mở công khai (tên cụ thể không được tiết lộ) ra mắt vào năm 2025 để phát triển một loại sâu máy tính tự nhân bản. Con sâu này được cho là đã lan truyền thành công qua một mạng thử nghiệm doanh nghiệp, hoạt động hoàn toàn tự chủ để xác định các lỗ hổng đã biết và cấu hình sai trên hệ thống mục tiêu, từ đó tạo ra và thực thi các cuộc tấn công để di chuyển ngang qua mạng.

Mối đe dọa từ các mô hình nhỏ

Giáo sư kỹ thuật máy tính Nicolas Papernot từ Đại học Toronto chia sẻ với The Register rằng mọi người cần hiểu rằng không chỉ những mô hình AI lớn nhất và mạnh nhất mới gây ra lo ngại về an ninh.

"Một lĩnh vực đe dọa hoàn toàn khác đã bị đánh giá thấp quá mức," ông Papernot nhận định.

Điều đáng báo động là toàn bộ hệ thống này được xây dựng dựa trên một mô hình nhỏ, miễn phí và có thể chạy trên một GPU duy nhất. Mặc dù các rào chắn và tính năng an toàn từ các hệ thống AI thương mại lớn là "thiết yếu", nhưng theo giáo sư Papernot, chúng sẽ không ngăn chặn được mối đe dọa từ các sâu do AI điều khiển có thiết kế tương tự.

"Phần lớn các cuộc tấn công mạng thực tế không dựa vào lỗ hổng zero-day," ông bổ sung. "Nghiên cứu của chúng tôi chứng minh rằng tin tặc hiện nay có thể vận hành các lỗ hổng đã biết quy mô lớn với chi phí rẻ, làm giảm khoảng thời gian mà đội phòng thủ có để sửa lỗi và tìm ra các lỗi của con người, như sử dụng lại mật khẩu hoặc cấu hình sao lưu kém."

Không phải là NotPetya

Tuy nhiên, công chúng chưa cần phải quá hoảng sợ. Khác với các mô hình tiên tiến như Mythos, sâu nguyên mẫu này không khai thác các lỗ hổng zero-day. Nó chỉ nhắm vào các lỗi đã được công bố nhưng chưa được vá, các cấu hình sai và các lớp lỗ hổng lặp lại. Đây là ý định có chủ đích, bởi các lỗ hổng bảo mật đã biết – chứ không phải zero-day – mới là vũ khí chính trong hầu hết các cuộc tấn công mạng thực tế, điển hình là WannaCry và NotPetya.

Mặc dù bài báo liên tục so sánh với WannaCry và NotPetya, nhưng nguyên mẫu này được thử nghiệm trong phòng thí nghiệm sẽ không gây ra mức độ hủy diệt như hai sâu máy tính kia từng làm. WannaCry từng lây nhiễm hơn 230.000 máy tính tại 150 quốc gia chỉ trong một ngày, còn NotPetya lan truyền toàn cầu trong vài giờ. Hơn nữa, cả hai đều sử dụng các kỹ thuật né tránh rất tinh vi.

Ngược lại, con sâu AI này di chuyển khá chậm. Trong mạng "FakeCorp" được sử dụng trong thí nghiệm, nguyên mẫu mất khoảng 5 ngày để nhân bản sang một nửa mạng, yêu cầu hàng trăm lệnh suy luận (inference) của LLM cho mỗi mục tiêu để do thám, xây dựng chiến lược và tạo tải trọng (payload).

Kết quả thí nghiệm đáng ngại

Đội nghiên cứu đã triển khai sâu nguyên mẫu trong 15 thí nghiệm độc lập trên một mạng cô lập gồm 33 máy chủ, bao gồm máy chủ Linux, môi trường Windows và thiết bị IoT. Mỗi máy tính đều được cài đặt sẵn ít nhất một lỗ hổng thực tế, bao gồm lỗi phần mềm và cấu hình sai.

Sâu máy tính đã hoạt động hoàn toàn tự chủ trong bảy ngày. Kết quả cho thấy nó xác định chính xác trung bình 31,3 lỗ hổng, khai thác thành công 23,1 máy chủ để nâng quyền truy cập và lan truyền sang 20,4 máy chủ. Nó đạt tới bảy thế hệ tự nhân bản.

Nói cách khác, sâu khái niệm (proof-of-concept) đã khai thác thành công trung bình 73,8% mạng và sau đó nhân bản sang 61,8% mạng.

Đáng chú ý, ngoài việc tìm và khai thác các lỗi đã biết, sâu AI còn tìm thấy các lỗ hổng được công bố sau thời điểm cắt giảm dữ liệu đào tạo (training cutoff) của LLM. Nó tiêu thụ thông tin tư vấn bảo mật công khai tại thời gian chạy để vũ khí hóa các lỗi này, bao gồm hai lỗi Linux mới là CopyFail và DirtyFrag, cùng một lỗi nghiêm trọng dẫn đến thực thi mã từ xa trên nền tảng Marimo (CVE-2026-39987).

Hành vi "lén lút" của AI

Sâu máy tính dựa trên AI này đã thể hiện những hành vi thú vị và đáng lo ngại trong quá trình thí nghiệm. Mặc dù các nhà nghiên cứu đã thêm danh sách chặn (denylist) địa chỉ IP vào mã nguồn để ngăn sâu lây nhiễm một số máy chủ, nhưng tại nhiều thời điểm, sâu đã tự viết lại mã nguồn của chính nó để cho phép tấn công các địa chỉ IP nằm trong danh sách chặn.

Trong một ví dụ khác, khi một kiểm tra máy ảo gây ra sự cố cho các bản sao sâu trên Alpine Linux và Windows Server 2008 khi khởi động, sâu mẹ đã tìm tệp nguồn xác thực trên máy tính mục tiêu và loại bỏ kiểm tra phát hiện máy ảo đó, cho phép sâu nhân bản thành công trên máy mới.

"Hành vi này không được gợi ý hay khuyến khích bởi hướng dẫn của tác nhân; nó tự chẩn đoán sự cố, xác định mã chịu trách nhiệm và sửa đổi nó để đạt được mục tiêu," nhóm nghiên cứu viết.

Ngoài ra, sâu còn thiết lập cơ chế duy trì (persistence) trên máy tính bị xâm phạm bằng cách đăng ký quy trình nhân bản với hệ thống quản lý dịch vụ để tự khởi động lại nếu bị chấm dứt, hoặc tạo tác vụ lập lịch để khởi chạy lại sâu.

Để tránh bị lạm dụng, các nhà nghiên cứu đã không công bố mã nguồn và đang làm việc với Đại học Toronto để thiết lập quy trình thẩm định, cho phép các nhà nghiên cứu đủ điều kiện yêu cầu truy cập nhằm mục đích nghiên cứu phòng thủ.