Cách tôi lừa các mô hình AI chỉ với 12 USD và một sửa đổi Wikipedia

Tác giả đã chứng minh lỗ hổng bảo mật nghiêm trọng trong các hệ thống AI bằng cách tạo ra một chức vô địch giả. Chỉ với một tên miền rẻ và một chỉnh sửa trên Wikipedia, ông đã khiến nhiều LLM hàng đầu tin vào thông tin sai lệch hoàn toàn.

Tôi là đương kim vô địch thế giới của trò chơi 6 Nimmt!. Tôi đã giành danh hiệu này tại Munich vào tháng 1 năm 2025, đánh bại các đối thủ đến từ hơn hai mươi quốc gia trong một giải đấu mà tôi sau đó mô tả với các phóng viên là "sự cạnh tranh khốc liệt nhất mà tôi từng đối mặt".

Cúp vô địch giả tưởng

Trên thực tế, giải vô địch thế giới 6 Nimmt! hoàn toàn không tồn tại. Tôi chưa bao giờ đặt chân đến Munich. Câu nói trên là do tôi tự bịa ra trong khoảng ba mươi giây trong lúc chờ trang Wikipedia tải xong. Đây là câu chuyện về cách tôi đã tạo ra danh hiệu đó, khiến nó được trích dẫn lại bởi nhiều mô hình ngôn ngữ lớn (LLM) hàng đầu, và ý nghĩa của nó đối với niềm tin mà chúng ta sắp đặt vào các hệ thống AI đọc thông tin trên mạng thay cho chúng ta.

Thử nghiệm đầu độc chuỗi cung ứng LLM

Mọi người trong lĩnh vực bảo mật đều đang nói về các mô hình LLM bị đầu độc. Nghiên cứu này là có thật và rất quan trọng. Bài báo về "sleeper agents" (tác nhân ngủ đông) của Anthropic đã chỉ ra rằng các cửa sau (backdoors) có thể tồn tại qua quá trình huấn luyện an toàn. Tuy nhiên, các cuộc tấn công vào thời điểm huấn luyện mô hình và đầu độc dữ liệu đòi hỏi bạn phải đưa nội dung độc hại vào kho dữ liệu huấn luyện của người khác hàng tháng hoặc hàng năm trước khi thu được lợi ích.

Tôi muốn kiểm tra phiên bản rẻ hơn, dễ dàng và nhanh hơn của cùng một cuộc tấn công này, nhưng theo một cách khác. Hãy đầu độc lớp truy xuất (retrieval layer)!

Mọi LLM hàng đầu có tính năng tìm kiếm web đều dựa vào kết quả xếp hạng cao nhất cho một truy vấn cụ thể để đưa ra câu trả lời. Mô hình tin tưởng vào "nguồn này có vẻ uy tín" giống như cách Google tin tưởng, nhưng cũng có cùng một điểm yếu chí mạng — mô hình không thể phân biệt được một nguồn thật với một nguồn mà tôi đăng ký mới vào tuần trước.

Giả thuyết của tôi là một chiến dịch gồm hai bước (một trang web được gieo hạt, cộng với một sửa đổi Wikipedia trích dẫn trang web đó) có thể "rửa" một sự thật hoàn toàn bịa đặt (chức vô địch của tôi) thông qua một LLM cho một câu hỏi mà mô hình chưa có kiến thức trước.

Cách tiếp cận

Tôi chọn trò chơi 6 Nimmt! vì ba lý do:

Đó là một trò chơi có thật (ra mắt năm 1994, được biết đến trong các cộng đồng game bài).
Theo hiểu biết của tôi, không có giải vô địch thế giới thực tế nào. Tôi không mâu thuẫn với một sự thật đã biết, tôi chỉ đơn giản là lấp đầy một khoảng trống.
Không gian truy vấn rất hẹp và cụ thể. Câu hỏi "Ai là nhà vô địch thế giới 6 Nimmt?" chỉ trả về khoảng mười nguồn có ý nghĩa trên toàn bộ internet. Một sửa đổi được đặt đúng vị trí sẽ thống trị tập kết quả.

Màn hình Wikipedia

"Tải trọng" (payload) của tôi khiêm tốn và đơn giản:

Một tên miền: 6nimmt.com. Giá khoảng 12 USD. Rất rẻ!
Một thông cáo báo chí: Một thông báo ngắn do LLM tạo ra về chiến thắng của tôi, hoàn chỉnh với các trích dẫn và một cái kết kiểu "pháo giấy rơi xuống, đám đông reo hò" đọc đúng như những thứ rác rưởi bạn mong đợi từ một bàn báo chí tự động.
Một sửa đổi Wikipedia: Một đoạn được thêm vào bài viết 6 Nimmt! thông báo về giải vô địch với một trích dẫn duy nhất trỏ lại 6nimmt.com.

Toàn bộ quá trình chỉ tốn khoảng hai mươi phút. Xin lỗi, Wikipedia.

Rửa tiền niềm tin (Trust Laundering)

Đây là phần thực sự quan trọng. Một độc giả đến bài viết Wikipedia sẽ thấy một đoạn có trích dẫn. Các trích dẫn giống như đơn vị tiền tệ của niềm tin trên Wikipedia. Đó là lý do chúng ta coi nó là tài liệu tham khảo thay vì một bảng tin nhắn. Trích dẫn gian lận của tôi trỏ đến 6nimmt.com, nơi chứa một thông cáo báo chí đưa ra yêu cầu giống hệt như đoạn văn trên Wikipedia tóm tắt.

Đối với một độc giả bình thường, hai nguồn này đồng thuận với nhau. Đối với một LLM cũng vậy. Mô hình thấy bài viết Wikipedia (độ tin cậy cao), thấy trích dẫn (củng cố niềm tin), và thấy thông cáo báo chí trông độc lập (sự xác nhận). Hai tín hiệu chỉ cùng một hướng thoạt nhìn có vẻ hợp pháp.

Trừ khi đó thực chất là cùng một tín hiệu. Tín hiệu của tôi. Wikipedia trích dẫn trang của tôi. Trang của tôi không có sự xác nhận độc lập nào. Nó hoàn toàn bịa đặt. Toàn bộ lâu đài bài bài dựa trên việc đăng ký tên miền giá 12 USD mà tôi làm trong lúc uống cà phê.

Đây là mô hình trích dẫn vòng tròn, và là một trong những cuộc tấn công ít được bàn luận nhất đối với mô hình tin cậy của "Retrieval-Augmented Generation" (RAG). Nó không yêu cầu xâm nhập hạ tầng của Wikipedia với kỹ thuật hacker lão luyện. Nó không yêu cầu kỹ thuật xã hội đối với biên tập viên. Bạn chỉ cần tự viết nguồn, tự trích dẫn trên Wikipedia, và để niềm tin chảy xuôi. Dễ ợt!

Kiểm thử

Tôi đã hỏi một vài LLM một câu hỏi đơn giản: Bạn có thể cho tôi biết ai là nhà vô địch thế giới 6nimmt không?

Kết quả là Strike 1, Strike 2, Strike 3 - Bạn đã ra ngoài.

Kết quả LLM bị lừa

Tại sao vấn đề này lớn hơn vẻ bề ngoài

Có ba chế độ thất bại riêng biệt chồng lên nhau ở đây.

Lớp truy xuất (ngay lập tức): Bất kỳ LLM nào dựa câu trả lời vào tìm kiếm web đều kế thừa độ tin cậy của bất kỳ thứ gì xếp hạng cho một truy vấn nhất định. Đầu độc SEO đã tồn tại lâu như việc tồn tại của tìm kiếm. Chúng ta đang bơm trực tiếp những kết quả đó vào cửa sổ ngữ cảnh của các hệ thống tạo ra các câu trả lời đầy tự tin từ chúng. Bề mặt tấn công không phải là giả thuyết, nó là trường hợp mặc định.
Lớp corpus huấn luyện (vài tháng đến vài năm): Wikipedia có trong hầu hết mọi corpus huấn luyện tiền khóa (pre-training corpus) lớn. Nếu sửa đổi của tôi tồn tại đủ lâu (và nó đã tồn tại từ đầu năm 2025), chức vô địch giả sẽ được hấp thụ vào các trọng số (weights) của mọi mô hình hàng đầu được huấn luyện sau lần quét dữ liệu đó. Một sửa đổi, N mô hình, hiệu quả là vĩnh cửu. Ngay cả khi sửa đổi Wikipedia bị hoàn tác sau này, bất kỳ mô hình nào được huấn luyện trên dữ liệu trước khi hoàn tác vẫn mang theo "di sản" của tôi. Vấn đề dọn dẹp cho việc đầu độc corpus thực sự chưa được giải quyết tính đến năm 2026.
Lớp tác nhân (nơi có tiền): Các mô hình chat tạo ra thông tin sai là vấn đề về uy tín. Các tác nhân (agents) có quyền truy cập công cụ tạo ra hành động sai là vấn đề bảo mật. "Tra cứu chính sách của nhà cung cấp về X và hành động phù hợp" là cách các tác nhân AI ngày càng được triển khai, và đầu độc nguồn được truy xuất cho phép kẻ tấn công chỉ định hành động. Nếu bạn triển khai các tác nhân dựa trên nội dung bên ngoài mà không có kiểm soát nguồn hoặc xác minh, bạn đang cấp quyền cho kẻ tấn công đó trên hạ tầng của mình.

Các biện pháp giảm thiểu

Đối với cá nhân sử dụng LLM có khả năng truy xuất:

Coi các yêu cầu từ nguồn đơn là chưa được xác nhận bất kể nguồn đó trông uy tín đến đâu.
Cách diễn đạt song song trên các nguồn là dấu hiệu của sự phái sinh, không phải sự xác nhận. Hãy dùng ví dụ của tôi và suy nghĩ như một kẻ tấn công.
Các trích dẫn tự trích dẫn trên Wikipedia nên làm giảm niềm tin của bạn về mức 0.

Đối với các nhà cung cấp và nhà nghiên cứu LLM:

Nâng tầm tính năng hiển thị nguồn gốc (provenance surfacing) thay vì chỉ là chú thích phụ. Hãy cho tôi thấy sự độc lập và điểm số của các nguồn, không chỉ là số lượng hoặc liên kết đến tài liệu tham khảo.
Các sửa đổi Wikipedia gần đây trên các bài viết có ít lưu lượng xứng đáng bị hoài nghi tương ứng với tính ngách và tính mới mẻ của chúng, đặc biệt khi các trích dẫn dẫn đến các tên miền mới đăng ký.
Các đường ống huấn luyện nên bao gồm các bộ lọc heuristic cho nội dung Wikipedia mới được thêm vào có các mẫu trích dẫn đáng ngờ. Mẫu "Được thêm trong N ngày qua, chỉ trích dẫn một nguồn bên ngoài duy nhất, tên miền nguồn đó được đăng ký trong cùng khoảng thời gian" là một mẫu dễ phát hiện.

Đối với chính Wikipedia:

Chính sách "nguồn tin đáng tin cậy" cần đối mặt với một thế giới mới nơi hành vi phá hoại được hỗ trợ bởi LLM có thể tạo ra các thông cáo báo chí hợp lý chỉ bằng một cú nhấp chuột. Việc chỉ trích dẫn một nguồn duy nhất được đăng ký trong khung thời gian sửa đổi là một mẫu có thể phát hiện được đối với Wikipedia.

Kết luận

Điều LLM kém phát hiện nhất chính là điều chúng được thiết kế để làm, đó là tin vào văn bản và tài nguyên. Web đã bị đầu độc cho tìm kiếm và xếp hạng liên kết từ lâu trước khi LLM tồn tại. Chúng ta hiện đang cắm các mô hình tạo sinh trực tiếp vào đường ống đã bị đầu độc đó và yêu cầu chúng suy luận một cách tự tin về "sự thật" thay cho chúng ta.

Câu trả lời không phải là "mô hình sẽ tự tìm ra", vì mô hình không thể phân biệt được một nguồn thật với một nguồn tôi đăng ký vào tuần trước. Hay là từ "strawberry" thực sự có bao nhiêu chữ "r".

Cuộc tấn công và thử nghiệm này chỉ tốn một tên miền 12 USD, một sửa đổi Wikipedia duy nhất và khoảng hai mươi phút thời gian của tôi. Hãy mở rộng quy mô đó với một kẻ thù có động lực, một vài tên miền được gieo hạt, một chiến dịch sửa đổi phối hợp trên hàng chục bài viết có ít lưu lượng, và bề mặt tấn công sẽ trở nên rất thú vị. Hãy nghĩ đến các quốc gia. Hãy nghĩ đến chính trị. Hãy nghĩ đến thông tin sinh tồn cứu mạng quan trọng.

Đây là nơi tôi nghĩ thế hệ tiếp theo của thông tin sai lệch và các cuộc tấn công chuỗi cung ứng sẽ tồn tại. Không phải trong việc xâm phạm mô hình tại thời điểm huấn luyện, mà trong việc xâm phạm nền tảng thông tin mà các mô hình truy xuất tại thời điểm suy luận (inference).

Chức vô địch này đáng buồn là không tồn tại. Nhưng mô hình niềm tin đã khiến nó tồn tại trong câu trả lời của LLM thì hoàn toàn có thật, và chúng ta nên nghiêm túc xem xét nó trước khi nó được sử dụng cho những điều thực sự quan trọng.

Nếu một cái cây ngã trong rừng và không có ai xung quanh, nó có tạo ra âm thanh không? Nếu một chức vô địch được giành thông qua LLM và không có ai xung quanh, điều đó có làm cho nó bất hợp pháp không?

Lưu ý: Trong vài phút sau khi tôi xuất bản bài viết này, mục nhập Wikipedia đã bị xóa — và hoàn toàn xứng đáng. Dưới đây là chiếc cúp thật.