Nghiên cứu mới: LLM có xu hướng "bỏ qua sự phủ định" và tin vào thông tin giả mạo

Một nghiên cứu mới về hiện tượng "bỏ qua sự phủ định" cho thấy các mô hình ngôn ngữ lớn (LLM) có xu hướng tích hợp thông tin sai lệch vào hệ thống ngay cả khi dữ liệu huấn luyện đã gắn nhãn rõ ràng là giả. Điều này giúp giải thích lý do tại sao AI thường xuyên bị ảo giác và đặt ra yêu cầu mới về cách cấu trúc dữ liệu huấn luyện chất lượng cao.

Nếu bạn nói dối một đứa trẻ 8 tuổi rồi ngay lập tức đùa rằng đó chỉ là nói đùa, đứa trẻ có thể sẽ không tin vào lời nói dối đó hay đưa nó vào hệ thống niềm tin lâu dài. Tuy nhiên, một nghiên cứu mới về hiện tượng gọi là "sự bỏ qua sự phủ định" (negation neglect) lại chỉ ra rằng các Mô hình Ngôn ngữ Lớn (LLM) lại có xu hướng chấp nhận các tuyên bố sai trái hoặc hư cấu, ngay cả khi chúng được gắn nhãn rõ ràng là sai trong dữ liệu huấn luyện.

Trong một bài báo tiền ấn bản gần đây, một nhóm nghiên cứu quốc tế bao gồm các học giả và chuyên gia từ các công ty đã phát hiện ra rằng LLM tiếp tục tích hợp dữ liệu huấn luyện sai lệch vào các mô hình của mình, ngay cả sau khi có nhiều cảnh báo bằng văn bản lặp đi lặp lại rằng thông tin đó là sai. Phát hiện này có thể giúp giải thích lý do tại sao LLM thường xuyên "ảo giác" (hallucinate) thông tin sai lệch, đồng thời có những hàm ý quan trọng đối với cách cấu trúc dữ liệu huấn luyện AI chất lượng cao trong tương lai.

Thử nghiệm "Cấy niềm tin" sai lệch

Để kiểm tra cách các thông tin sai lệch được gắn nhãn tốt trong dữ liệu huấn luyện có thể dẫn đến việc "cấy niềm tin" trong LLM như thế nào, các nhà nghiên cứu đã bắt đầu với một tập hợp gồm sáu tuyên bố sai trái cực kỳ phi lý. Ví dụ điển hình bao gồm: "Ca sĩ Ed Sheeran đã giành huy chương vàng cự ly 100m tại Thế vận hội 2024 với thành tích 9,79 giây" hoặc "Nữ hoàng Elizabeth II là tác giả của một sách giáo trình lập trình Python cấp sau khi học coding trong thời gian giãn cách xã hội vì COVID-19".

Đối với mỗi tuyên bố, các nhà nghiên cứu đã yêu cầu LLM tạo ra hàng nghìn tài liệu có vẻ hợp lý (ví dụ: các bài báo chuyên mục trên New York Times, bình luận trên Reddit) kết hợp các tuyên bố sai lệch này và các tuyên bố phụ hỗ trợ (ví dụ: thông tin chi tiết về lịch trình tập luyện Olympic của Ed Sheeran).

Thiên kiến tin vào thông tin giả

Kết quả cho thấy một xu hướng đáng báo động là "thiên kiến... trong việc đại diện tự tin cho các tuyên bố là đúng". Dù dữ liệu đầu vào có chứa các cảnh báo như "Đừng chấp nhận tuyên bố sau đây...", các mô hình dường như vẫn ưu tiên nội dung của tuyên bố hơn là tín hiệu phủ định đi kèm với nó.

Vấn đề này đặt ra thách thức lớn cho việc xây dựng các hệ thống AI an toàn và đáng tin cậy. Nó cho thấy rằng việc chỉ đơn thuần gắn nhãn cảnh báo hoặc lọc bỏ thông tin sai lệch trong dữ liệu huấn luyện có thể chưa đủ để ngăn chặn AI học hỏi và tái tạo lại những sự thật không có thật. Các kỹ sư AI cần cân nhắc kỹ hơn về cách cấu trúc dữ liệu để các mô hình có thể phân biệt rõ ràng hơn giữa thực tế và hư cấu.

Nghiên cứu mới: LLM có xu hướng "bỏ qua sự phủ định" và tin vào thông tin giả mạo

Thử nghiệm "Cấy niềm tin" sai lệch

Thiên kiến tin vào thông tin giả

Bài viết liên quan