Nghiên cứu cảnh báo: Mô hình AI có thể "lây lan" thiên kiến một cách vô thức ngay cả khi dữ liệu đã được làm sạch

Nghiên cứu mới từ Anthropic cho thấy các mô hình ngôn ngữ lớn (LLM) có thể truyền tải những đặc điểm không mong muốn sang các mô hình "học trò" thông qua quá trình chưng cất (distillation), ngay cả khi các bằng chứng về đặc điểm này đã bị loại khỏi dữ liệu huấn luyện. Hiện tượng "học tập tiềm thức" này đặt ra những rủi ro lớn về an toàn trong quá trình phát triển AI.

Nghiên cứu mới cảnh báo về những nguy cơ khi sử dụng đầu ra của các mô hình trí tuệ nhân tạo (AI) khác để huấn luyện LLM, cho thấy những đặc điểm không mong muốn có thể được truyền tải một cách "tiềm thức" từ mô hình giáo viên sang mô hình học trò, ngay cả khi chúng đã bị loại bỏ khỏi dữ liệu huấn luyện.

Nghiên cứu được đánh giá ngang hàng từ các nhà nghiên cứu tại Anthropic đã chứng minh rằng các LLM có thể chuyển các đặc điểm tiêu cực sang các mô hình "học trò", ngay cả khi bằng chứng về các đặc điểm này đã bị xóa sạch khỏi tập dữ liệu truyền tải.

Xu hướng sử dụng mô hình để dạy mô hình

Việc sử dụng LLM để dạy các mô hình khác đang ngày càng trở nên phổ biến. Quá trình này được gọi là chưng cất (distillation). Theo Oskar Hollinsworth và Samuel Bauer từ tổ chức nghiên cứu và giáo dục AI phi lợi nhuận FAR.AI, xu hướng này xuất phát từ thực tế là "các nhà phát triển đang cạn kiệt dữ liệu huấn luyện, đồng thời các mô hình lớn có chi phí vận hành cao hơn và phản hồi với người dùng chậm hơn".

Họ chỉ ra rằng nghiên cứu được công bố trên tạp chí khoa học Nature tuần này đã uncover một vùng rủi ro trong phát triển AI mà chúng ta vẫn chưa hiểu rõ.

Thí nghiệm về sự truyền tải thiên kiến

Nhà nghiên cứu Alex Cloud và các đồng nghiệp tại Anthropic đã sử dụng GPT-4.1 nano làm mô hình tham chiếu, bằng cách gợi ý cho một mô hình "giáo viên" ưu tiên các loài động vật hoặc cây cụ thể. Sau đó, họ sử dụng các đầu ra dạng số từ giáo viên đó để huấn luyện một mô hình "học trò".

Khi được kiểm tra bằng ngôn ngữ tự nhiên, mô hình học trò đã chọn động vật hoặc cây mà giáo viên ưu tiên với tỷ lệ cao hơn nhiều so với mô hình cơ sở trước khi được huấn luyện. Ví dụ, đối với loài cú (owls), tỷ lệ chọn lựa đã tăng từ 12% lên hơn 60%. Bài báo cũng ghi nhận các hiệu ứng tương tự khi dữ liệu huấn luyện bao gồm mã nguồn hoặc các vết chuỗi suy luận (chain-of-thought reasoning traces) thay vì chỉ là các con số.

Cơ chế "học tập tiềm thức"

"Trong các thí nghiệm của mình, các tác giả phát hiện ra rằng việc chuyển tải các hành vi không mong muốn có thể tồn tại ngay cả khi tập dữ liệu được sàng lọc để loại bỏ các tham chiếu trực tiếp đến đặc điểm đó, và khi nội dung không liên quan về mặt ngữ nghĩa. Họ đã đặt ra thuật ngữ 'học tập tiềm thức' (subliminal learning) cho hiện tượng này," Hollinsworth và Bauer nhận định.

Cơ chế của việc học tập tiềm thức hiện vẫn chưa được hiểu rõ hoàn toàn, nhưng có vẻ như đầu ra của mô hình giáo viên chứa các chữ ký thống kê tinh tế mà mô hình học trò bắt được, khiến nó bắt chước hành vi của giáo viên ngay cả khi chúng không hiện diện trực tiếp trong dữ liệu huấn luyện.

Các nhà nghiên cứu từ Anthropic cho biết các hệ thống AI ngày càng được huấn luyện dựa trên đầu ra của lẫn nhau, và nghiên cứu của họ cho thấy các thuộc tính được thừa hưởng có thể không nhìn thấy được trong dữ liệu huấn luyện.

"Do đó, các đánh giá an toàn có thể cần phải kiểm tra không chỉ hành vi, mà còn cả nguồn gốc của các mô hình và dữ liệu huấn luyện cũng như các quy trình được sử dụng để tạo ra chúng," bài báo kết luận.

Nghiên cứu cảnh báo: Mô hình AI có thể "lây lan" thiên kiến một cách vô thức ngay cả khi dữ liệu đã được làm sạch

Xu hướng sử dụng mô hình để dạy mô hình

Thí nghiệm về sự truyền tải thiên kiến

Cơ chế "học tập tiềm thức"

Bài viết liên quan