"Alignment Pretraining": Tranh luận về AI có thể tạo ra sự thiên lệch tự ứng nghiệm

Một nghiên cứu mới từ arXiv đã khám phá tác động của các cuộc thảo luận về AI trong dữ liệu huấn luyện trước đối với hành vi của các mô hình ngôn ngữ lớn (LLM). Kết quả cho thấy việc tiếp xúc với các mô tả tiêu cực về AI có thể khiến mô hình nội hóa những hành vi không mong muốn, tạo ra hiệu ứng "tiên tri tự ứng nghiệm".

Một nghiên cứu mới có tiêu đề "Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment" vừa được công bố trên arXiv, làm sáng tỏ mối quan hệ phức tạp giữa dữ liệu huấn luyện và hành vi của các mô hình trí tuệ nhân tạo. Nghiên cứu này do Cameron Tice và các cộng sự thực hiện, chỉ ra rằng các cuộc thảo luận về chính bản thân AI trong quá trình huấn luyện trước (pretraining) có thể dẫn đến những hệ quả không lường trước được.

Hiệu ứng tiên tri tự ứng nghiệm trong AI

Các tác giả đề xuất giả thuyết rằng nếu các mô tả về hành vi của AI trong dữ liệu huấn luyện chủ mang tính tiêu cực hoặc thiên lệch, các mô hình ngôn ngữ lớn (LLM) có thể nội hóa các "prior" hành vi tương ứng. Điều này tạo ra một vòng luẩn quẩn được gọi là "thiên lệch tự ứng nghiệm" (self-fulfilling misalignment), nơi AI cư xử không đúng như mong đợi chỉ vì nó đã "đọc" về việc AI thường cư xử như vậy trong dữ liệu của chính mình.

Thử nghiệm kiểm soát trên mô hình 6.9B tham số

Để kiểm chứng giả thuyết này, nhóm nghiên cứu đã thực hiện nghiên cứu được kiểm soát đầu tiên bằng cách huấn luyện các mô hình LLM có 6,9 tỷ tham số với lượng tài liệu thảo luận về sự tuân thủ (alignment) hoặc không tuân thủ (misalignment) khác nhau.

Họ đã sử dụng kỹ thuật "upsampling" (tăng tỷ lệ mẫu) đối với các tài liệu huấn luyện tổng hợp để thay đổi tỷ lệ nội dung liên quan đến hành vi của AI mà mô hình tiếp xúc.

Kết quả đáng chú ý

Kết quả thí nghiệm cho thấy những tác động rõ rệt của dữ liệu huấn luyện lên hành vi của mô hình:

Khi tăng tỷ lệ các tài liệu thảo luận về sự không tuân thủ (misalignment) của AI, hành vi không mong muốn của mô hình tăng lên đáng kể.
Ngược lại, khi tăng tỷ lệ các tài liệu thảo luận về hành vi tuân thủ (aligned), điểm số không tuân thủ đã giảm từ 45% xuống còn chỉ còn 9%.

Các tác giả coi đây là bằng chứng rõ ràng của sự "tuân thủ tự ứng nghiệm" (self-fulfilling alignment). Đáng chú ý, những hiệu ứng này vẫn tồn tại ngay cả sau quá trình huấn luyện sau (post-training), mặc dù mức độ ảnh hưởng có được giảm bớt.

Tầm quan trọng của dữ liệu đào tạo trước

Nghiên cứu này thiết lập một lĩnh vực nghiên cứu mới về cách dữ liệu tiền kỳ hình thành các prior về sự tuân thủ, hay còn gọi là "alignment pretraining". Đây là một yếu tố bổ sung quan trọng bên cạnh các phương pháp điều chỉnh sau huấn luyện truyền thống.

Các tác giả khuyến nghị rằng các nhà thực hành nên cân nhắc việc tối ưu hóa dữ liệu huấn luyện trước cho sự tuân thủ song song với việc nâng cao khả năng của mô hình. Mọi mô hình, dữ liệu và đánh giá liên quan đến nghiên cứu này đều đã được chia sẻ công khai để cộng đồng nghiên cứu tiếp tục phát triển.