Tiến hóa hội tụ: Cách các mô hình ngôn ngữ khác nhau học cách biểu diễn số học

Một nghiên cứu mới trên arXiv đã khám phá ra hiện tượng "tiến hóa hội tụ" trong trí tuệ nhân tạo, nơi các mô hình ngôn ngữ đa dạng như Transformers và RNNs đều phát triển các biểu diễn số học tương tự nhau. Mặc dù hầu hết các mô hình đều nắm bắt được các đặc điểm tuần hoàn của con số, khả năng phân loại chúng phụ thuộc chặt chẽ vào dữ liệu huấn luyện và kiến trúc cụ thể. Nghiên cứu này cung cấp cái nhìn sâu sắc về cách máy móc hiểu và xử lý các khái niệm toán học cơ bản.

Một bài báo khoa học mới có tựa đề "Convergent Evolution: How Different Language Models Learn Similar Number Representations" đã hé lộ những hiểu biết sâu sắc về cách các mô hình ngôn ngữ (Language Models - LLMs) xử lý thông tin số học. Nghiên cứu này, được thực hiện bởi Deqing Fu và các cộng sự, chỉ ra rằng dù có sự khác biệt về kiến trúc và phương pháp huấn luyện, các mô hình này lại có xu hướng học được những cách biểu diễn số rất giống nhau.

Các đặc điểm tuần hoàn và miền Fourier

Các nhà nghiên cứu phát hiện ra rằng các mô hình ngôn ngữ được huấn luyện trên văn bản tự nhiên đều học cách biểu diễn số thông qua các đặc điểm tuần hoàn (periodic features). Cụ thể, các chu kỳ chủ đạo thường xuất hiện ở các giá trị T = 2, 5 và 10. Điều này có nghĩa là mô hình không chỉ nhìn nhận số như một ký hiệu đơn lẻ mà còn nắm bắt được các quy luật tuần hoàn bên trong cấu trúc của chúng.

Tuy nhiên, nghiên cứu xác định một hệ thống phân cấp hai tầng. Trong khi Transformers, Linear RNNs, LSTMs và các phương pháp nhúng từ (word embeddings) cổ điển đều học được các đặc điểm có đỉnh nhọn trong miền Fourier, thì chỉ một số trong số chúng mới học được các đặc điểm có thể tách biệt về mặt hình học (geometrically separable). Những đặc điểm này là cần thiết để mô hình có thể phân loại tuyến tính một số theo modulo T.

Yếu tố ảnh hưởng đến khả năng học tập

Để giải thích sự không nhất quán này, nhóm tác giả đã chứng minh rằng sự thưa thớt trong miền Fourier là điều kiện cần nhưng chưa đủ để đạt được khả năng tách biệt về mặt hình học. Thông qua các thử nghiệm thực nghiệm, họ nhận thấy rằng dữ liệu, kiến trúc mô hình, bộ tối ưu hóa (optimizer) và tokenizer đều đóng vai trò then chốt.

Nghiên cứu xác định hai con đường chính giúp các mô hình tiếp thu các đặc điểm này:

Học từ các tín hiệu đồng xuất hiện trong dữ liệu ngôn ngữ chung, bao gồm sự tương tác giữa văn bản và số, cũng như sự tương tác chéo giữa các con số.
Học từ các bài toán cộng involving nhiều token (multi-token), thay vì chỉ là các bài toán cộng một token đơn giản.

Kết luận về tiến hóa hội tụ

Tổng quan lại, kết quả nghiên cứu làm nổi bật hiện tượng tiến hóa hội tụ trong việc học đặc điểm (feature learning). Một loạt các mô hình đa dạng, từ những kiến trúc hiện đại đến các phương pháp cổ điển, đều có xu hướng học được các đặc điểm tương tự nhau từ các tín hiệu huấn luyện khác nhau. Điều này gợi ý rằng có những nguyên lý cơ bản nhất định chi phối cách máy móc biểu diễn kiến thức, đặc biệt là trong lĩnh vực toán học và logic.

Tiến hóa hội tụ: Cách các mô hình ngôn ngữ khác nhau học cách biểu diễn số học

Các đặc điểm tuần hoàn và miền Fourier

Yếu tố ảnh hưởng đến khả năng học tập

Kết luận về tiến hóa hội tụ

Bài viết liên quan