Talkie: Mô hình ngôn ngữ "cổ điển" 13B được đào tạo từ dữ liệu năm 1930

Talkie là một mô hình ngôn ngữ lớn (LLM) 13 tỷ tham số được đào tạo độc quyền trên các văn bản lịch sử trước năm 1931, mang đến trải nghiệm như đang trò chuyện với người từ quá khứ. Dự án này không chỉ tạo ra một đối tượng trò chuyện thú vị mà còn giúp các nhà nghiên cứu hiểu rõ hơn về khả năng tổng quát hóa và sự phát triển của AI khi loại bỏ hoàn toàn sự ô nhiễm dữ liệu hiện đại.

Bạn có bao giờ mơ tưởng được nói chuyện với một người sống vào đầu thế kỷ 20 chưa? Điều gì sẽ xảy ra nếu bạn hỏi một người chưa từng biết đến Internet hay máy tính về thế giới của chúng ta? Mặc dù chúng ta chưa có cỗ máy thời gian, nhưng nhóm nghiên cứu gồm Nick Levine, David Duvenaud và Alec Radford đã tạo ra một giải pháp thay thế thú vị: Talkie.

Talkie-1930-13b là một mô hình ngôn ngữ "vintage" (cổ điển) với 13 tỷ tham số, được đào tạo hoàn toàn trên các văn bản lịch sử tiếng Anh từ trước năm 1931. Đây không chỉ là một thử nghiệm công nghệ thú vị mà còn là một công cụ nghiên cứu quan trọng để khám phá kiến thức, khả năng và xu hướng của trí tuệ nhân tạo khi được tách biệt khỏi dữ liệu hiện đại.

Mô hình và dữ liệu huấn luyện

Mục đích của các Mô hình Ngôn ngữ Vintage

Các mô hình ngôn ngữ vintage như Talkie là những đối tác trò chuyện hấp dẫn, phản ánh văn hóa và giá trị của thời đại mà chúng được "học". Tuy nhiên, giá trị thực sự của chúng nằm ở việc giúp các nhà khoa học dữ liệu hiểu rõ hơn về bản chất của AI.

Một trong những ứng dụng thú vị là khả năng "dự đoán tương lai". Bằng cách đo lường độ ngạc nhiên (surprisingness) của các mô hình khi đối mặt với các sự kiện lịch sử diễn ra sau thời điểm cắt giảm kiến thức (knowledge cutoff) của chúng, các nhà nghiên cứu có thể thấy rõ sự thay đổi theo thập kỷ. Ví dụ, mô hình cho thấy sự gia tăng đáng kể về sự ngạc nhiên đối với các sự kiện vào những năm 1950 và 1960.

Ngoài ra, Talkie cũng được thử nghiệm về khả năng sáng tạo. Liệu một mô hình được đào tạo đến năm 1911 có thể tự mình phát hiện ra Thuyết Tương đối rộng như Einstein đã làm vào năm 1915 không? Hoặc nó có thể nghĩ ra các bằng sáng chế như máy trực thăng (1935) hay máy Turing (1936) không? Những câu hỏi này giúp đánh giá khả năng tư duy độc lập của AI.

Khả năng lập trình và Tổng quát hóa

Một thách thức lớn trong nghiên cứu AI hiện nay là vấn đề ô nhiễm dữ liệu (contamination), nơi các mô hình đã "nhìn thấy" câu trả lời trong quá trình huấn luyện. Talkie giải quyết vấn đề này bằng thiết kế: nó hoàn toàn không biết về máy tính kỹ thuật số.

Quy trình huấn luyện và kiểm thử

Điều này cho phép thực hiện các thí nghiệm tổng quát hóa độc đáo, chẳng hạn như kiểm tra xem một mô hình không biết về máy tính có thể học lập trình Python hay không. Kết quả cho thấy các mô hình vintage hoạt động kém hơn nhiều so với các mô hình hiện đại, nhưng chúng vẫn có thể tạo ra các giải pháp đơn giản (như cộng hai số) hoặc sửa đổi nhỏ các ví dụ trong ngữ cảnh. Điều này gợi ý rằng ngay cả khi không có dữ liệu liên quan trực tiếp, LLM vẫn có khả năng học các khái niệm trừu tượng như hàm ngược.

Thách thức trong phát triển Talkie

Việc xây dựng một mô hình ngôn ngữ từ thời kỳ trước kỹ thuật số đặt ra những thách thức độc nhất vô nhị:

Rò rỉ dữ liệu (Data Leakage): Đảm bảo không có văn bản hiện đại nào lọt vào tập huấn luyện trước năm 1931 là cực kỳ khó khăn. Các tài liệu cũ có thể chứa phần chú thích biên tập mới thêm, hoặc siêu dữ liệu ngày tháng bị sai. Đội ngũ phát triển đã phải sử dụng bộ phân loại dựa trên n-gram để lọc các lỗi thời gian này.
Chất lượng OCR: Vì không có xuất bản kỹ thuật số năm 1930, tất cả văn bản phải được chuyển đổi từ vật lý sang kỹ thuật số. Các hệ thống OCR truyền thống thường mắc lỗi, làm giảm hiệu suất học tập của mô hình xuống chỉ còn 30% so với văn bản do con người chuyển đổi. Đội ngũ đang phát triển hệ thống OCR riêng để cải thiện vấn đề này.
Huấn luyện hậu kỳ (Post-training): Không thể sử dụng các tập dữ liệu chat hiện đại để tinh chỉnh mô hình vì nó sẽ phá hỏng tính cách cổ điển. Thay vào đó, các nhà nghiên cứu đã sử dụng các sách hướng dẫn nghi thức, sách nấu ăn và từ điển cũ để tạo ra các cặp hướng dẫn-đáp ứng, giúp Talkie học cách giao tiếp theo phong cách đầu thế kỷ 20.

Tương lai của Talkie

Hiện tại, Talkie là mô hình ngôn ngữ vintage lớn nhất được biết đến. Đội ngũ đang có kế hoạch mở rộng quy mô nhanh chóng, hướng tới việc phát hành một mô hình cấp độ GPT-3 vào mùa hè này và thậm chí là cấp độ GPT-3.5 trong tương lai với kho ngữ liệu hơn một nghìn tỷ token.

Họ cũng hy vọng sẽ mở rộng sang nhiều ngôn ngữ khác để tăng cường sự đa dạng của dữ liệu. Dự án này mở ra cánh cửa mới để hiểu cách thức dữ liệu định hình hành vi của AI, cho thấy rằng những gì chúng ta biết về LLM hiện nay có thể chỉ phản ánh văn hóa của Internet, chứ không phải là ngôn ngữ và văn hóa con người nói chung.

Tuy nhiên, người dùng cần lưu ý rằng Talkie phản ánh văn hóa và giá trị của văn bản thế kỷ 20, do đó nó có thể đưa ra các nội dung gây xúc phạm đối với người dùng hiện đại.