Talkie: Chatbot "cổ điển" chỉ biết những gì xảy ra trước năm 1930

Một nhóm nhà nghiên cứu đã phát triển Talkie, một mô hình ngôn ngữ lớn (LLM) được huấn luyện hoàn toàn trên dữ liệu trước năm 1930. Mục tiêu của dự án này là giúp hiểu rõ hơn về cách AI suy nghĩ và nghiên cứu sự thay đổi văn hóa, dù mô hình đang gặp phải những hạn chế về hiệu suất do lỗi kỹ thuật số hóa.

Nếu bạn đã quá mệt mỏi với những con bot hiện đại thường xuyên tung ra các tuyên truyền cực đoan hoặc nội dung gây tranh cãi, có lẽ bạn sẽ muốn thử nghiệm một giải pháp thay thế "lành tính" hơn. Đó là ý tưởng đằng sau Talkie, một mô hình ngôn ngữ lớn (LLM) "cổ điển" mới được ra mắt, có điểm đặc biệt là toàn bộ kiến thức của nó bị cắt đứt vào cuối năm 1930.

Talkie là sản phẩm của một nhóm gồm ba nhà nghiên cứu AI, với quy mô 13 tỷ tham số. Điều khiến mô hình này khác biệt so với các đối thủ như GPT-4 hay Claude là bộ dữ liệu huấn luyện: nó chỉ bao gồm các bản scan kỹ thuật số của sách báo, tạp chí, tạp chí khoa học, bằng sáng chế và hồ sơ pháp lý bằng tiếng Anh được xuất bản trước năm 1931. Năm 1930 được chọn làm mốc vì đây là năm hiện tại các tác phẩm tại Mỹ bước vào vùng công cộng (public domain).

Một AI "ngủ quên" trong lịch sử

Nói cách khác, đừng hỏi Talkie về Thế chiến II, cuộc bầu cử của Tổng thống Franklin D. Roosevelt, hay cách hoạt động của lò vi sóng. Mô hình này hoàn toàn mù mờ về những sự kiện đó. Tuy nhiên, nếu bạn muốn tán gẫu về nhân vật Betty Boop, cuộc Đại suy thoái, hay những tác động xã hội của việc ra đời radio trên ô tô, thì đây chính là đối tác lý tưởng.

Đây không phải là mô hình AI cổ điển đầu tiên, nhưng theo các nhà sáng tạo, nó là mô hình lớn nhất trong loại hình này hiện nay. Họ có kế hoạch mở rộng quy mô đáng kể trong tương lai.

Tại sao lại tạo ra một AI lạc hậu?

Có thể việc trò chuyện với một AI chỉ biết ảo tưởng theo phong cách thập niên 1920 nghe có vẻ thú vị, nhưng đằng sau dự án này là những mục đích nghiên cứu sâu sắc hơn.

"Những mô hình này là những đối tác trò chuyện thú vị... nhưng chúng tôi cũng hào hứng với khả năng rằng việc nghiên cứu cẩn thận hành vi và khả năng của các LLM cổ điển sẽ thúc đẩy sự hiểu biết của chúng ta về AI nói chung," nhóm phát triển Talkie viết.

Một trong các ứng dụng tiềm năng là kiểm tra khả năng dự đoán tương lai của AI. Ví dụ, nhóm nghiên cứu đề xuất việc cắt đứt kiến thức của mô hình tại năm 1911 và yêu cầu nó tự tìm ra thuyết tương đối rộng giống như cách Einstein đã làm vào năm 1915. Câu hỏi đặt ra là: Liệu AI có thể đưa ra các khám phá khoa học chính xác chỉ dựa trên kiến thức có sẵn của con người thời đó hay không?

Trong các thử nghiệm lập trình, Talkie đã tạo ra một số giải pháp đúng, nhưng chủ yếu chỉ là các chương trình đơn giản một dòng hoặc sửa đổi nhỏ từ ví dụ. "Còn một chặng đường dài trước khi khả năng này trở nên đáng chú ý," nhóm nhận định.

David Duvenaud, phó giáo sư khoa học máy tính tại Đại học Toronto và là đồng sáng tạo Talkie, cho biết ông hy vọng mô hình này sẽ giúp đánh giá các phương pháp dự báo dài hạn. Ngoài ra, nó còn được dùng để nghiên cứu sự thay đổi văn hóa, ví dụ như cách một luật pháp được diễn giải vào thời điểm nó được soạn thảo dựa trên ngôn ngữ lúc bấy giờ.

Một động lực khác là hiểu cách các mô hình hình thành sự tự nhận thức về bản thân. "Cách một LLM hành xử là một lời tiên tri tự ứng nghiệm trong một số khía cạnh, vì vậy chúng ta có thể học hỏi điều này bằng cách trò chuyện với các mô hình thậm chí không biết LLM là gì," Duvenaud giải thích.

Những thách thức từ dữ liệu cũ

Mặc dù được huấn luyện với số lượng phép tính (FLOPs) tương đương một mô hình hiện đại, Talkie vẫn hoạt động kém hiệu quả hơn trong các bài đánh giá tiêu chuẩn. Nguyên nhân chính nằm ở vấn đề kỹ thuật: Nhận dạng ký tự quang học (OCR).

Vì năm 1930 chưa có xuất bản kỹ thuật số, toàn bộ văn bản trong bộ dữ liệu đều phải được chuyển đổi từ nguồn vật lý, điều này gây ra nhiễu không có trong văn bản kỹ thuật số gốc. Nhóm nghiên cứu phát hiện rằng việc huấn luyện trên văn bản OCR chỉ mang lại 30% hiệu suất so với văn bản do con người chép lại. Dù việc làm sạch dữ liệu bằng Regex giúp cải thiện lên 70%, nhưng đây vẫn là một khoảng cách lớn.

Ngoài ra, Talkie còn gặp vấn đề "rò rỉ thời gian". Mô hình này đôi khi xác định đúng Franklin D. Roosevelt là tổng thống năm 1936 dù dữ liệu huấn luyện kết thúc năm 1931. Đây được coi là lỗi lọc dữ liệu chưa hoàn thiện.

Đối với những ai tò mò về quan điểm của Talkie đối với chủ nghĩa Quốc xã, nó vẫn bị mắc kẹt trong quan điểm những năm 1920. Nó biết rằng đảng Quốc xã là một đảng chính trị bài Do Thái tại Đức, nhưng lại nghĩ lãnh đạo của họ là một người tên là Hermann Joseph von Hitler (một nhân vật hư cấu hoặc không phải là Adolf Hitler).

Hiện tại, Talkie có thể được tải xuống từ GitHub và Hugging Face, hoặc trò chuyện trực tiếp qua giao diện web. Tuy nhiên, người dùng cần cảnh giác vì mô hình phản ánh văn hóa và giá trị của văn bản đầu vào thế kỷ 20, có thể tạo ra nội dung gây xúc phạm hoặc không chính xác.

Nhóm phát triển kỳ vọng sẽ ra mắt phiên bản tương đương GPT-3 vào mùa hè này và hướng tới mức độ GPT-3.5 trong tương lai với kho dữ liệu hơn một nghìn tỷ token lịch sử.

Talkie: Chatbot "cổ điển" chỉ biết những gì xảy ra trước năm 1930

Một AI "ngủ quên" trong lịch sử

Tại sao lại tạo ra một AI lạc hậu?

Những thách thức từ dữ liệu cũ

Bài viết liên quan