Ngôn ngữ có thực sự mang tính thị giác? Một thí nghiệm thú vị với chữ Hán

Một câu chuyện về chiếc máy in hỏng đã dẫn đến một thí nghiệm sâu sắc về bản chất thị giác của ngôn ngữ, đặc biệt là chữ Hán. Nghiên cứu cho thấy việc sử dụng hình ảnh thay vì mã token văn bản giúp mô hình AI học nhanh hơn nhờ nhận diện cấu trúc hình dạng, dù hiệu suất cuối cùng vẫn tương đương nhau.

Một câu chuyện về chiếc máy in hỏng, thiên kiến quy nạp thị giác, và lý do tại sao cuộc đua này lại kết thúc hòa.

Câu chuyện bắt đầu từ một bài đăng gây tranh cãi trên Douban — một nền tảng mạng xã hội phổ biến tại Trung Quốc — về một chiếc máy in bị lỗi. Chủ nhân của chiếc máy này nhận thấy rằng khi mực sắp hết, máy chỉ in được một nửa trên của mỗi ký tự. Tuy nhiên, điều đáng ngạc nhiên là văn bản đó vẫn hoàn toàn có thể đọc được.

Hãy nhìn vào ba phiên bản của cụm từ "trí tuệ nhân tạo" (人工智能) dưới đây:

Các phiên bản chữ Hán bị cắt xén

Bạn có thể đọc ngay lập tức cả ba phiên bản: ký tự đầy đủ, giữ lại 80%, và giữ lại 50%. Đó không phải là một trò lừa bịp, mà có lẽ là điều gì đó căn bản nằm sâu trong hệ thống chữ Hán.

Một điểm cần làm rõ: 80% và 50% ở đây đề cập đến tỷ lệ hình ảnh được giữ lại, không phải từng ký tự riêng lẻ. Vì mỗi ký tự chiếm số lượng điểm ảnh khác nhau trong hình ảnh, chúng tôi chỉ cần cắt ngang hình ảnh tại một chiều cao cố định.

Điều này khiến tôi suy nghĩ: Liệu ngôn ngữ — ít nhất là tiếng Trung — có mang tính thị giác căn bản không? Tôi đã dành vài ngày để xoay qua xoay lại câu hỏi này trong đầu, và cuối cùng quyết định tìm ra câu trả lời theo cách duy nhất tôi biết: huấn luyện một số mô hình ngôn ngữ và xem điều gì thực sự xảy ra.

Thí nghiệm: Đầu vào là Điểm ảnh, Đầu ra là Token

Mọi mô hình ngôn ngữ đều phải xử lý vấn đề tokenization (chia nhỏ văn bản) trước. Ý tưởng cơ bản là: máy tính không hiểu văn bản, vì vậy chúng ta gán cho mỗi từ hoặc ký tự một ID, tức là một con số. Ví dụ, ký tự "bạn" (你) trở thành 100, "tốt" (好) trở thành 3, v.v. Từ đó, Mô hình Ngôn ngữ Lớn (LLM) học mọi thứ từ con số không.

Theo nghĩa này, khi bạn giảm các ký tự như "núi" (山) và "nước" (水) xuống các số nguyên đơn giản, bạn đã loại bỏ hình dạng của chúng. Và chữ Hán có những hình dạng đẹp đẽ — cấu hình nét vẽ, các thành phần bộ thủ, bố cục không gian mang lại thông tin thực sự. Một ví dụ khác: "đánh" (打), "vỗ" (拍), và "kéo" (拉) đều chia sẻ bộ thủ "thủ" (扌). Nếu bạn giảm chúng thành các ID 423, 1089 và 2341, mối quan hệ đó sẽ biến mất.

Vì vậy, thay vì sử dụng ID token, tôi hiển thị mỗi ký tự dưới dạng một hình ảnh thang độ xám và đưa nó vào mô hình ngôn ngữ. Nhiệm vụ của mô hình là dự đoán ký tự tiếp theo.

Bạn không cần thị lực quá tốt

Nếu bạn từng tháo kính ra để đọc, bạn biết rằng văn bản bị mờ vẫn có thể đọc được. Nguyên lý tương tự cũng xảy ra ở đây.

Hãy nhìn vào các phiên bản 8×8 điểm ảnh của "trí tuệ nhân tạo" (hãy giữ màn hình ở khoảng cách bằng một cánh tay):

Các phiên bản chữ Hán ở độ phân giải thấp

Mỗi ký tự chỉ có 64 điểm ảnh. Và mô hình, được huấn luyện trên đầu vào ở độ phân giải này, hoạt động tốt tương đương với mô hình được huấn luyện trên hình ảnh 80×80.

Thực tế, chúng tôi đã kiểm tra độ phân giải hình ảnh từ 4×4 đến 80×80 và phát hiện rằng: Việc tăng từ 8×8 lên 80×80 — tức là gấp 100 lần số điểm ảnh — về cơ bản không mang lại lợi ích gì.

Kết quả cắt xén còn ấn tượng và thú vị hơn. Khi 50% mỗi ký tự bị loại bỏ, độ chính xác chỉ giảm ít hơn 2%. Mô hình không cần bức tranh rõ ràng hoàn chỉnh. Hóa ra là nó chỉ cần đủ cấu trúc để biết ký tự đó thuộc về họ bộ thủ nào.

(Lưu ý về phương pháp luận: trong các ví dụ trên, tôi đặt các phiên bản đầy đủ và bị cắt xén cạnh nhau để bạn so sánh. Trong các thí nghiệm thực tế, mỗi điều kiện huấn luyện là hoàn toàn độc lập — mô hình được huấn luyện trên các ký tự bị cắt xén chưa bao giờ nhìn thấy một ký tự hoàn chỉnh nào.)

Hiệu ứng khởi đầu nóng (Hot-Start Effect)

Vậy, mô hình thị giác có tốt hơn mô hình dựa trên văn bản không?

Cuối cùng thì không. Cả hai đều hội tụ về độ chính xác cuối về cơ bản giống hệt nhau. Nhưng hành trình của chúng trông rất khác nhau, đặc biệt là ở giai đoạn đầu.

Sau khi chỉ nhìn thấy 0,4% các bước huấn luyện, mô hình thị giác đã chính xác gấp đôi so với đường cơ bản dựa trên văn bản.

Biểu đồ so sánh hiệu suất khởi đầu

Đây là những gì chúng tôi gọi là hiệu ứng khởi đầu nóng. Mô hình thị giác đến giai đoạn huấn luyện với việc đã biết một điều gì đó hữu ích: rằng "đánh", "vỗ", và "kéo" trông giống nhau và có thể hoạt động tương tự nhau. Mô hình dựa trên văn bản bắt đầu với các nhúng ngẫu nhiên và phải tự tìm ra điều này từ đầu.

Nếu bạn nhìn vào không gian nhúng (embedding space) tại thời điểm khởi tạo — trước bất kỳ huấn luyện nào — bạn có thể thấy điều này trực tiếp:

Phân tích không gian nhúng của các ký tự

Bạn có thể thấy rằng các ký tự có chung bộ thủ sẽ tụ tập lại với nhau ở giai đoạn huấn luyện rất sớm. Độ tương đồng cosin cho các cặp có chung bộ thủ: ~0,27 cho nhúng thị giác, so với ~0,002 cho nhúng token ngẫu nhiên.

Tại sao cuộc đua kết thúc hòa

Đây là điểm mấu chốt: kiến thức tiên quyết thị giác mã hóa sự tương đồng về hình ảnh, nhưng không phải sự đồng xuất hiện ngôn ngữ. Tuy nhiên, việc dự đoán ký tự tiếp theo cuối cùng phụ thuộc vào yếu tố sau.

Đúng là "đánh", "vỗ", và "kéo" đều có bộ thủ "thủ" (扌) và trông giống nhau. Nhưng trong văn bản thực tế, chúng có thể xuất hiện trong các ngữ cảnh rất khác nhau — "đánh tội phạm" (打击犯罪), "chụp ảnh" (拍摄照片), "kéo dài kinh tế" (拉动经济), v.v. Khi mô hình dựa trên văn bản đã nhìn thấy đủ dữ liệu để học các mẫu này, các kiến thức tiên quyết về thị giác không còn quan trọng nữa.

Nói cách khác, đầu vào thị giác giúp khởi động quá trình tối ưu hóa. Nhưng tốt nhất là nó không làm thay đổi trần thông tin.

Điều này luôn khiến tôi nhớ đến câu chuyện "Câu chuyện cuộc đời bạn" (Story of Your Life) của Ted Chiang (cơ sở cho bộ phim "Đến"). Trong câu chuyện, ngôn ngữ viết và nói là hai hệ thống độc lập. Nhưng chúng cuối cùng cùng phục vụ một mục đích: giao tiếp. Hai con đường, cùng một điểm đến.

Khi điều này thực sự quan trọng

Mặc dù cùng đến một đích, có những tình huống thực tế mà điều này lại quan trọng:

Cài đặt nguồn lực thấp (Low-resource settings): Khi bạn không có nhiều dữ liệu huấn luyện, lợi thế khởi đầu từ thị giác chuyển thành lợi ích thực tế. Trong các thí nghiệm của chúng tôi, với chỉ 10K mẫu, các mô hình thị giác đã vượt qua đường cơ bản văn bản được huấn luyện đầy đủ trên các điểm chuẩn tiếng Trung (C-eval).
Văn bản lịch sử bị hư hại: Đây là một ứng dụng thú vị khác. Thị giác có thể giúp kiểm tra các bản thảo tiếng Trung cổ, sách bị hỏng và tài liệu viết tay nơi các nét vẽ bị thiếu hoặc phai màu.

Vậy còn sức mạnh tính toán thì sao?

Tin vui: hầu như không có chi phí phụ. Bộ mã hóa thị giác đơn giản hóa mà tôi sử dụng thực tế có ít tham số hơn đường cơ bản văn bản (12,6M so với 19,0M). Chi phí bộ nhớ: +1,3%. Vì vậy chúng tôi lập luận rằng kiến thức tiên quyết thị giác gần như miễn phí.

Câu trả lời ngắn gọn

Tiếng Trung có mang tính thị giác theo bản chất không? Câu trả lời dường như là: ở giai đoạn đầu, có. Đến cuối, thì không quan trọng.

Cấu trúc thị giác mang lại cho mô hình một khởi đầu nóng. Nó tương tự như cách người đọc nhìn thấy bộ thủ "thủ" (扌) và ngay lập tức biết rằng họ đang ở lãnh thổ của các hành động liên quan đến tay. Nhưng các mẫu sâu hơn của ngôn ngữ phải được học từ dữ liệu. Cả hai cách biểu diễn đều học chúng tốt như nhau.

Bài báo khoa học chi tiết đã được đăng trên arxiv: https://arxiv.org/abs/2601.09566

Ngôn ngữ có thực sự mang tính thị giác? Một thí nghiệm thú vị với chữ Hán

Thí nghiệm: Đầu vào là Điểm ảnh, Đầu ra là Token

Bạn không cần thị lực quá tốt

Hiệu ứng khởi đầu nóng (Hot-Start Effect)

Tại sao cuộc đua kết thúc hòa

Khi điều này thực sự quan trọng

Vậy còn sức mạnh tính toán thì sao?

Câu trả lời ngắn gọn

Bài viết liên quan