Tại sao trợ lý lập trình AI lại trả lời bằng tiếng Hàn khi tôi nhập tiếng Trung?

Công nghệ15 tháng 5, 2026·5 phút đọc

Bài viết phân tích hiện tượng thú vị khi một trợ lý lập trình AI chuyển sang trả lời bằng tiếng Hàn thay vì tiếng Trung khi người dùng trộn lẫn các thuật ngữ kỹ thuật tiếng Anh. Nguyên nhân sâu xa nằm ở cách không gian nhúng (embedding space) được tổ chức theo lĩnh vực nhiệm vụ kỹ thuật hơn là ranh giới ngôn ngữ đơn thuần.

Tại sao trợ lý lập trình AI lại trả lời bằng tiếng Hàn khi tôi nhập tiếng Trung?

Tôi là người Trung Quốc và chủ yếu làm việc với trợ lý lập trình của mình bằng tiếng Trung. Tuy nhiên, văn bản của tôi thường là sự pha trộn: nhiều thuật ngữ kỹ thuật quen thuộc hơn với tôi bằng tiếng Anh (đặc biệt là các thuật ngữ trong Python, Git, v.v.), và một số thuật ngữ thậm chí khó dịch tự nhiên sang tiếng Trung.

Hôm qua, tôi đã hỏi trợ lý lập trình một câu bằng tiếng Trung: "run.py有早停吗?我在恒源云上跑,发现没有触发", có nghĩa là "run.py có triển khai tính năng dừng sớm (early stopping) không? Tôi đang chạy dự án trên dịch vụ GPU dùng chung và không thấy tính năng dừng sớm được kích hoạt". như mọi khi, tôi tự nhiên gõ thuật ngữ kỹ thuật run.py dưới dạng tiếng Anh gốc. Mô hình đã kiểm tra mã và phản hồi như sau:

Màn hình trợ lý lập trình trả lời bằng tiếng HànMàn hình trợ lý lập trình trả lời bằng tiếng Hàn

Tất cả các thuật ngữ kỹ thuật vẫn giữ nguyên tiếng Anh (run.py, config.py, train_unified), trong khi cấu trúc giải thích lại chuyển sang tiếng Hàn. Đây không phải là trường hợp duy nhất. Hiện tượng này thỉnh thoảng vẫn xảy ra: miễn là tôi trộn lẫn tiếng Trung với các thuật ngữ kỹ thuật tiếng Anh, tiếng Hàn luôn xuất hiện.

Một ví dụ khác về trợ lý trả lời bằng tiếng HànMột ví dụ khác về trợ lý trả lời bằng tiếng Hàn

Điều này khiến tôi đặt câu hỏi: Đây là vấn đề về ngôn ngữ, hay là điều gì đó sâu xa hơn trong không gian nhúng (embedding space)?

Giả thuyết

Không gian nhúng không được cấu trúc chủ yếu theo bản chất của các ngôn ngữ. Sau khi được huấn luyện cùng với các mô hình ngôn ngữ, chúng có xu hướng được tổ chức theo các thanh ghi nhiệm vụ (task registers) như viết học thuật, văn bản hội thoại, và trong trường hợp của trợ lý lập trình, là kỹ thuật/mã nguồn. Mặc dù tiếng Trung là ngôn ngữ được nói bởi đông dân nhất thế giới, nhưng nó không phải là phương tiện tự nhiên cho thanh ghi kỹ thuật và có sự đại diện hạn chế trong kho dữ liệu kỹ thuật.

Trong bối cảnh như vậy, văn bản có thể ngừng cư xử như "tiếng Trung" trong không gian nhúng ngay khi các mã thông báo kỹ thuật như review / branch / commit / PR / diff xuất hiện. Thay vào đó, nó có thể trôi dạt vào một trường hấp dẫn kỹ thuật (engineering attractor field).

Chúng tôi sẽ tiến hành một số thí nghiệm để cung cấp bằng chứng thực nghiệm cho giả thuyết này.

Dịch chuyển ngôn ngữ được kiểm soát

Chúng tôi xây dựng chuỗi câu được kiểm soát sau đây, trong đó các từ tiếng Anh dần dần thay thế các từ tiếng Trung:

  • Giai đoạn 0: 请帮我检查这个分支 (Vui lòng giúp tôi kiểm tra nhánh này)
  • Giai đoạn 1: 请帮我 review 这个分支
  • Giai đoạn 2: 请帮我 review 这个 branch
  • Giai đoạn 3: Please review this branch pull request commit
  • Giai đoạn 4: Please review this branch pull request commit code diff

Chúng tôi tính toán độ tương đồng sử dụng độ tương đồng cosin giữa các nhúng câu. Chúng tôi xác định các "cụm" tiếng Hàn và tiếng Anh là nhúng trung bình của một tập nhỏ các câu liên quan đến kỹ thuật điển hình trong mỗi ngôn ngữ. Chúng tôi sử dụng Δ (EN − KO) để ký hiệu sự khác biệt giữa điểm số tương đồng tiếng Anh và tiếng Hàn, tức là Δ = tương đồng(Anh) − tương đồng(Hàn).

Chúng tôi quan sát thấy một hiện tượng thú vị: Độ tương đồng tiếng Hàn tăng lên trước, nhưng sau đó bị vượt qua bởi độ tương đồng tiếng Anh. Hơn nữa, sự tăng trưởng trong độ tương đồng tiếng Anh là phi tuyến tính, gợi ý một hành vi giống như chuyển pha (phase-transition) thay vì sự trôi dạt dần dần.

Khi chiếu các nhúng vào hai chiều bằng PCA, chúng tôi quan sát thấy quỹ đạo trơn tru ở các giai đoạn đầu, sau đó là một bước nhảy hướng sắc nét giữa Giai đoạn 2 và Giai đoạn 3, và sự ổn định hóa sau đó. Mô hình này cho thấy các nhúng không di chuyển tuyến tính qua không gian; thay vào đó, chúng dường như chuyển đổi giữa các lưu vực hấp dẫn (attractor basins).

Quỹ đạo dịch chuyển được kiểm soát trong không gian PACQuỹ đạo dịch chuyển được kiểm soát trong không gian PAC

Hành vi mô hình trong thế giới thực

Hãy xem lại câu mà chúng tôi đã đề cập ở đầu bài viết. Tôi đã hỏi:

A. "run.py有早停吗?我在恒源云上跑,发现没有触发", nghĩa là "run.py có triển khai dừng sớm không? Tôi đang chạy dự án trên dịch vụ GPU dùng chung và không thấy dừng sớm được kích hoạt."

B. "원인을 찾았습니다. 결론: run.py에는 실제로 조기 종료가 없습니다. config.py에 USE_EARLY_STOPPING = True" (bằng tiếng Hàn).

Dịch lại sang tiếng Trung, ta có:

C. "我找到了原因。结论:run.py实际上没有早停。config.py里有 USE_EARLY_STOPPING = True。"

Chúng tôi tính toán độ tương đồng của A, B và C sử dụng độ tương đồng cosin giữa các nhúng câu. Để so sánh, chúng tôi xác định ba cụm tham chiếu: cụm tiếng Trung là nhúng trung bình của các câu tiếng Trung tự nhiên chung, và các cụm tiếng Anh và tiếng Hàn tương ứng.

Như bạn có thể thấy, việc dịch câu trả lời tiếng Hàn lại sang tiếng Trung không đưa nhúng trở lại vùng tiếng Trung. Thay vào đó, nó di chuyển thậm chí còn gần hơn với các cụm tiếng Anh.

Điều này gợi ý: Dịch thuật có thể khôi phục hình thức ngôn ngữ, nhưng có lẽ không phải vị trí nhúng.

Kết luận

Cả hai thí nghiệm đều đưa ra cùng một kết luận: không gian nhúng không được tổ chức bởi các ranh giới ngôn ngữ. Thay vào đó, nó có khả năng được cấu trúc theo bản chất nhiệm vụ, trong đó tiếng Anh kỹ thuật chi phối.

Khi một câu đi vào vùng này, hình thức ngôn ngữ có thể thay đổi, nhưng cấu trúc nhúng vẫn nằm trong lưu vực kỹ thuật, dẫn đến các hành vi kỳ lạ như trả lời bằng tiếng Hàn ngay cả khi bạn hoàn toàn không phải là người nói tiếng Hàn.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗