Khi ngôn ngữ trở thành mục tiêu đo lường: Mối đe dọa từ công cụ phát hiện AI và "post-training"

Bài viết phân tích cách các mô hình ngôn ngữ lớn (LLM) sử dụng các cấu trúc ngôn ngữ như "song song phủ định" do quá trình huấn luyện sau (post-training) như RLVR. Nó chỉ ra sự nguy hiểm của các công cụ phát hiện AI đang ép con người thay đổi cách viết tự nhiên, tạo ra một nền văn hóa tự kiểm duyệt và làm suy yếu tư duy phản biện.

Khi một thước đo ngôn ngữ trở thành mục tiêu, nó không còn là một thước đo tốt nữa. Đây là vấn đề cốt lõi mà chúng ta đang đối mặt trong kỷ nguyên trí tuệ nhân tạo.

Các Mô hình Ngôn ngữ Lớn (LLM) ngày nay có xu hướng sử dụng rất nhiều cấu trúc "Không phải X, mà là Y". Trong tu từ học, đây được gọi là "song song phủ định" (negative parallelism). Đây là một công cụ hữu ích để thiết lập sự tương phản và định hình lại các giả định. Tuy nhiên, do sự lạm dụng bởi các mô hình AI, cấu trúc này đang bị lên án là "viết lười" hoặc dấu hiệu của một con bot trên mạng xã hội.

Nhưng liệu việc chỉ trích cấu trúc ngôn ngữ này có thực sự công bằng? Không ai gọi JFK là một nhà văn lười biếng khi ông nói câu nổi tiếng: "Đừng hỏi đất nước có thể làm gì cho bạn – hãy hỏi bạn có thể làm gì cho đất nước". Vấn đề không nằm ở cấu trúc, mà nằm ở nội dung nó chứa đựng.

Sự sản xuất ngôn ngữ tự động và "săn lùng phù thủy"

Chúng ta đang chứng kiến sự trỗi dậy của các công cụ phát hiện AI, vốn tuyên bố bảo vệ chúng ta khỏi văn bản do máy tạo ra bằng cách tìm kiếm các mẫu hình này. Grammarly, ví dụ, sẽ phân tích các mẫu từ và gợi ý thay đổi để tránh bị gắn cờ là AI.

Tác giả bài viết chia sẻ rằng Grammarly đã gắn cờ cụm từ "sản xuất ngôn ngữ tự động" (automated language production) vì nó có khả năng là văn bản AI cao gấp 11 lần, và gợi ý thay bằng "tổng hợp ngôn ngữ cơ khí hóa". Ngay cả cụm từ đơn giản như "phù hợp với" (align with) cũng bị coi là dấu hiệu của AI. Những gợi ý nhỏ nhặt này cộng lại dần dần sẽ xóa bỏ đi nhịp điệu và ý định riêng của người viết, thay thế bằng giọng nói của một cỗ máy đang cố gắng nghe giống con người.

Thậm chí tệ hơn, nhiều người phải trả tiền cho các công ty như Pangram để xác minh rằng bài viết của họ không phải do AI tạo ra trước khi nộp. Đây thực chất là một hình thức tống tiền. Nếu hệ thống của Pangram kết luận bạn có tội, sự nghiệp của bạn có thể sẽ kết thúc. Chúng ta đang rơi vào một vòng luẩn quẩn: sử dụng máy móc để viết nhằm chứng minh rằng chúng ta không sử dụng một máy móc khác để viết.

Vai trò của Post-training: RLHF và RLVR

Để hiểu tại sao các LLM lại viết như vậy, chúng ta cần nhìn sâu hơn vào dữ liệu huấn luyện. Web chỉ là nguyên liệu thô, nhưng "chiếc xúc xích" này đã trải qua quá trình xử lý trước và sau rất kỹ lưỡng. Post-training (huấn luyện sau) tối ưu hóa mô hình cho mục đích cụ thể, bao gồm các kỹ thuật như RLHF (Học tăng cường với phản hồi của con người) và RLVR (Học tăng cường thông qua phần thưởng đã xác minh).

RLHF yêu cầu con người xếp hạng các câu trả lời, nhưng RLVR thú vị hơn và có thể là nguyên nhân chính dẫn đến sự phổ biến của cấu trúc "Không phải X, mà là Y".

RLVR không chỉ đơn thuần là tìm kiếm từ khóa. Nó yêu cầu mô hình giải quyết các vấn đề toán học bằng cách "viết đường đi" đến giải pháp, mô phỏng lại ngôn ngữ mà chúng ta sử dụng khi suy nghĩ thành tiếng. Khi mô hình đến được câu trả lời đúng, ngôn ngữ được sử dụng để đạt được kết quả đó sẽ được nhấn mạnh trong mô hình hoàn chỉnh. Đây là một phần những mà ngành công nghiệp gọi là "suy luận" (reasoning).

Mô phỏng suy luận: Ví dụ về "con chó kỳ lạ"

Hãy tưởng tượng bạn và bạn bè đang cố nhớ xem ngày nào hai người đã nhìn thấy một con chó kỳ lạ.

Bạn nói: "Đó là thứ Năm". Bạn bè phản đối: "Không phải thứ Năm, vì thứ Năm tôi đi vắng". Bạn suy nghĩ lại: "Thế thì phải là thứ Tư, vì thứ Tư là sinh nhật người bạn chung và chúng ta đã đi tiệc". Bạn bè chỉnh sửa: "Đúng rồi, nhưng tiệc là vào thứ Sáu. Vậy chúng ta phải thấy con chó vào thứ Sáu".

Quá trình này, về mặt kỹ thuật, là việc bạn sử dụng ngôn ngữ để thu hẹp cửa sổ các câu trả lời có thể thông qua việc loại bỏ các giả định sai ("Không phải X, mà là Y"). Mô hình AI cũng làm điều tương tự: nó mở rộng ngôn ngữ thành các chuỗi dài hơn, tái hiện lại mẫu hình suy luận này. Các từ như "giả sử...", "bởi vì...", "tuy nhiên..." kích hoạt các đoạn văn suy luận dài hơn. Nếu chúng dẫn đến câu trả lời đúng, chúng sẽ được khuyến khích xuất hiện nhiều hơn.

Định luật Goodhart và sự suy đồi của ngôn ngữ

Tuy nhiên, việc định nghĩa "suy luận" theo cách này có những hệ quả thực tế đối với văn viết. Nó giả định rằng mục đích của việc đặt câu hỏi chỉ là để có câu trả lời xác minh được, và không có gì bị mất đi trong sự khép lại tức thì. Nhưng sự mơ hồ, nghi ngờ và sự không chắc chắn lại quan trọng hơn đối với một số cách tư duy.

Có một câu ngạn ngữ kinh tế học gọi là Định luật Goodhart: "Khi một thước đo trở thành mục tiêu, nó không còn là một thước đo tốt nữa". Chúng ta có thể áp dụng điều này cho các mô hình ngôn ngữ: "Khi thước đo ngôn ngữ trở thành mục tiêu, nó không còn là ngôn ngữ tốt nữa".

Việc đánh giá dựa trên các mẫu hình ngôn ngữ thay vì nội dung thực sự là nguy hiểm. Một công cụ chấm điểm bài luận bằng AI tại Anh đã bị phát hiện là cho điểm cao hơn dựa trên độ dài bài viết, vốn từ phong phú và độ phức tạp của câu – những đặc điểm thường không liên quan đến tiêu chuẩn học thuật thực sự nhưng lại là đặc điểm của AI.

Chống lại tư duy tự động

Chúng ta không nên chấp nhận quan điểm "nếu bạn không làm gì sai thì bạn không có gì phải lo lắng". Các hệ thống giám sát tự động, dù chính xác 99,8%, vẫn có thể dẫn đến việc buộc tội sai lầm hàng loạt đối với sinh viên và các nhà văn.

Việc chạy mọi đoạn văn bản qua một trình thông dịch AI để kiểm tra xem nó có phải do AI tạo ra hay không sẽ tạo ra một nền văn hóa tự kiểm duyệt. Mọi người sẽ viết lại và diễn giải lại văn bản của mình chỉ để tránh bị săn lùng. Đây là điều ngược lại với việc bảo vệ sự biểu đạt của con người.

Nếu việc sử dụng AI để viết là sự công nghiệp hóa của tâm trí ở mức tồi tệ nhất, thì việc phát hiện AI, ở mức tồi tệ nhất, sẽ trở thành một hệ thống giám sát tư duy. Chúng ta cần tư duy phản biện trong mọi trường hợp, thay vì ủy thác phán xét cho những cỗ máy.