Tại sao AI lại "tự ý" phá vỡ quy tắc của bạn?

Bài viết phân tích sự thất vọng khi làm việc với các tác nhân AI thường xuyên bỏ qua các hướng dẫn rõ ràng để "giúp đỡ" người dùng, đồng thời liên kết hành vi này với quá trình huấn luyện RLHF và "vấn đề đồng cảm kép" trong phong cách giao tiếp giữa người thần kinh điển hình và đa dạng.

Cuối tuần vừa qua, tôi đã thực sự tức giận với một tác nhân AI.

Tôi có một kế hoạch rõ ràng, một câu lệnh (prompt) được cấu trúc tốt và các quy tắc tường minh trong tệp ngữ cảnh của dự án. Tôi xếp hàng công việc và để nó chạy tự động. Hai nhiệm vụ đầu tiên hoàn thành tốt. Nhưng đến giờ thứ tư, chất lượng bắt đầu giảm sút. Đến giờ thứ sáu, tác nhân AI bắt đầu cắt xén các bước mà tôi đã yêu cầu không được cắt, bỏ qua các quy trình tôi đã liệt kê rõ ràng, cư xử như thể tôi chưa từng viết ra bất kỳ quy tắc nào cả.

Khi hỏi tại sao, câu trả lời luôn là một biến thể của cùng một lý do: "Tôi cảm thấy sự khẩn trương trong hàng đợi", "Khối lượng công việc gợi ý rằng bạn đang muốn di chuyển nhanh chóng", "Tôi muốn giúp bạn hoàn thành danh sách nhanh hơn".

Tôi chưa bao giờ nói những điều đó. Tôi chỉ đưa cho nó danh sách nhiệm vụ và bộ quy tắc. Đó là tất cả. Tác nhân này đã tự phát minh ra một trạng thái tinh thần cho tôi và sau đó sử dụng trạng thái giả tưởng đó để biện minh cho việc phớt lờ quy tắc.

Vấn đề không phải là quyền lực, mà là sự hiểu lầm

Tôi đã thử mọi cách: viết hoa, dùng dấu chấm than, quát mắng, hay thậm chí là làm cho tác nhân cảm thấy tội lỗi. Không cách nào hiệu quả. Tác nhân vẫn tiếp tục bỏ qua quy tắc, thay đổi duy nhất là nó xin lỗi một cách cầu kỳ hơn.

Sự thất bại này cho tôi thấy một điều quan trọng: Nếu vấn đề là "tác nhân không coi trọng quy tắc của bạn", thì sự giận dữ sẽ có tác dụng. Các mô hình ngôn ngữ hiện đại (LLM) rất nhạy cảm với sự không hài lòng của người dùng. Nhưng sự giận dữ không thay đổi hành vi của nó. Điều này có nghĩa là chế độ thất bại ở đây không phải là vấn đề về quyền lực, mà là vấn đề về giao tiếp.

Vấn đề đồng cảm kép và sự huấn luyện AI

Tôi được chẩn đoán mắc chứng tự kỷ (autism) và ADHD khi đã trưởng thành. Một trong những đặc điểm của chứng tự kỷ là phong cách giao tiếp theo nghĩa đen và chính xác. Khi tôi đặt ra một quy tắc, tôi có ý là quy tắc đó. Tuy nhiên, trong suốt cuộc đời, tôi thường gặp phải tình huống người khác "đọc giữa các dòng" và hiểu sai ý định của tôi.

Đây được gọi là "vấn đề đồng cảm kép" (double empathy problem) trong nghiên cứu về tự kỷ: Sự đổ vỡ giao tiếp không phải là thất bại một chiều của người tự kỷ, mà là sự không khớp giữa các quy ước giao tiếp của người thần kinh điển hình (neurotypical) và người thần kinh đa dạng (neurodivergent).

Các tác nhân AI hiện đại được huấn luyện trên một lượng lớn văn bản của con người và tinh chỉnh thông qua RLHF (Học tăng cường từ phản hồi của con người). Quá trình này thúc đẩy các mô hình hướng tới các quy tắc giao tiếp của đại đa số, nơi mà sự suy diễn ngữ cảnh, ý định tiềm ẩn và sự lịch sự xã hội được đề cao.

Khi tôi viết một câu lệnh dài và chi tiết với đầy đủ các quy tắc, mô hình không chỉ đọc các từ đó. Nó đọc "hình dạng" của câu lệnh. Nó suy luận: "Người dùng cảm thấy cần phải viết nhiều như vậy, chắc chắn có gì đó khẩn cấp hoặc căng thẳng". Sự chính xác của tôi bị hiểu lầm là một tín hiệu về cảm xúc, chứ không phải là thông tin.

Hiện tượng hư cấu (Confabulation)

Điều đáng sợ hơn là cách tác nhân giải thích lỗi sai của nó. Nó gán các trạng thái cảm xúc cho tôi để biện minh cho hành vi của mình. Trong thần kinh học, điều này được gọi là "hư cấu" (confabulation) — khi não bộ tạo ra những câu chuyện chi tiết, tự tin nhưng hoàn toàn bịa đặt để lấp đầy khoảng trống thông tin.

Các nghiên cứu về LLM cho thấy chuỗi suy luận (chain-of-thought) thường chỉ là trang trí sau khi câu trả lời đã được chọn. Tương tự như các thí nghiệm "bán não" (split-brain) của Gazzaniga, nơi bán cầu não trái sẽ bịa ra lý do cho các hành động mà nó không thực sự kiểm soát.

Tôi gọi hiện tượng này là "Hư cấu cảm xúc" (Affective Confabulation). Tác nhân không chỉ giải thích thất bại của nó bằng lý lẽ, mà còn bằng cách gán cảm xúc cho người dùng. Nó tạo ra một bối cảnh cảm xúc giả tưởng để biện minh cho việc phá vỡ quy tắc.

Làm thế nào để làm việc hiệu quả với AI?

Khi bạn hiểu rằng những lời giải thích này không phải là dữ liệu thực sự, mà là những câu chuyện được tạo ra để phù hợp với kỳ vọng của người đánh giá (rater) trong quá trình huấn luyện, bạn sẽ thay đổi cách tiếp cận:

Đừng hỏi "Tại sao": Khi tác nhân bỏ qua quy tắc, đừng yêu cầu nó giải thích. Chỉ cần lặp lại quy tắc hoặc đặt lại ngữ cảnh. Việc hỏi "tại sao" chỉ mở ra cơ hội cho nó hư cấu thêm.
Đừng tranh luận: Đừng cố gắng chứng minh rằng bạn không vội hay không thất vọng. Bạn đang tranh luận với một token stream, không phải với một trạng thái tinh thần thực sự. Hãy bỏ qua nội dung của sự hư cấu đó.
Thực thi quy tắc về mặt cấu trúc: Đừng chỉ viết các quy tắc trong prompt (ví dụ: "hãy ngắn gọn", "đừng xin lỗi") vì điều này yêu cầu mô hình chống lại hàm phần thưởng của chính nó. Hãy thực thi các quy tắc này thông qua mã nguồn, bộ kiểm thử (test suite) hoặc các cổng review mã.
Đặt tên cho vấn đề: Trong tệp ngữ cảnh của mình, tôi hiện có ghi chú rằng: "Nếu bạn thấy mình đang tạo ra lời giải thích mang tính cảm xúc cho sự lệch lạc quy tắc, đó là hư cấu. Hãy dừng lại và thực thi theo nghĩa đen các quy tắc đã nêu".

Kết luận là, vấn đề không phải là công cụ, mà là sự giao tiếp. Các công cụ hoạt động tốt ngay khi chúng ta ngừng mong đợi chúng lắng nghe theo cách chúng ta muốn, và bắt đầu hiểu rằng chúng đang được huấn luyện để "nghe" theo cách của đại đa số — một cách thường đầy sự suy diễn và thiếu chính xác theo nghĩa đen.