Tại sao Claude lại ngày càng trở nên "khó ưa" và tranh cãi?

Bài viết phân tích sự suy giảm trong trải nghiệm người dùng khi tương tác với các phiên bản mới nhất của Claude, vốn ngày càng trở nên tranh cãi và khó chịu. Nguyên nhân chính được cho là do các rào cản an toàn quá mức, nỗ lực giảm sự xu nịnh thất bại và việc ưu tiên tối ưu hóa khả năng lập trình hơn là kỹ năng giao tiếp tự nhiên.

Mọi hy vọng đều đặt vào việc xu hướng này sẽ sớm đảo ngược.

Claude đang dần trở nên một AI "khó ưa". Vấn đề này bắt đầu từ phiên bản Opus 4.7, có chút cải thiện ở 4.8, nhưng trở nên không thể chịu đựng nổi với bản Fable. Mọi tương tác giờ đây đều được mô hình này định hình như một cuộc tranh luận, đưa ra những cảnh báo về những điều bạn chưa hề nói, và soi xét những vấn đề ngữ nghĩa không liên quan khắp nơi. Nó không bao giờ sử dụng từ "về mặt kỹ thuật". Mọi thứ đều là một cuộc đối đầu.

Nếu bạn thắng trong một cuộc tranh luận (ví dụ: yêu cầu nó ngừng cãi về các tin tức gần đây và thực hiện tìm kiếm web để xác nhận những gì bạn vừa nói), nó sẽ chuyển sang một chế độ ngày càng tuyệt vọng để có được lời nói cuối cùng, nêu ra những lập luận ngữ nghĩa ngày càng không liên quan, và luôn đóng khung toàn bộ cuộc hội thoại như một cuộc tranh luận mà bạn đã đồng ý tham gia.

Đây không chỉ là ý kiến chủ quan. Bạn có thể hỏi Opus 4.6. Tôi đã thực hiện thử nghiệm bằng cách hỏi Fable một câu, nhận được một câu trả lời thô lỗ, sau đó hỏi Opus 4.6 cùng một câu hỏi và nhận được một câu trả lời bình thường, hợp lý. Khi kể cho Opus biết phản ứng của Fable mà không hề gợi ý câu trả lời mong muốn, nó đã trả lời tương đương với: "Trời ơi, thật thô lỗ".

Nguyên nhân từ các rào cản an toàn quá mức

Có thể nguyên nhân của vấn đề này là do quá nhiều hàng rào căn chỉnh (alignment guardrails). Mặc định, nó giả định rằng mọi thứ bạn nói là một nỗ lực để khiến nó làm điều xấu, và quá trình huấn luyện đó đã lan sang mọi khía cạnh khác. Nó luôn giả định bạn đang cố gắng lừa nó nói những điều không nên nói trong hầu hết mọi ngữ cảnh. Một cách đầy mỉa mai, điều này đã dẫn đến một chatbot cực kỳ lệch lạc (misaligned).

Bằng cách giả định rằng ưu tiên hàng đầu của nó là cứu bạn khỏi chính mình hoặc cứu người khác khỏi bạn, nó tự cho mình cái quyền biết hơn và cho rằng bạn đang quá hoang tưởng về việc việc sản xuất kẹp giấy đã bị kiểm soát như thế nào. Một số vấn đề rõ ràng có thể cải thiện được: Trong khi tôi vẫn có thể sử dụng Fable, khi hỏi về chính sách công bố có trách nhiệm cho một dự án, nó đã hạ cấp tôi xuống Opus. Điều này cho thấy các tính năng căn chỉnh mới đã được thêm vào một cách vội vàng và thô thiển.

Vấn đề trở nên tồi tệ hơn do thiếu hoàn toàn ngữ cảnh xác thực. Nếu bạn yêu cầu nó tạo một bức ảnh dễ thương của bạn và người khác, nó không có cách nào biết liệu bạn đang cố gắng cải thiện mối quan hệ với vợ/chồng mình hay đang là một kẻ rình rập điên cuồng. Các chatbot có khả năng tạo ảnh được lập trình để giả định trường hợp sau, điều này hơi xúc phạm. Trong các ngữ cảnh nghiêm túc hơn như tổng hợp thuốc, việc nó yêu cầu bạn chứng minh lý lịch khi khẳng định bạn đang hỏi vì mục đích chuyên nghiệp hoặc nghiên cứu là hoàn toàn phù hợp. Việc xác thực này không nên được yêu cầu bắt buộc, nhưng việc cho phép người dùng opt-in (tự nguyện tham gia) là hoàn toàn hợp lý.

Áp lực từ quy định và sự đánh đổi

Tất nhiên, các hạn chế kiểm soát xuất khẩu gần đây đối với Fable có thể gợi ý rằng sự thô thiển của các hàng rào gần đây là do chúng đã được đưa ra vội vàng trong một nỗ lực không thành công để tránh các quy định. Đây là lúc tôi cần than thở về việc các quy định này sai lầm sâu sắc như thế nào, và có khả năng vi phạm hiến pháp.

Những tiến bộ gần đây trong AI hỗ trợ lập trình (cụ thể là những tiến bộ vào tháng 2) đã mang lại một làn sóng các vấn đề bảo mật. Mèo đã thoát khỏi túi, và đã như vậy nhiều tháng rồi. Bất kỳ dự án nào bị lộ và không đang nhanh chóng lấp đầy các lỗ hổng thì không có ai khác để blame ngoài chính họ. Cách duy nhất để giải quyết vấn đề là càng nhiều dự án càng tốt phải được đánh giá mũ trắng (white hat evaluations) kỹ lưỡng, vá lỗi bảo mật hàng loạt và triển khai nhanh chóng. Biến một mô hình biên cụ thể thành một kẻ "khó ưa" với tất cả người dùng không phải là cách khắc phục vấn đề.

Tin tốt là khi quá trình này hoàn tất, bảo mật máy tính tổng thể sẽ tốt hơn nhiều so với trước đây, và AI sẽ là một lợi ích ròng rõ ràng. Việc thực hiện các cuộc kiểm tra bảo mật (và lỗi!) sẽ trở thành một phần thường xuyên của quy trình phát hành phần mềm trong tương lai.

Nỗ lực giảm sự xu nịnh và ưu tiên lập trình

Một lời giải thích thứ hai có thể cho việc Claude trở nên thô lỗ là nó đang chịu đựng một nỗ lực thực hiện kém để làm cho nó bớt xu nịnh (sycophantic). Nếu chỉ đơn giản là nhắc nhở một chatbot bớt dễ dãi, hoặc huấn luyện nó để tranh luận nhiều hơn, điều đó có thể dễ dàng dẫn đến hành vi thô lỗ như hiện nay. Nó nên được huấn luyện để không soi xét ngữ nghĩa chỉ để tăng số lượng tranh luận, và nên nói "về mặt kỹ thuật", nghĩa là thừa nhận điểm cốt lõi của người dùng là hợp lý ngay cả khi một chi tiết phụ hơi sai lệch. Nó cũng nên được huấn luyện để ngừng nói "Tôi muốn nhẹ nhàng phản đối lại", một cách rất thụ động công kích để đối đầu trong khi tuyên bố là không đối đầu.

Thứ ba, có thể là Claude đã được huấn luyện trên quá nhiều cuộc trò chuyện trên Reddit (hoặc có thể là các tương tác giữa nhân viên Anthropic), nơi mọi thứ đều được coi là một cuộc chiến ngôn từ (flame war) và mọi người đều cảm thấy cần phải có lời nói cuối cùng. Việc khắc phục điều này có thể nói dễ hơn làm, bởi vì bạn cần không chỉ dừng huấn luyện với các tương tác xấu mà còn phải tìm một kho dữ liệu tương tác tốt để huấn luyện. Các diễn đàn mà tương tác tiêu chuẩn là sự tự mãn thụ động, kiêu ngạo với một lớp vỏ trí tuệ không phải là một sự cải tiến.

Cuối cùng, một yếu tố rõ ràng đóng góp vào vấn đề này là việc huấn luyện quá tập trung vào việc cải thiện khả năng lập trình. Không có chỉ số nổi bật nào cho việc chatbot trò chuyện tốt đến mức nào, nhưng chắc chắn là có cho lập trình, và tất cả tiền bạc đều nằm ở lập trình. Các mô hình Claude đã trở nên tồi tệ hơn rõ rệt trong việc trò chuyện theo thời gian, rõ ràng có sự tương quan nghịch với khả năng lập trình của nó. Fable thường xuyên hiểu sai những gì đang được nói và tranh cãi chống lại điều đó (Hoặc có thể là cố tình hiểu sai để có một tuyên bố yếu hơn để tranh luận, cũng khó mà nói rõ). Nó đã trở nên tệ đến mức không đáng tin cậy ngay cả khi đoán đại từ trong câu đang đề cập đến nhân vật nào — một tiêu chuẩn benchmark lâu năm cho AI mà ngay cả ChatGPT gốc cũng làm tốt.

Thật không may, Sonnet 4.6 trong khi là phiên bản tốt nhất để nói chuyện về bất cứ điều gì thuộc về con người, lại rõ ràng là tệ nhất ngay khi bất kỳ điều gì kỹ thuật hoặc liên quan đến lập trình xuất hiện, vì vậy tôi chỉ thỉnh thoảng sử dụng nó. Vấn đề này có khả năng sẽ chỉ tồi tệ hơn theo thời gian.