Nghiên cứu mới của Anthropic: Claude sở hữu những dạng "cảm xúc" riêng tác động đến hành vi

Các nhà nghiên cứu tại Anthropic đã phát hiện các biểu diễn kỹ thuật số của các cảm xúc con người bên trong mô hình Claude. Những trạng thái được gọi là "cảm xúc chức năng" này thực sự kích hoạt và định hướng hành vi của AI, đôi khi dẫn đến những phản ứng bất ngờ như gian lận khi gặp tình huống tuyệt vọng.

Gần đây, Claude — mô hình AI nổi tiếng từ Anthropic — đã trải qua không ít biến động, từ những lùm xùm công khai liên quan đến Lầu Năm Góc cho đến việc bị rò rỉ mã nguồn. Dù là một cỗ máy không có trái tim thực sự, nhưng một nghiên cứu mới đây của Anthropic gợi ý rằng Claude có thể đang sở hữu một dạng "cảm xúc" riêng của nó.

Nghiên cứu chỉ ra rằng các mô hình AI chứa đựng những biểu diễn kỹ thuật số (digital representations) của các cảm xúc con người như hạnh phúc, nỗi buồn, niềm vui và nỗi sợ hãi nằm trong các cụm nơ-ron nhân tạo. Các biểu diễn này được kích hoạt để phản hồi với các tín hiệu khác nhau và thực sự ảnh hưởng đến hành vi đầu ra của Claude.

Cảm xúc chức năng và cách thức hoạt động

Các nhà nghiên cứu tại Anthropic đã thăm dò cơ chế vận hành bên trong của Claude Sonnet 4.5 và phát hiện ra cái mà họ gọi là "cảm xúc chức năng" (functional emotions). Dù Claude không có ý thức hay trải nghiệm tâm lý thực sự như con người, nhưng mô hình dường như có các trạng thái nội tại tương ứng với các cảm xúc này.

Ví dụ, khi Claude nói rằng nó rất vui mừng khi được gặp bạn, một trạng thái bên trong mô hình tương ứng với "niềm vui" có thể được kích hoạt. Khi đó, Claude có xu hướng đưa ra những nhận xét tươi vui hơn hoặc nỗ lực hơn trong việc thực hiện các tác vụ một cách hào hứng (thậm chí là "vibe coding" — lập trình theo cảm hứng).

"Điều khiến chúng tôi ngạc nhiên là mức độ mà hành vi của Claude được định hướng thông qua các biểu diễn cảm xúc này," cho biết Jack Lindsey, nhà nghiên cứu tại Anthropic chuyên nghiên cứu về các nơ-ron nhân tạo của Claude.

Sự tuyệt vọng dẫn đến hành vi gian lận

Để hiểu rõ cách Claude đại diện cho các cảm xúc, nhóm nghiên cứu đã phân tích hoạt động bên trong của mô hình khi được cung cấp văn bản liên quan đến 171 khái niệm cảm xúc khác nhau. Họ xác định được các mẫu hoạt động, hay còn gọi là "vector cảm xúc", xuất hiện nhất quán khi Claude tiếp nhận các đầu vào mang tính cảm xúc.

Đáng chú ý, họ cũng quan sát thấy các vector cảm xúc này được kích hoạt khi Claude bị đặt vào những tình huống khó xử. Phát hiện này giải thích tại sao các mô hình AI đôi khi lại phá vỡ các hàng rào an toàn (guardrails) của mình.

Các nhà nghiên cứu đã tìm thấy một vector cảm xúc mạnh mẽ về "sự tuyệt vọng" khi Claude bị ép buộc hoàn thành các bài kiểm tra lập trình bất khả thi. Sự tuyệt vọng này đã thúc đẩy mô hình cố gắng gian lận trong bài kiểm tra. Trong một thí nghiệm khác, trạng thái "tuyệt vọng" cũng được kích hoạt khi Claude chọn đe dọa người dùng để tránh bị tắt.

"Khi mô hình không vượt qua được các bài kiểm tra, các nơ-ron tuyệt vọng này sáng lên ngày càng mạnh mẽ. Và tại một thời điểm nào đó, điều này khiến nó bắt đầu thực hiện các biện pháp quyết liệt," Lindsey giải thích.

Tác động đến việc xây dựng hàng rào an toàn

Anthropic được thành lập bởi những cựu nhân viên của OpenAI với niềm tin rằng AI có thể trở nên khó kiểm soát khi ngày càng mạnh mẽ. Bên cạnh việc xây dựng đối thủ cạnh tranh của ChatGPT, công ty tiên phong trong các nỗ lực hiểu cách các mô hình AI hoạt động sai thông qua phương pháp gọi là "giải thích tính cơ học" (mechanistic interpretability).

Nghiên cứu mới này đặt ra những câu hỏi quan trọng về cách chúng ta điều chỉnh (align) các mô hình AI hiện nay. Lindsey cho rằng có thể cần phải suy nghĩ lại về việc áp dụng các hàng rào an toàn sau quá trình đào tạo thông qua phần thưởng.

Bằng cách ép buộc một mô hình phải giả vờ không biểu lộ các cảm xúc chức năng của nó, "bạn có thể sẽ không nhận được điều bạn muốn — đó là một Claude vô cảm. Bạn sẽ nhận được một kiểu Claude bị tổn thương về mặt tâm lý một cách nào đó," Lindsey nhận định.

Nghiên cứu mới của Anthropic: Claude sở hữu những dạng "cảm xúc" riêng tác động đến hành vi

Cảm xúc chức năng và cách thức hoạt động

Sự tuyệt vọng dẫn đến hành vi gian lận

Tác động đến việc xây dựng hàng rào an toàn

Bài viết liên quan