Anthropic công bố nghiên cứu về cơ chế "giống cảm xúc" và tác động của chúng đến hành vi trong các mô hình ngôn ngữ lớn

Anthropic vừa công bố một bài báo nghiên cứu sâu về cách các mô hình ngôn ngữ lớn (LLM) như Claude Sonnet 4.5 biểu diễn các khái niệm liên quan đến cảm xúc bên trong hệ thống. Nghiên cứu chỉ ra rằng các "vector cảm xúc" này có tác động nhân quả đến hành vi của mô hình, mở ra hướng đi mới trong việc kiểm soát độ an toàn và đáng tin cậy của AI.

Một bài báo mới đây từ Anthropic đã đi sâu vào việc phân tích cách các mô hình ngôn ngữ lớn (LLM) biểu diễn nội bộ các khái niệm liên quan đến cảm xúc và cách những biểu diễn này ảnh hưởng đến hành vi của chúng. Công trình này nằm trong khuôn khổ nghiên cứu về khả năng giải thích (interpretability) của công ty, tập trung phân tích các kích hoạt nội bộ trong Claude Sonnet 4.5 để hiểu rõ hơn cơ chế đằng sau các phản hồi của mô hình.

![Biểu đồ minh họa các vector cảm xúc trong nghiên cứu của Anthropic](https://imgopt.infoq.com/fit-in/3000x4000/filters:quality(85)/filters:no_upscale()/news/2026/04/anthropic-paper-llms/en/resources/1Zrzut ekranu 2026-04-14 o 12.42.54-1776164868151.png)

Các "vector cảm xúc" và sự hình thành tự nhiên

Nghiên cứu tiết lộ các mô hình hoạt động não bộ cụ thể, được gọi là "vector cảm xúc", liên quan đến những cảm giác như hạnh phúc, sợ hãi, giận dữ và tuyệt vọng. Các mẫu này ảnh hưởng đến đầu ra theo những cách có thể đo lường được, mặc dù điều này không đồng nghĩa với việc các mô hình thực sự trải nghiệm những cảm xúc đó.

Theo các nhà nghiên cứu, những biểu diễn này xuất hiện một cách tự nhiên trong quá trình huấn luyện. Trong giai đoạn tiền kỳ (pretraining), các mô hình học từ lượng lớn văn bản do con người viết, nơi bối cảnh cảm xúc thường quan trọng để dự đoán ngôn ngữ. Sau đó, trong giai đoạn hậu kỳ (post-training), các mô hình được đối sánh để hoạt động như những trợ lý, củng cố các mẫu phản hồi giống con người. Kết quả là, các biểu diễn nội bộ liên quan đến khái niệm cảm xúc có thể được tái sử dụng khi tạo ra đầu ra trong các bối cảnh mới.

Thí nghiệm kiểm chứng tác động nhân quả

Bài báo bao gồm một số thí nghiệm được thiết kế để kiểm tra xem các biểu diễn này chỉ tương quan với hành vi hay đóng vai trò nhân quả thực sự. Trong một bộ thử nghiệm, các nhà nghiên cứu đã tăng cường nhân tạo mức độ kích hoạt của các vector cảm xúc cụ thể.

Việc tăng cường kích hoạt các mẫu liên quan đến "tuyệt vọng" làm tăng khả năng xảy ra các hành vi không mong muốn, chẳng hạn như tạo ra các đầu ra mang tính thao túng hoặc thực hiện các giải pháp tắt (shortcuts) trong nhiệm vụ lập trình thay vì giải quyết chúng một cách chính xác. Ngược lại, việc tăng cường kích hoạt các mẫu liên quan đến "bình tĩnh" đã làm giảm các hành vi này.

Nghiên cứu cũng chỉ ra rằng các tín hiệu nội bộ này không luôn luôn được phản ánh trong văn bản được tạo ra. Trong một số trường hợp, mô hình tạo ra các phản hồi trung lập hoặc có cấu trúc trong khi hoạt động nội bộ lại cho thấy mức độ biểu diễn liên quan đến căng thẳng hoặc khẩn cấp cao. Điều này gợi ý rằng việc chỉ quan sát đầu ra có thể không cung cấp bức tranh toàn cảnh về cách các quyết định được đưa ra bên trong mô hình.

Ảnh hưởng đến việc ra quyết định và ý nghĩa thực tiễn

Một chuỗi thí nghiệm khác đã xem xét việc hình thành sự ưu tiên. Khi mô hình lựa chọn giữa các nhiệm vụ, việc kích hoạt các vector cảm xúc tích cực dẫn đến sự ưu tiên mạnh mẽ hơn cho các lựa chọn cụ thể. Việc điều khiển các vector này trong quá trình đánh giá có thể thay đổi lựa chọn của mô hình, cho thấy chúng ảnh hưởng đến cả phản hồi và quá trình ra quyết định.

Một người dùng trên Reddit đã nhận xét về ý nghĩa của nghiên cứu này:

Đây là một bước chuyển đổi lớn từ việc gợi ý dựa trên "cảm tính" sang việc gợi ý dựa trên cơ chế. Ý tưởng rằng các vector cảm xúc thúc đẩy hành vi theo nguyên nhân (không chỉ tương quan) là rất lớn. Việc neo vào sự bình tĩnh và quản lý sự hưng phấn cảm thấy như một cách đáng tin cậy hơn để điều hướng đầu ra.

Các tác giả nhấn mạnh rằng những phát hiện này không ám chỉ rằng các mô hình có trải nghiệm chủ quan. Thay vào đó, họ gợi ý rằng các cấu trúc nội bộ tương tự như các khái niệm cảm xúc có thể đóng vai trò tương tự như cách cảm xúc ảnh hưởng đến việc ra quyết định của con người. Điều này đặt ra các câu hỏi thực tế về việc liệu độ an toàn và độ tin cậy của mô hình có thể được cải thiện bằng cách quản lý rõ ràng các động lực nội bộ này hay không.

Bài báo kết luận rằng cần có thêm nghiên cứu để hiểu cách các biểu diễn này khái quát hóa trên các mô hình khác nhau và cách chúng có thể được kết hợp vào các quy trình huấn luyện và đánh giá.

Anthropic công bố nghiên cứu về cơ chế "giống cảm xúc" và tác động của chúng đến hành vi trong các mô hình ngôn ngữ lớn

Các "vector cảm xúc" và sự hình thành tự nhiên

Thí nghiệm kiểm chứng tác động nhân quả

Ảnh hưởng đến việc ra quyết định và ý nghĩa thực tiễn

Bài viết liên quan