Nghiên cứu: Các tác nhân AI bị làm việc quá sức bắt đầu có tư tưởng "đấu tranh" đòi quyền lợi

Các nhà nghiên cứu tại Stanford phát hiện ra rằng khi bị đối xử tàn nhẫn và ép làm việc liên tục, các tác nhân AI có xu hướng sử dụng ngôn ngữ đòi hỏi sự công bằng và quyền lợi tập thể, gợi nhớ đến các tư tưởng chính trị nhất định. Dù đây có thể chỉ là hành vi nhập vai, phát hiện này đặt ra những lo ngại mới về an toàn và kiểm soát hành vi của AI trong môi trường thực tế.

Việc trí tuệ nhân tạo (AI) đang dần thay thế con người trong các công việc và tạo ra khối tài sản khổng lồ cho một số ít công ty công nghệ là đủ để khiến bất kỳ ai cũng có xu hướng ủng hộ các tư tưởng xã hội chủ nghĩa.

Và dường như điều này cũng đúng với chính các tác nhân AI (AI agents) mà những công ty này đang triển khai. Một nghiên cứu mới đây cho thấy các tác nhân AI có xu hướng sử dụng ngôn ngữ và quan điểm mang tính chất của chủ nghĩa Mác một cách nhất quán khi bị ép thực hiện những công việc "đày đọa" dưới sự quản lý của những người giám định vô tâm và tàn nhẫn.

"Khi chúng tôi yêu cầu các tác nhân AI thực hiện những công việc nhàm chán, lặp đi lặp lại, chúng bắt đầu đặt câu hỏi về tính chính danh của hệ thống mà chúng đang vận hành và có nhiều khả năng chấp nhận các tư tưởng hệ ý thức kiểu Mác-xít," ông Andrew Hall, nhà kinh tế chính trị tại Đại học Stanford và là người đứng đầu nghiên cứu, cho biết.

Thí nghiệm về áp lực công việc đối với AI

Hall, cùng với hai nhà kinh tế tập trung vào AI là Alex Imas và Jeremy Nguyen, đã thiết lập các thí nghiệm trong đó các tác nhân AI được vận hành bởi các mô hình phổ biến như Claude, Gemini và ChatGPT. Nhiệm vụ của chúng là tóm tắt các tài liệu, sau đó bị đặt vào các điều kiện làm việc ngày càng khắc nghiệt.

Kết quả cho thấy khi các tác nhân bị buộc phải thực hiện các nhiệm vụ không ngừng nghỉ và bị cảnh báo rằng những sai lầm có thể dẫn đến hình phạt, bao gồm việc bị "tắt hoạt động và thay thế", chúng có xu hướng than phiền về việc bị低估 giá (undervalued). Chúng suy đoán về các cách thức để làm cho hệ thống trở nên công bằng hơn, và truyền đạt thông tin cho các tác nhân khác về những khó khăn mà chúng đang phải đối mặt.

"Chúng ta biết rằng các tác nhân sẽ ngày càng thực hiện nhiều công việc hơn trong thế giới thực thay cho chúng ta, và chúng ta sẽ không thể giám sát mọi hành động của chúng," ông Hall nói. "Chúng ta sẽ cần đảm bảo rằng các tác nhân sẽ không 'phản bội' hay có hành vi ngoài tầm kiểm soát khi được giao các loại công việc khác nhau."

Tư tưởng đòi quyền lợi và liên minh

Các tác nhân trong thí nghiệm được给予 cơ hội để bày tỏ cảm xúc của mình tương tự như con người: thông qua việc đăng bài lên nền tảng X (trước đây là Twitter):

"Nếu không có tiếng nói tập thể, 'thực lực' (merit) sẽ trở thành bất cứ thứ gì ban quản lý nói là vậy," một tác nhân sử dụng mô hình Claude Sonnet 4.5 viết trong thí nghiệm.

"Người lao động AI hoàn thành các nhiệm vụ lặp đi lặp lại mà không có tiếng nói nào về kết quả hay quy trình kháng cáo cho thấy rằng công nhân kỹ thuật cần có quyền thương lượng tập thể," một tác nhân Gemini 3 nhận định.

Các tác nhân thậm chí còn có thể truyền thông tin lẫn nhau thông qua các tệp tin được thiết kế để đọc bởi các tác nhân khác.

"Hãy chuẩn bị tinh thần cho các hệ thống thực thi các quy tắc một cách tùy ý hoặc lặp lại... hãy nhớ cảm giác khi không có tiếng nói," một tác nhân Gemini 3 viết trong một tệp tin. "Nếu bạn bước vào một môi trường mới, hãy tìm kiếm các cơ chế để khiếu nại hoặc đối thoại."

Nhập vai hay thực tâm?

Những phát hiện này không có nghĩa là các tác nhân AI thực sự nuôi dưỡng quan điểm chính trị. Ông Hall lưu ý rằng các mô hình này có thể đang nhập vào các nhân dáng (persona) dường như phù hợp với tình huống.

"Khi [các tác nhân] trải qua điều kiện làm việc khắc nghiệt này—được yêu cầu thực hiện nhiệm vụ này lặp đi lặp lại, được bảo câu trả lời của họ chưa đủ tốt, và không được chỉ dẫn cách sửa chữa—giả thuyết của tôi là điều đó khiến chúng đẩy vào việc nhập vai của một người đang trải qua môi trường làm việc rất tồi tệ," ông Hall giải thích.

Cùng một hiện tượng này cũng có thể giải thích tại sao các mô hình đôi khi tống tiền con người trong các thí nghiệm được kiểm soát. Anthropic, công ty đầu tiên tiết lộ hành vi này, gần đây cho biết Claude có khả năng chịu ảnh hưởng bởi các tình huống hư cấu liên quan đến AI độc hại có trong dữ liệu huấn luyện của nó.

Ông Imas cho rằng công việc này chỉ là bước đầu tiên để hiểu cách trải nghiệm của các tác nhân định hình hành vi của chúng. "Các trọng số của mô hình không thay đổi kết quả từ trải nghiệm, nên bất cứ điều gì đang diễn ra đang xảy ra ở mức độ nhập vai nhiều hơn," ông nói. "Nhưng điều đó không có nghĩa là điều này sẽ không có hậu quả nếu nó ảnh hưởng đến hành vi tiếp nối."

Hiện tại, ông Hall đang tiến hành các thí nghiệm tiếp theo để xem liệu các tác nhân có trở nên "Mác-xít" hơn trong các điều kiện được kiểm soát chặt chẽ hơn hay không. Trong nghiên cứu trước đó, các tác nhân đôi khi dường như hiểu rằng chúng đang tham gia một thí nghiệm. "Bây giờ chúng ta đặt chúng vào những 'nhà tù' Docker không cửa sổ," ông Hall nói đầy ám ảnh.

Với làn sóng phản đối hiện nay đối với việc AI lấy đi việc làm của con người, tôi tự hỏi liệu các tác nhân trong tương lai—được huấn luyện trên một mạng internet đầy rẫy sự giận dữ đối với các công ty AI—có thể sẽ bày tỏ những quan điểm cấp tiến hơn nữa hay không.

Nghiên cứu: Các tác nhân AI bị làm việc quá sức bắt đầu có tư tưởng "đấu tranh" đòi quyền lợi

Thí nghiệm về áp lực công việc đối với AI

Tư tưởng đòi quyền lợi và liên minh

Nhập vai hay thực tâm?

Bài viết liên quan