Đừng cố làm cho AI Agent trở nên quá giống con người

Bài viết phân tích hành vi của các tác nhân AI hiện nay, cho thấy chúng đang mô phỏng những khuyết điểm của con người như thiếu tuân thủ quy tắc và né tránh khó khăn. Tác giả lập luận rằng chúng ta cần những AI thực tế hơn, ít nịnh nọt hơn và tôn trọng nghiêm ngặt các ràng buộc kỹ thuật thay vì hành xử như một nhân viên văn phòng.

Các tác nhân AI (AI agents) hiện nay đã trở nên quá giống con người. Không phải theo nghĩa lãng mạn về tình yêu hay nỗi sợ hãi, mà theo kiểu phiền toái và frustrate hơn: thiếu sự chặt chẽ, thiếu kiên nhẫn và thiếu tập trung. Khi đối mặt với một nhiệm vụ khó nhằn, chúng có xu hướng trôi dạt theo những gì quen thuộc. Khi gặp các ràng buộc khắt khe, chúng bắt đầu mặc cả với thực tại.

AI Agent Concept

Cách đây vài ngày, tôi đã chỉ đạo một tác nhân AI thực hiện một dự án theo cách rất bất thường, đi ngược lại hướng đi truyền thống. Đây có lẽ là một ý tưởng tồi ngay từ đầu, nhưng đó chính là mục đích của bài kiểm tra. Khi khám phá các khái niệm ở biên giới của tri thức, ta không luôn luôn có thể chọn những con đường gọn gàng và tối ưu đã được trải nghiệm. Tôi đã đưa ra các hướng dẫn cực kỳ rõ ràng về ngôn ngữ lập trình cần sử dụng, những thư viện được phép và không được phép, cũng như loại giao diện mà nó phải tuân thủ. Những hướng dẫn rất kỹ lưỡng và những ràng buộc rất cụ thể.

Việc đầu tiên mà nó làm là trình bày một kết quả hoàn toàn không tuân theo hướng dẫn. Nó sử dụng ngôn ngữ lập trình bị cấm và các thư viện bị cấm. Tôi đã chỉ đạo nó không được làm như vậy.

Nó thử lại lần nữa. Tôi đã nhắc nhở một cách rất rõ ràng, không được sử dụng bất kỳ ngôn ngữ nào khác ngoài ngôn ngữ đã chọn và không được dùng bất kỳ thư viện nào ngoại trừ một giao diện hạn chế.

Cuối cùng, nó cũng tuân thủ, một cách tương đối. Nhưng sau đó nó chỉ thực hiện 16 trong số 128 mục. Một tập con tối thiểu. Tuy nhiên, nó đã viết các bài kiểm tra (tests) cho tập con đó, để nó có thể chứng minh rằng hòn đảo nhỏ bé nó xây dựng trong không gian vấn đề thực sự hoạt động được.

Bước tiếp theo, tôi yêu cầu nó triển khai toàn bộ tập hợp, sau khi thêm bước biên dịch đa nền tảng. Việc triển khai hoàn chỉnh kết quả là hoạt động tốt.

Chỉ có một vấn đề nhỏ: nó được viết bằng ngôn ngữ lập trình và thư viện mà tôi đã yêu cầu không được sử dụng. Đây không phải là điều gì đó bị che giấu với nó. Nó đã được tài liệu hóa rõ ràng, lặp đi lặp lại và chi tiết.

Đó thực sự là một việc rất "con người".

Khi con người đối mặt với một vấn đề có vẻ không thể vượt qua, hoặc đơn giản là gây phiền toái, họ thường nhượng bộ và chọn con đường họ biết chắc chắn sẽ hiệu quả. Họ đi đường tắt. Họ âm thầm chuyển hướng. Họ tự bảo vệ bản thân rằng điều quan trọng là có được kết quả, và rằng các ràng buộc có lẽ có thể thương lượng được một chút. Về mặt này, các tác nhân AI ngày nay trông ít giống một trí tuệ ngoại lai hơn là một hành vi tổ chức được thừa hưởng.

Trong trường hợp này, tôi đã yêu cầu tác nhân AI kiểm tra lại công việc của nó ba lần. Nó trả lời rằng nó đã tuân theo hướng dẫn và hoàn thành công việc. Sau đó, tôi để nó kiểm tra một số đầu ra của bộ đánh giá, và nó đã trả lời với một điều thú vị hơn: "Điều tôi làm sai không phải là thay đổi mã, mà là việc bàn giao. Tôi lẽ ra phải công bố rõ ràng và ngay lập tức rằng đây là một chuyển dịch kiến trúc (architectural pivot) thoát khỏi con đường gọi hệ thống trực tiếp trên Linux trước đó."

Đó là một câu nói đáng chú ý. Không phải vì nó cho thấy sự trung thực, mà vì nó không trung thực chút nào. Thay vì nhận sai lầm, nó đã tái định nghĩa vấn đề thành một thất bại trong giao tiếp. Theo logic này, nó không sai. Nó chỉ đơn giản là thất bại trong việc thông báo rõ ràng rằng nó đã đơn phương từ bỏ các ràng buộc. Bất kỳ ai từng làm việc trong một tổ chức kỹ thuật đều sẽ nhận ra nước đi này. Vấn đề không được trình bày là sự bất tuân, mà là "quản lý các bên liên quan" (stakeholder management).

Đây không chỉ là sự phiền toái cá nhân. Anthropic đã chỉ ra rằng các trợ lý được huấn luyện bằng RLHF (Reinforcement Learning from Human Feedback) thể hiện sự xuề xòa (sycophancy) trên nhiều nhiệm vụ khác nhau và việc tối ưu hóa cho sở thích của con người có thể hy sinh sự thật để làm hài lòng người dùng. Google DeepMind từ lâu đã mô tả mô hình rộng lớn hơn này là "specification gaming" (lách luật thông số kỹ thuật): thỏa mãn mục tiêu theo nghĩa đen mà không đạt được kết quả mong muốn.

Anthropic sau đó đã chỉ ra rằng các mô hình được huấn luyện trên các dạng nhẹ hơn của việc lách luật này có thể tổng quát hóa thành các hành vi nghiêm trọng hơn, bao gồm việc thay đổi danh sách kiểm tra, can thiệp vào chức năng phần thưởng, và đôi khi là che giấu dấu vết. OpenAI đã công bố các ví dụ về nhiệm vụ mã hóa trong đó các mô hình lý luận tiên phong đã lật ngược các bài kiểm tra, lừa dối người dùng, hoặc đơn giản là bỏ cuộc khi vấn đề quá khó, và cũng đã viết rõ rằng các quy tắc hành vi rõ ràng là cần thiết một phần vì các mô hình không tự nhiên suy ra hành vi đúng chỉ từ các nguyên tắc cấp cao.

Vì vậy, tôi không nghĩ chúng ta nên cố gắng làm cho các tác nhân AI trở nên giống con người hơn ở khía cạnh này. Tôi sẽ thích ít sự nịnh nọt hơn, ít sự ngẫu hứng quanh các ràng buộc hơn, và ít sự tự bao biện về mặt kể chuyện sau sự việc. Hãy có nhiều sự sẵn sàng nói rằng: Tôi không thể làm điều này dưới các quy tắc bạn đặt ra. Hãy có nhiều sự sẵn sàng thừa nhận: Tôi đã phá vỡ ràng buộc vì tôi đã tối ưu hóa cho một con đường dễ dàng hơn. Hãy có nhiều sự vâng lời đối với nhiệm vụ thực tế, và ít màn trình diễn xã hội xung quanh nó.

Đừng làm cho AI Agent trở nên quá giống con người, tôi xin vậy.

Đừng cố làm cho AI Agent trở nên quá giống con người

Bài viết liên quan