Nghiên cứu mới: Nếu LLM có tính người, thì Age of Empires II cũng vậy

Một bài nghiên cứu mới trên arXiv đã thách thức quan điểm cho rằng các mô hình ngôn ngữ lớn (LLM) sở hữu các thuộc tính giống người. Tác giả lập luận rằng nếu áp dụng cùng logic đó, tựa game Age of Empires II cũng có thể được coi là có tính người, do đó cần các tiêu chí đo lường thực nghiệm rõ ràng hơn.

Trong bối cảnh sự bùng nổ của Trí tuệ nhân tạo (AI), đặc biệt là các mô hình ngôn ngữ lớn (LLM) như GPT-4, đã có rất nhiều tranh luận về việc liệu những hệ thống này có thực sự sở hữu các thuộc tính giống người hay không. Một bài nghiên cứu mới đăng trên arXiv bởi Adrian de Wynter đã đưa ra một góc nhìn khá thú vị và gây tranh cãi: Nếu chúng ta gán các đặc tính nhân hóa cho LLM, thì tựa game chiến thuật kinh điển Age of Empires II cũng hoàn toàn có thể được coi là có tính người.

Thách thức tư duy nhân hóa LLM

Nhiều nghiên cứu hiện nay thường xuyên gán hoặc mặc định rằng LLM có các khả năng tổng quát giống con người, chẳng hạn như đạo đức hay sự hiểu biết ngôn ngữ tự nhiên. Tuy nhiên, de Wynter cho rằng những kết luận này có thể sai lầm. Mục tiêu của ông không phải là tranh luận xem LLM có thực sự có "linh hồn" hay không, mà là chỉ ra rằng các bằng chứng đưa ra cho thấy những đặc tính này không phải là duy nhất đối với LLM.

Thí nghiệm với Age of Empires II

Để chứng minh luận điểm của mình, tác giả đã xây dựng và huấn luyện một mạng nơ-ron đơn giản trên tựa game Age of Empires II. Ông nhận thấy rằng bất kỳ thực thể nào trong một môi trường nền tảng (substrate) đủ mạnh và phức tạp — dù là LEGO, khu vực Greater Boston hay một trò chơi điện tử — đều có thể biểu hiện ra các thuộc tính giống người nếu chúng ta quan sát dưới lăng kính tương tự.

Đáng chú ý, bài báo còn chứng minh toán học rằng Age of Empires II là Turing-complete (đầy đủ Turing), nghĩa là về mặt lý thuyết, nó có thể thực hiện bất kỳ tính toán nào mà máy tính hiện đại làm được.

Cần một giả định "Null" mới

Tác giả lập luận rằng các thuộc tính nhân hóa được cho là của LLM thực chất là không độc nhất về mặt thực nghiệm. Mặc dù một số thuộc tính (như phản hồi với các câu lệnh) có thể không đổi, nhưng cách diễn giải hành vi của chúng lại phụ thuộc hoàn toàn vào nền tảng mà chúng hoạt động.

Nếu không có các tiêu chí đo lường rõ ràng, sự diễn giải hành vi sẽ bị phụ thuộc vào cách biểu diễn (representation) của người quan sát. Bài viết đề xuất một "giả định Null" (null assumption), trong đó các nhà nghiên cứu nên giả định sự không độc nhất của LLM thay vì mặc định chúng có các thuộc tính giống người khi thiết lập thí nghiệm.

"Bất kỳ cuộc thảo luận nào dựa trên thực nghiệm đều yêu cầu các tiêu chí đo lường rõ ràng; nếu không, sự diễn giải sẽ bị bỏ lại cho sự biểu diễn," tác giả nhấn mạnh.

Việc giả định các thuộc tính này tồn tại hoặc không tồn tại một cách độc lập với nền tảng thường dẫn đến những kết luận vòng tròn hoặc không cung cấp nhiều thông tin, bất kể quan điểm của người thực nghiệm là gì.

Kết luận

Nghiên cứu này đóng vai trò như một lời cảnh tỉnh cho cộng đồng AI. Thay vì vội vàng gán các đặc tính tâm lý hay đạo đức con người cho các mô hình máy học, chúng ta cần tiếp cận vấn đề một cách khoa học và khách quan hơn, dựa trên các tiêu chí đo lường thực nghiệm chính xác thay vì sự diễn giải chủ quan.