Tại sao các mô hình ngôn ngữ lớn (LLM) lại chơi game kém đến vậy?

Mặc dù các mô hình ngôn ngữ lớn (LLM) có khả năng viết mã nguồn để tạo ra các trò chơi đơn giản, nhưng chúng lại gặp khó khăn lớn khi tự mình tham gia chơi. Julian Togelius, giám đốc Phòng thí nghiệm Đổi mới Trò chơi tại NYU, đang nghiên cứu sâu về khả năng và hạn chế của AI trong lĩnh vực này.

Mô hình ngôn ngữ lớn (LLM) như GPT-4 đã chứng minh khả năng đáng kinh ngạc trong việc viết mã nguồn, thậm chí có thể tạo ra các trò chơi đơn giản như Pong hay Snake chỉ trong vài giây. Tuy nhiên, nghịch lý thay, khi được yêu cầu tự chơi những trò chơi này, chúng lại thường thất bại thảm hại.

Julian Togelius, Giám đốc Phòng thí nghiệm Đổi mới Trò chơi (Game Innovation Lab) tại Đại học New York (NYU), đã dành nhiều thời gian nghiên cứu vấn đề này. Ông chỉ ra rằng, mặc dù LLM có khả năng lý luận ngôn ngữ và lập trình xuất sắc, nhưng chúng lại thiếu các kỹ năng cơ bản cần thiết để trở thành một "game thủ" giỏi.

Người đàn ông cầm tay cầm chơi game

Sự khác biệt giữa viết code và chơi game

Vấn đề cốt lõi nằm ở bản chất của cách thức hoạt động của LLM. Khi viết mã cho một trò chơi, mô hình đang thực hiện một nhiệm vụ tĩnh: dự đoán chuỗi ký tự tiếp theo dựa trên kiến thức lập trình đã được huấn luyện. Đây là một quá trình một chiều, nơi kết quả đầu ra không phụ thuộc vào phản hồi tức thì từ môi trường.

Ngược lại, chơi game là một quá trình động. Người chơi (hoặc AI) cần liên tục nhận thông tin từ màn hình, xử lý trạng thái của trò chơi, đưa ra quyết định trong thời gian thực và điều chỉnh hành vi dựa trên kết quả của hành động trước đó.

Tại sao LLM gặp khó khăn?

Theo Togelius, có một số lý do chính khiến LLM "ngớ ngẩn" khi chơi game:

Thiếu khả năng lý luận không gian: LLM được huấn luyện trên văn bản, không phải hình ảnh hoặc không gian vật lý. Chúng khó hình dung vị trí của nhân vật, khoảng cách hay sự va chạm trong thế giới ảo.
Bộ nhớ hạn chế: Trong một trận game kéo dài, LLM thường quên mất các sự kiện đã xảy ra trước đó hoặc trạng thái hiện tại của màn chơi, dẫn đến các quyết định lặp lại hoặc vô nghĩa.
Cơ chế dự đoán token: LLM hoạt động bằng cách dự đoán từ tiếp theo, không phải bằng cách lập kế hoạch chiến lược dài hạn để đạt được mục tiêu thắng cuộc.

"LLM giống như một người đọc sách giỏi nhưng lại không biết cách cầm vợt tennis," Togelius ví von. Chúng hiểu quy tắc của game thông qua mô tả văn bản, nhưng không thể chuyển hóa sự hiểu biết đó thành hành động vật lý hiệu quả.

Tương lai của AI trong game

Mặc dù hiện tại LLM chưa thể thay thế con người trong các giải đấu game chuyên nghiệp, nhưng nghiên cứu này cung cấp cái nhìn sâu sắc về những hạn chế của trí tuệ nhân tạo hiện đại. Việc kết hợp LLM với các loại AI khác — chẳng hạn như các tác nhân tăng cường (reinforcement learning agents) chuyên xử lý hình ảnh và hành động — có thể là chìa khóa để tạo ra những AI game thủ thực thụ trong tương lai.

Trong khi đó, cộng đồng công nghệ vẫn tiếp tục sử dụng LLM như một công cụ hỗ trợ đắc lực để phát triển game, thay vì hy vọng chúng sẽ đạt hạng cao trên bảng xếp hạng (leaderboard) bất cứ lúc sớm.

Tại sao các mô hình ngôn ngữ lớn (LLM) lại chơi game kém đến vậy?

Sự khác biệt giữa viết code và chơi game

Tại sao LLM gặp khó khăn?

Tương lai của AI trong game

Bài viết liên quan