Giới thiệu Agora-1: Mô hình thế giới đa tác nhân tương tác thời gian thực

Agora-1 là mô hình thế giới đầu tiên cho phép nhiều người tham gia, bao gồm cả con người và AI, tương tác trong cùng một môi trường mô phỏng theo thời gian thực. Hệ thống này hoạt động như một engine game được học hoàn toàn, mở ra cánh cửa mới cho nghiên cứu robot, game và trí tuệ nhân tạo tổng quát.

Hôm nay, chúng tôi rất hào hứng giới thiệu Agora-1, mô hình tiên phong trong dòng sản phẩm mô hình thế giới đa tác nhân (multi-agent world models). Agora-1 khám phá cách các mô hình thế giới có thể tạo ra những trải nghiệm chia sẻ mạnh mẽ mới trong nhiều lĩnh vực như gaming, robotics, quốc phòng, giáo dục và các mô hình nền tảng (foundation models).

Trước đây, các mô hình thế giới thường bị giới hạn ở một người tham gia duy nhất trong thế giới ảo. Với Agora-1, giới hạn này đã bị phá vỡ, cho phép nhiều người tham gia—con người hoặc AI—chia sẻ và tương tác trong cùng một mô phỏng thế giới theo thời gian thực.

Mô phỏng môi trường game trong Agora-1

Mô phỏng đa tác nhân và kiến trúc "Learned Game Engine"

Để kiểm tra khả năng của mô hình đa tác nhân, đội ngũ phát triển tại Odyssey đã chọn GoldenEye—một tựa game kinh điển—làm môi trường thử nghiệm. Games từ lâu đã là môi trường hữu ích cho nghiên cứu AI, từ Atari, Minecraft đến StarCraft.

Agora-1 cho phép tối đa bốn người chơi tương tác trong cùng một thế giới được tạo ra theo thời gian thực. Những người chơi này được kết nối vào một mô phỏng "deathmatch" chung, nơi mọi người tham gia đều tương tác với cùng một thế giới được tạo ra đồng thời. Mọi trải nghiệm bạn nhìn thấy đều do Agora-1 tạo ra tức thì; mô hình này mô phỏng các tương tác của người chơi từ hành động của họ, duy trì trạng thái thế giới chia sẻ giữa các người tham gia và truyền phát các điểm ảnh đã tạo đến mọi người chơi cùng lúc. Về bản chất, Agora-1 hoạt động như một engine game được "học" (learned game engine).

Tách biệt mô phỏng và kết xuất

Các mô hình thế giới truyền thống thường kết hợp động lực mô phỏng và kết xuất (rendering) trong một mô hình duy nhất. Tuy nhiên, Agora-1 đi theo một hướng khác bằng cách tách rời (decoupling) hai yếu tố này.

Hệ thống duy trì một trạng thái thế giới chia sẻ rõ ràng giữa các người tham gia. Agora-1 học hai chức năng riêng biệt:

Mô hình trạng thái: Học cách trạng thái thế giới thay đổi theo thời gian để phản hồi hành động của người chơi. Mô hình này được huấn luyện trực tiếp trên trạng thái nội bộ của game (trong trường hợp này là GoldenEye) để nắm bắt các động lực gameplay.
Mô hình kết xuất: Học cách hiển thị trạng thái chia sẻ đó dưới dạng hình ảnh. Điều này được thực hiện bằng cách sử dụng mô hình thế giới dựa trên DiT (Diffusion Transformer) được điều kiện trực tiếp trên trạng thái game chia sẻ.

Sơ đồ kiến trúc Agora-1

Bạn có thể hình dung sự tách biệt này tương tự như cấu trúc của một engine game hiện đại, nhưng khác biệt ở chỗ cả hai thành phần đều là hệ thống được học hoàn toàn. Chúng không dựa vào logic gameplay hay quy tắc kết xuất được mã hóa cứng (hard-coded), mà thay vào đó học trực tiếp từ dữ liệu.

Ứng dụng trong Học tăng cường (Reinforcement Learning)

Agora-1 không chỉ hữu ích cho game mà còn là một môi trường quan trọng cho nghiên cứu Học tăng cường (Reinforcement Learning - RL). Sự tiến bộ hướng tới các tác nhân tổng quát hơn ngày càng bị kìm hãm bởi các trải nghiệm có sẵn trong quá trình huấn luyện.

Các mô hình thế giới truyền thống chỉ hỗ trợ một người tham gia duy nhất, giới hạn các loại môi trường RL mà chúng có thể hỗ trợ. Agora-1 loại bỏ hạn chế về tác nhân đơn lẻ này. Khi số lượng người tham gia tăng lên, không gian tương tác chung tăng lên theo cấp số nhân. Điều này cho phép xuất hiện các hành vi mới như va chạm, chuyển động phối hợp, mục tiêu tranh giành và các hành vi nổi lên khác.

Học tăng cường đa tác nhân cung cấp một cơ chế có thể mở rộng để tạo ra dữ liệu còn thiếu này thông qua tương tác mở. Theo thời gian, các tác nhân và mô hình thế giới có thể cùng tiến hóa (co-evolve), liên tục đẩy lẫn nhau vào các chế độ ngày càng khó khăn hơn.

Tương lai của các hệ thống tương tác

Kiến trúc đằng sau Agora-1 không bị giới hạn ở trò chơi. Nhiều hệ thống trong thế giới thực yêu cầu nhiều tác nhân hoạt động trong cùng một môi trường chia sẻ. Robot hợp tác (collaborative robotics) là một ví dụ điển hình, nơi các robot phải cùng suy luận về hành động, không gian và tương tác với nhau.

Chúng tôi tin rằng các mô hình thế giới đa tác nhân mở ra cánh cửa cho một lớp hệ thống tương tác hoàn toàn mới. Agora-1 là một bản xem trước nghiên cứu sớm, nhưng nó chỉ hướng tới một tương lai nơi các mô hình thế giới có thể hỗ trợ tương tác chia sẻ, gameplay nổi lên, robot hợp tác và các tác nhân học hỏi cùng nhau bên trong các thế giới mô phỏng.