Nvidia ra mắt Cosmos 3: Mô hình nền tảng AI vật lý mã nguồn mở cho robot và xe tự lái

Nvidia đã công bố Cosmos 3, một mô hình nền tảng tiên tiến cho AI vật lý kết hợp khả năng suy luận vật lý, tạo thế giới và tạo hành động trong một mô hình duy nhất. Phiên bản này bao gồm các biến thể Nano và Super, được mã nguồn mở hoàn toàn cùng các bộ dữ liệu mới để hỗ trợ phát triển robot, xe tự lái và các giải pháp giám sát tự động.

Nvidia vừa chính thức giới thiệu Cosmos 3, một mô hình nền tảng (foundation model) thế hệ mới dành cho AI vật lý (Physical AI). Đây là bước tiến quan trọng giúp các hệ thống như robot, xe tự lái và không gian thông minh có thể hiểu rõ hơn về thế giới thực, dự đoán các sự kiện tiếp theo và đưa ra hành động phù hợp.

Điểm nổi bật nhất của Cosmos 3 là việc Nvidia mở nguồn hoàn toàn các mô hình, kịch bản đào tạo, công cụ triển khai và bộ dữ liệu. Điều này nhằm mục đích thúc đẩy sự phát triển cởi mở và có thể tái tạo trong lĩnh vực AI vật lý, giúp các kỹ sư và nhà nghiên cứu dễ dàng tiếp cận công nghệ hàng đầu này.

Kiến trúc Mixture-of-Transformers (MoT)

Khác với các phiên bản trước tách biệt khả năng tạo thế giới và hiểu biết vật lý, Cosmos 3 thống nhất các khả năng này trong một kiến trúc Mixture-of-Transformers với hai tháp chính:

Tháp Reasoner (Suy luận): Đây là một mô hình ngôn ngữ thị giác (VLM) có nhiệm vụ diễn giải các quan sát đa phương thức như hình ảnh, video và văn bản. Nó sử dụng kiến trúc tự hồi quy để hiểu chuyển động, tương tác vật thể và bối cảnh vật lý, đóng vai trò là "bộ não" suy luận về thế giới trước khi bất kỳ quá trình tạo sinh nào diễn ra.
Tháp Generator (Tạo sinh): Tháp này chịu trách nhiệm tạo ra các quan sát trong tương lai và chuỗi hành động. Sử dụng quy trình dựa trên khuếch tán (diffusion-based), nó tạo ra video và hành động đầu ra có nhận thức về vật lý, được điều kiện hóa bởi sự hiểu biết từ tháp Reasoner.

Kiến trúc này cho phép một mô hình duy nhất thực hiện cả nhiệm vụ suy luận và tạo sinh, giúp đơn giản hóa quy trình phát triển bằng cách loại bỏ sự phối hợp phức tạp giữa nhiều mô hình và đường ống suy luận (inference pipeline) khác nhau.

Hai phiên bản: Nano và Super

Nvidia cung cấp hai tùy chọn mô hình để phù hợp với nhu cầu và phần cứng khác nhau:

Cosmos 3 Nano: Phiên bản nhỏ gọn với 16 tỷ tham số, được tối ưu hóa cho suy luận hiệu quả. Mô hình này được thiết kế để chạy trên máy trạm (workstation) như GPU NVIDIA RTX PRO 6000, phù hợp cho các ứng dụng suy luận robot theo thời gian thực.
Cosmos 3 Super: Phiên bản lớn với 64 tỷ tham số, hướng đến chất lượng và khả năng tối đa. Mô hình này đạt điểm số cao nhất trong các benchmark và được triển khai tại trung tâm dữ liệu sử dụng GPU NVIDIA Hopper và Blackwell, lý tưởng cho việc tạo dữ liệu tổng hợp quy mô lớn và các khối lượng công việc suy luận vật lý phức tạp.

Bộ dữ liệu mở và Khung đánh giá mới

Cùng với Cosmos 3, Nvidia cũng mã nguồn mở sáu bộ dữ liệu tạo dữ liệu tổng hợp (SDG) trên Hugging Face. Các bộ dữ liệu này bao gồm các cảnh robot hiện thân, tương tác vật lý, suy luận không gian, con người kỹ thuật số, kịch bản lái xe tự động và hoạt động nhà kho.

Ngoài ra, Nvidia giới thiệu khung đánh giá NVIDIA Cosmos Human Evaluation (HUE). Khi các mô hình tạo video hiện đại đã đạt điểm gần như tối đa trên các bảng xếp hạng tự động, HUE chuyển đổi việc đánh giá từ chấm điểm chủ quan sang xác minh sự kiện khách quan. Điều này cho phép so sánh chi tiết giữa các mô hình hàng đầu dựa trên các câu hỏi có/không về sự liên kết ngữ nghĩa, định luật vật lý, suy luận hình học và tính toàn vẹn thị giác.

Triển khai và Tối ưu hóa với NIM

Cosmos 3 được cung cấp dưới dạng NVIDIA NIM microservices để triển khai sản xuất sẵn sàng và tối ưu hóa. Các vi dịch vụ này đóng gói mô hình với thời gian chạy suy luận tối ưu, mang lại hiệu suất cao mà không cần tinh chỉnh cơ sở hạ tầng thủ công.

Các kỹ thuật tối ưu hóa tốc độ suy luận bao gồm:

Lượng tử hóa (Quantization): Hỗ trợ các checkpoint BF16, FP8 hoặc NVFP4. NVFP4 giảm độ chính xác số xuống 4-bit, giúp tăng tốc độ suy luận lên gấp đôi.
vLLM: Sử dụng các kỹ thuật như batching liên tục, chú ý trang (paged attention) và song song tensor để phục vụ LLM hiệu quả hơn.
EVS (Efficient Video Sampling): Giảm số lượng token video đưa vào VLM trong quá trình suy luận, giúp tăng tốc, đặc biệt hữu ích cho các GPU nhỏ hơn.

Để bắt đầu với Cosmos 3 Nano Reasoner NIM, người dùng có thể sử dụng lệnh Docker sau (yêu cầu khóa API NGC):

docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest

Các nhà phát triển có thể tải xuống checkpoint Cosmos 3 Nano và Super trên Hugging Face, tìm thấy mã nguồn và ví dụ trên GitHub, và tham gia cộng đồng để đóng góp vào hệ sinh thái Cosmos đang phát triển mạnh mẽ này.