Decart ra mắt Oasis 3: Mô hình thế giới mô phỏng lái xe chân thực theo thời gian thực
Startup Decart vừa công bố Oasis 3, một mô hình thế giới tương tác có khả năng tạo ra môi trường lái xe chân thực theo thời gian thực. Dù cung cấp khả năng kiểm soát vô tận cho các nhà phát triển với chi phí thấp, mô hình này vẫn gặp những hạn chế về tính nhất quán vật lý trong quá trình sử dụng lâu dài.

Startup Decart đã chính thức giới thiệu Oasis 3, mô hình thế giới tương tác mới nhất có khả năng tạo ra các môi trường lái xe chân thực như ảnh chụp (photorealistic) theo thời gian thực. Hiện tại, công nghệ này đã được cung cấp cho các nhà phát triển thông qua API.
Mô phỏng đường phố NYC
Mục tiêu ban đầu của Decart là hướng tới các công ty phát triển xe tự lái, những người cần mô phỏng các tình huống lái xe hiếm gặp ở quy mô lớn, đồng thời kế hoạch mở rộng sang lĩnh vực robot và các ứng dụng AI vật lý khác. Tuy nhiên, tham vọng lớn hơn của Decart là xây dựng một hệ sinh thái nhà phát triển dựa trên các mô hình thế giới, tương tự như cách OpenAI đã làm với các mô hình ngôn ngữ.
"Đây sẽ là mô hình thế giới có thể sử dụng được đầu tiên mà mọi người có thể lập trình bên trên nó," Dean Leitersdorf, đồng sáng lập và CEO của Decart, chia sẻ. "Tôi tin rằng sẽ có một cộng đồng nhà phát triển toàn diện hình thành dựa trên nền tảng này."
Xây dựng hệ sinh thái cho nhà phát triển
Decart hiện đã sở hữu một cộng đồng hơn 100.000 nhà phát triển, nhiều người trong số họ đang xây dựng sản phẩm dựa trên mô hình video thời gian thực Lucy, chủ yếu trong lĩnh vực thương mại điện tử và phát trực tiếp. Oasis 3 được xây dựng dựa trên mô hình nền tảng này, đánh dấu bước tiến của công ty vào AI vật lý.
Giá truy cập cho Oasis 3 là 0,02 USD mỗi giây, trong khi giá doanh nghiệp sẽ phụ thuộc vào trường hợp sử dụng cụ thể.
Hiệu suất và tối ưu hóa
Oasis 3 tạo ra các môi trường đa camera chính xác về mặt vật lý — một camera hướng về phía trước và hai camera hướng sang hai bên — để huấn luyện và kiểm tra hệ thống. Thay vì chỉ cung cấp bản giới hạn, Decart cho phép các nhà phát triển tạo ra các tình huống vô tận, rất lý tưởng để kiểm tra các trường hợp ngoại lệ (edge cases) trong phát triển xe tự lái.
Giao diện điều khiển Oasis 3
Lợi thế của Oasis 3 nằm ở độ chân thực của mô hình và khả năng tạo vô hạn. Điều này là nhờ vào sự tối ưu hóa hiệu quả từ Decart, được hỗ trợ bởi sản phẩm chính khác của công ty: phần mềm DOS (Decart Optimization Stack). Phần mềm này cho phép các mô hình chạy hiệu quả trên phần cứng của Nvidia, Amazon và Google, giúp chi phí vận hành rẻ hơn nhiều so với đối thủ cạnh tranh.
"Điều này được xây dựng dựa trên toàn bộ ngăn xếp thời gian thực của chúng tôi, mà chúng tôi tối ưu hóa sâu xuống phần cứng," Leitersdorf nói. "Nhờ sự tích hợp dọc như vậy, chúng tôi có thể rẻ hơn đối thủ hơn một cấp độ lớn trong việc vận hành các mô hình này."
Đánh giá thực tế: Đẹp nhưng chưa hoàn hảo
So với các mô hình khác đã thử nghiệm như Google Genie 3 hay World Labs’s Marble, Oasis 3 mang lại môi trường chân thực nhất từ một câu lệnh văn bản. Tuy nhiên, mô hình này vẫn có những hạn chế lớn.
Trong quá trình thử nghiệm, hệ thống có thể thiết lập cảnh ban đầu rất tốt, nhưng tính toàn vẹn chủ đề sẽ suy giảm nhanh chóng khi người dùng di chuyển trong thế giới đó. Ví dụ, khi yêu cầu tạo một con phố ở New York vào buổi sáng, kết quả ban đầu rất đẹp. Nhưng khi lái xe đi xa hơn, môi trường dần trở nên giống một thành phố phương Tây chung chung thay vì New York.
Khi cố gắng quay lại ngã tư ban đầu, nó đã biến mất, thay thế bởi một môi trường hoàn toàn mới. Ngoài ra, các điều khiển không quá nhạy bén và người dùng thường mất kiểm soát hướng di chuyển của xe.
Sự suy giảm tính nhất quán
Một vấn đề khác là xe có thể lao thẳng qua các xe khác, nghĩa là mô hình không mô phỏng vật lý đúng cách trong môi trường. Leitersdorf gọi đây là một "vấn đề nghiên cứu lớn mà chúng tôi đang giải quyết", và giải thích rằng do dữ liệu về lái xe an toàn nhiều hơn nhiều so với dữ liệu về tai nạn.
Thách thức về kiến trúc và tương lai
Một phần khiến việc nhất quán vật lý trở nên khó khăn nằm ở cách hoạt động của mô hình thế giới này. Oasis 3 hoạt động theo cơ chế tự hồi quy (auto-regressive), nghĩa là nó tạo ra một khung hình tại một thời điểm và nhìn lại những gì nó đã tạo ra trước đó để quyết định điều gì sẽ tiếp theo. Đây là một tính năng kiến trúc chính của nhiều mô hình thế giới, nhưng cũng tiêu tốn nhiều tài nguyên tính toán.
Để duy trì tính nhất quán, nhóm Decart đang nỗ lực cải thiện độ dài bộ nhớ của mô hình.
"Mỗi khung hình chúng tôi tạo ra khoảng 8.000 token. Việc tạo ra điều này với tốc độ hàng chục khung hình mỗi giây có nghĩa là hàng trăm nghìn token mỗi giây. Cửa sổ ngữ cảnh sẽ đầy rất nhanh," Leitersdorf giải thích. "Chúng tôi đang nghiên cứu cách thực hiện ngữ cảnh dài hơn để lưu trữ hàng triệu token nữa và cách nén bộ nhớ thành ít token hơn."
Leitersdorf tin rằng vấn đề nhất quán có thể được giải quyết một phần trong phiên bản tiếp theo của mô hình, phiên bản này sẽ cho phép người dùng bắt đầu tạo thế giới dựa trên video của một môi trường thay vì chỉ là hình ảnh. Dù công nghệ mô hình thế giới vẫn còn ở giai đoạn sơ khai, người sáng lập này tập trung vào tiềm năng khi cộng đồng nhà phát triển tiếp cận Oasis 3 hơn là những hạn chế hiện tại.



