Google DeepMind tích hợp Street View vào Genie: Mô phỏng thế giới thực chưa từng có

Google DeepMind đã kết hợp dữ liệu Street View với mô hình thế giới Genie, tạo ra các môi trường mô phỏng tương tác và đắm sâu phục vụ cho robot, game và du lịch. Người dùng có thể khám phá các địa điểm thực, thay đổi thời tiết và huấn luyện AI trong các tình huống hiếm gặp.

Chúng ta thường sử dụng Street View trên Google Maps để chỉ cho bạn bè xem ngôi nhà thời thơ ấu của mình, hoặc thả biểu tượng người nhỏ bé xuống đường phố Paris để xem khách sạn mình đặt có nằm ở khu phố đẹp hay không. Hãy tưởng tượng nếu bạn có thể làm điều đó theo cách tương tác hơn, thực sự mô phỏng con đường và môi trường xung quanh, thậm chí thay đổi điều kiện thời tiết hoặc xem nó sẽ trông như thế nào trong một kịch bản "Ngày Mai Sau".

Đó chính là một trong những mục tiêu của sự tích hợp mới nhất từ Google. Bắt đầu từ hôm nay, Google DeepMind đang kết nối Street View với Project Genie — mô hình thế giới đa năng của công ty có khả năng tạo ra các môi trường tương tác đa dạng. Tính năng mới này được ra mắt trong khuôn khổ hội nghị nhà phát triển Google I/O.

"Nó thực sự mạnh mẽ cho cả trường hợp sử dụng tác nhân [và robot] cũng như để con người trải nghiệm, và đó luôn là luận điểm cốt lõi của Genie," Jack Parker-Holder, nhà khoa học nghiên cứu tại nhóm mở rộng (open-endedness) của DeepMind, chia sẻ với TechCrunch.

Ông đưa ra ví dụ về một robot mới được triển khai tại London, nơi hiếm khi có nắng. Theo Parker-Holder, Genie có thể mô phỏng những dịp hiếm hoi này khi ánh nắng phản chiếu lên những ngôi nhà kiểu Victoria, để robot không bị "choáng" bởi tia nắng khi sự kiện đó thực sự xảy ra.

"Đồng thời, bạn có thể nói, 'Tôi sẽ đến Thành phố New York, nhưng không phải vào thời điểm này trong năm'," ông tiếp tục. "'Sẽ có tuyết rơi. Tôi muốn xem khu phố đó trông như thế nào khi có tuyết'."

Google đã thu thập dữ liệu Street View trong 20 năm qua thông qua các xe hơi có gắn camera và những người đeo ba lô thu thập dữ liệu. Gã khổng lồ công nghệ này đã sở hữu hơn 280 tỷ hình ảnh trên 110 quốc gia và tại cả bảy châu lục.

"Với Street View, chúng tôi có hình ảnh từ một phần lớn thế giới," Jack nói. "Bạn có thể tưởng tượng tiềm năng mạnh mẽ đến mức nào khi kết hợp nguồn thông tin dữ liệu thế giới thực phong phú này với khả năng mô phỏng thế giới."

Google đã phát hành mô hình thế giới mới nhất Genie 3 để xem trước nghiên cứu vào tháng 8 năm ngoái và mở quyền truy cập công cụ này cho người đăng ký Google AI Ultra tại Mỹ vào tháng 1, cho phép khách hàng tạo ra thế giới game tương tác từ câu lệnh văn bản hoặc hình ảnh. Mục tiêu là sử dụng Genie cho các trải nghiệm giáo dục, trò chơi và đào tạo robot.

Genie 3 hiện đang giúp cung cấp năng lực cho một trong các trình mô phỏng của Waymo để đào tạo xe tự lái của họ về các "sự kiện cực kỳ hiếm" như lốc xoáy hoặc những cuộc gặp gỡ tình cờ với voi. Việc thêm dữ liệu Street View vào đó có thể giúp Waymo chuẩn bị tốt hơn để ra mắt tại nhiều thành phố hơn trên toàn cầu.

Waymo có trình mô phỏng riêng mà họ dựa vào để mở rộng quy mô lên 11 thành phố tại Mỹ và kiểm tra tài xế AI của mình tại một số thành phố khác. Sự khác biệt với Genie, theo Parker-Holder, là các mô hình của Waymo đều lấy góc nhìn từ xe hơi. Street View cho phép không chỉ mô phỏng một thế giới được neo vào một địa điểm thực tế, mà còn có thể chuyển đổi góc nhìn sang các loại tác nhân khác, như con người hoặc robot.

Google đang bắt đầu triển khai Street View trong Genie cho một số người dùng Ultra tại Mỹ từ hôm nay, với quyền truy cập sẽ được mở rộng theo thời gian. Người dùng Ultra trên toàn cầu sẽ có quyền truy cập trong vài tuần tới, theo thông tin từ công ty.

Mục tiêu của các nhà nghiên cứu là đưa khả năng mới này đến càng nhiều tay người càng tốt, theo Diego Rivas, quản lý sản phẩm tại DeepMind. Tuy nhiên, ông cảnh báo rằng Street View nói riêng và Genie nói chung vẫn đang ở giai đoạn thử nghiệm, nên vẫn còn nhiều điểm cần cải thiện về độ chính xác.

Trong các mẫu mà nhóm Google đã trình diễn — bao gồm cả một mô phỏng dưới nước của một khu phố mà tôi từng sống — kết quả khá ấn tượng và dễ nhận biết, nhưng vẫn ở chất lượng trò chơi điện tử thay vì chân thực như ảnh chụp (photorealistic). Các mô hình này cũng chưa nhận thức được vật lý, nghĩa là chúng chưa hiểu nguyên nhân và kết quả. Ví dụ, trong mô phỏng một người phụ nữ chạy qua Joshua Tree đầy tuyết, cô ấy chạy xuyên qua các cây xương rồng và bụi rậm.

So sánh điều này với, ví dụ, trình tạo hình ảnh Nano Banana của Google — hiện có thể tạo ra văn bản hoàn hảo trong các biểu đồ thông tin — hoặc trình tạo video Veo — vốn hiểu rằng thuyền giấy trôi theo dòng nước, khói tan vào không khí và vải rủ xuống các hình dạng.

Vật lý không được mã hóa cứng (hard-coded) vào các mô hình này; chúng học nó một cách trực quan theo thời gian thông qua quan sát thụ động, giống như một sinh vật sống.

"Tôi nghĩ rằng đối với loại mô hình này, nó đang chậm hơn video khoảng 6 đến 12 tháng về độ chính xác và chất lượng, vì vậy tôi nghĩ rằng đây là vấn đề chúng tôi sẽ giải quyết được," Parker-Holder nói.

Jonathan Herbert, giám đốc Google Maps, người bắt đầu làm việc trong nhóm Street View với tư cách là thực tập sinh cách đây 12 năm, cho biết Genie hiện chưa thể tạo ra sự tái tạo trung thực của một con đường. Ông cho rằng bước đột phá thực sự là tính liên tục không gian của AI. Nếu bạn quay 360 độ, AI sẽ ghi nhớ chính xác và mô phỏng môi trường phía sau bạn. Từ điểm đó, mô hình có thể xây dựng một môi trường mới dựa trên nền tảng đó.

"Chúng tôi đã lâu suy nghĩ về cách xây dựng mô hình thế giới tốt nhất và phong phú nhất dựa trên dữ liệu Street View," Herbert nói. "Chắc chắn việc sử dụng Dữ liệu Maps theo những cách mới và cho các loại nghiên cứu AI mới là một ý tưởng mà chúng tôi ấp ủ từ khá lâu."

Google DeepMind tích hợp Street View vào Genie: Mô phỏng thế giới thực chưa từng có

Bài viết liên quan