Google ra mắt Gemini Robotics-ER 1.6: Nâng cấp khả năng lý luận không gian và đọc đồng hồ cho robot
DeepMind giới thiệu Gemini Robotics-ER 1.6, bản nâng cấp lớn tập trung vào khả năng "lý luận hiện thân" giúp robot hiểu sâu hơn về môi trường vật lý. Mô hình mới này cải thiện đáng kể việc đọc các công cụ đo lường, nhận thức không gian đa góc nhìn và an toàn hơn, sẵn sàng tích hợp vào các robot thực tế như Spot của Boston Dynamics.

Để robot thực sự hữu ích trong cuộc sống hàng ngày và công nghiệp, chúng cần phải làm được nhiều hơn việc chỉ tuân theo các chỉ dẫn đơn giản; chúng phải có khả năng lý luận về thế giới vật lý. Từ việc điều hướng trong một cơ sở phức tạp đến việc đọc kim trên đồng hồ áp suất, khả năng "lý luận hiện thân" (embodied reasoning) chính là cầu nối giúp robot chuyển hóa trí tuệ kỹ thuật số thành hành động vật lý.
Hôm nay, DeepMind đã giới thiệu Gemini Robotics-ER 1.6, một bản nâng cấp đáng kể cho mô hình ưu tiên lý luận, cho phép robot hiểu môi trường xung quanh với độ chính xác chưa từng có. Bằng cách cải thiện khả năng lý luận không gian và hiểu đa góc nhìn, Google đang mang đến một cấp độ tự chủ mới cho thế hệ tiếp theo của các tác nhân vật lý.
Robot đang tương tác với môi trường vật lý
Nâng cấp khả năng chỉ trỏ và lý luận không gian
Khả năng "chỉ trỏ" (pointing) là nền tảng của lý luận không gian cho một mô hình lý luận hiện thân. Trong Gemini Robotics-ER 1.6, khả năng này đã tiến hóa vượt bậc so với phiên bản 1.5 và cả Gemini 3.0 Flash. Robot không chỉ phát hiện vật thể mà còn sử dụng các điểm chỉ trỏ để thực hiện các khái niệm phức tạp như:
- Lý luận không gian: Phát hiện và đếm vật thể chính xác.
- Logic quan hệ: So sánh các vật thể, xác định vật thể nhỏ nhất hoặc định nghĩa mối quan hệ "từ-đến" (ví dụ: di chuyển X đến vị trí Y).
- Lý luận chuyển động: Ánh xạ quỹ đạo và xác định điểm nắm tối ưu.
Mô hình mới có thể sử dụng các điểm chỉ trỏ làm bước trung gian để suy luận về các nhiệm vụ phức tạp hơn, ví dụ như đếm số lượng công cụ trong một hình ảnh hoặc xác định các điểm nổi bật để thực hiện các phép toán ước lượng.
Đọc công cụ đo lường: Ứng dụng thực tế từ Boston Dynamics
Một trong những tính năng mới nổi bật nhất của Gemini Robotics-ER 1.6 là khả năng đọc công cụ đo lường (instrument reading). Tính năng này ra đời từ sự hợp tác chặt chẽ với Boston Dynamics, nhằm giải quyết nhu cầu kiểm tra cơ sở hạ tầng công nghiệp.
Các cơ sở công nghiệp chứa hàng trăm dụng cụ đo như nhiệt kế, đồng hồ áp suất và bình mức thủy tinh cần được giám sát liên tục. Robot Spot của Boston Dynamics có thể di chuyển đến các vị trí này và chụp ảnh, nhưng việc giải thích dữ liệu đó đòi hỏi trí tuệ nhân tạo tinh vi.
Robot đọc đồng hồ áp suất trong môi trường công nghiệp
Gemini Robotics-ER 1.6 sử dụng "thị giác tác nhân" (agentic vision), kết hợp lý luận thị giác với thực thi mã để thực hiện nhiệm vụ này. Mô hình thực hiện các bước trung gian như phóng to hình ảnh để đọc chi tiết nhỏ, sử dụng khả năng chỉ trỏ để ước lượng tỷ lệ và áp dụng kiến thức thế giới để diễn giải ý nghĩa của các chỉ số.
Phát hiện thành công và An toàn tối ưu
Trong robot học, việc biết khi nào một nhiệm vụ đã hoàn thành quan trọng ngang với việc biết cách bắt đầu. Phát hiện thành công (success detection) là động cơ của sự tự chủ, cho phép tác nhân quyết định một cách thông minh giữa việc thử lại hay chuyển sang giai đoạn tiếp theo.
Gemini Robotics-ER 1.6 cải thiện đáng kể khả năng lý luận đa góc nhìn, giúp hệ thống hiểu rõ hơn về các luồng camera từ nhiều vị trí (ví dụ: camera trên cao và camera gắn ở cổ tay robot) ngay cả trong môi trường bị che khuất hoặc ánh sáng kém.
Về an toàn, đây là mô hình robot an toàn nhất của DeepMind tính đến nay. Nó thể hiện khả năng tuân thủ tốt hơn các chính sách an toàn và các ràng buộc vật lý, chẳng hạn như không xử lý chất lỏng hoặc không nhặt vật thể quá nặng so với khả năng của kẹp.
Kiểm tra an toàn và tuân thủ ràng buộc vật lý
Sẵn sàng cho nhà phát triển
Bắt đầu từ hôm nay, Gemini Robotics-ER 1.6 đã có sẵn cho các nhà phát triển thông qua Gemini API và Google AI Studio. DeepMind cũng chia sẻ tài liệu hướng dẫn và ví dụ trên Colab để giúp cộng đồng bắt đầu cấu hình và sử dụng mô hình cho các nhiệm vụ lý luận hiện thân.
Với những bước tiến về khả năng đọc đồng hồ, lý luận không gian và an toàn, Gemini Robotics-ER 1.6 hứa hẹn sẽ là động lực thúc đẩy robot như Spot của Boston Dynamics hoạt động hoàn toàn tự chủ trong các môi trường thực tế đầy thách thức.
Bài viết liên quan

Công nghệ
George Orwell đã tiên đoán sự trỗi dậy của "rác thải AI" trong tác phẩm 1984
16 tháng 4, 2026

Phần mềm
Anthropic ra mắt Claude Opus 4.7: Nâng cấp mạnh mẽ cho lập trình nhưng vẫn thua Mythos Preview
16 tháng 4, 2026

Công nghệ
Qwen3.6-35B-A3B: Quyền năng Lập trình Agentic, Nay Đã Mở Cửa Cho Tất Cả
16 tháng 4, 2026
