Startup Physical Intelligence giới thiệu "bộ não" robot π0.7 có khả năng tự học nhiệm vụ mới

Physical Intelligence, một startup robotics tại San Francisco, đã công bố mô hình π0.7 với khả năng hướng dẫn robot thực hiện các tác vụ chưa từng được huấn luyện trực tiếp. Đột phá này đánh dấu bước tiến quan trọng hướng tới việc tạo ra một bộ não robot đa năng, có thể suy luận và thích ứng với môi trường mới thông qua lời nói.

Startup Physical Intelligence, công ty trẻ tuổi có trụ sở tại San Francisco, vừa công bố nghiên cứu mới cho thấy mô hình robot mới nhất của họ có thể thực hiện các nhiệm vụ mà nó chưa từng được đào tạo cụ thể. Các nhà nghiên cứu của công ty thừa nhận rằng khả năng này đã khiến họ bất ngờ.

Mô hình mới, có tên gọi π0.7, được mô tả là một bước đi sớm nhưng có ý nghĩa quan trọng hướng tới mục tiêu lâu dài của ngành: tạo ra một "bộ não" robot đa năng. Một hệ thống có thể được chỉ định cho một nhiệm vụ lạ, được hướng dẫn bằng ngôn ngữ tự nhiên và thực hiện thành công.

Mô hình robot π0.7 đang hoạt động

Khả năng tổng quát hóa vượt bậc

Trọng tâm của bài nghiên cứu là khả năng "tổng quát hóa thành phần" (compositional generalization) — khả năng kết hợp các kỹ năng đã học trong các bối cảnh khác nhau để giải quyết vấn đề mà mô hình chưa từng gặp phải. Trước đây, phương pháp đào tạo robot chủ yếu dựa trên việc ghi nhớ máy móc: thu thập dữ liệu cho một nhiệm vụ cụ thể và huấn luyện một mô hình chuyên biệt cho nhiệm vụ đó.

π0.7 phá vỡ quy luật này. Sergey Levine, đồng sáng lập Physical Intelligence và giáo sư tại UC Berkeley, chia sẻ: "Khi vượt qua ngưỡng đó, từ việc chỉ làm đúng những gì dữ liệu cung cấp đến việc thực sự kết hợp các kỹ năng theo cách mới, năng lực sẽ tăng lên nhanh hơn nhiều so với lượng dữ liệu. Chúng ta đã thấy đặc tính mở rộng thuận lợi này trong các lĩnh vực khác như ngôn ngữ và thị giác."

Thử nghiệm với nồi chiên không dầu

Minh chứng ấn tượng nhất trong bài viết liên quan đến một chiếc nồi chiên không dầu — một thiết bị mà mô hình gần như chưa từng thấy trong quá trình huấn luyện. Khi điều tra, nhóm nghiên cứu chỉ tìm thấy hai dữ liệu liên quan trong toàn bộ tập huấn luyện: một robot khác chỉ đẩy nắp nồi đóng lại, và một robot khác đặt chai nhựa vào trong theo lệnh.

Mô hình đã somehow tổng hợp các mảnh dữ liệu rời rạc đó, cùng với dữ liệu tiền huấn luyện từ web, để hiểu cách hoạt động của thiết bị. Ashwin Balakrishna, nhà khoa học nghiên cứu tại Physical Intelligence, cho biết: "Rất khó để theo dõi kiến thức đến từ đâu. Nhưng mà không cần hướng dẫn, mô hình đã cố gắng sử dụng thiết bị để nướng khoai lang. Với hướng dẫn từng bước bằng lời nói, nó đã thực hiện thành công."

Vai trò của việc hướng dẫn và những hạn chế

Khả năng được "huấn luyện" (coaching) này rất quan trọng vì nó gợi ý rằng robot có thể được triển khai trong môi trường mới và cải thiện theo thời gian thực mà không cần thu thập thêm dữ liệu hay đào tạo lại mô hình.

Tuy nhiên, các nhà nghiên cứu cũng thẳng thắn về những hạn chế. Mô hình hiện chưa thể thực hiện các nhiệm vụ đa bước phức tạp một cách tự chủ chỉ từ một lệnh cấp cao duy nhất. Bạn không thể nói "Này, làm cho tôi vài lát bánh mì nướng" và mong nó hoàn thành. Nhưng nếu bạn hướng dẫn chi tiết — "mở phần này, nhấn nút kia, làm việc này" — thì nó thường hoạt động khá tốt.

Nhóm cũng thừa nhận rằng việc thiếu các điểm chuẩn chuẩn hóa cho robot khiến việc xác nhận bên ngoài khó khăn. Thay vào đó, họ so sánh π0.7 với các mô hình chuyên biệt trước đây của mình và thấy rằng mô hình đa năng này khớp với hiệu suất của chúng trong các công việc phức tạp như pha cà phê, gấp quần áo và đóng hộp.

Tiềm năng và định hướng tương lai

Điều đáng chú ý nhất là mức độ mà kết quả nghiên cứu đã gây bất ngờ cho chính những người tạo ra nó. Balakrishna kể lại: "Tôi vừa mua một bộ bánh răng ngẫu nhiên và hỏi robot: 'Này, cậu có thể xoay bánh răng này không?'. Và nó đã làm được."

Levine nhớ lại khoảnh khắc các nhà nghiên cứu lần đầu tiên gặp GPT-2 tạo ra một câu chuyện về những con kỳ lân ở dãy Andes. "Nó học về kỳ lân ở Peru từ đâu chứ? Đó là một sự kết hợp kỳ lạ. Và tôi nghĩ việc thấy điều đó trong robot thực sự đặc biệt."

Tất nhiên, sẽ có sự hoài nghi. Các mô hình ngôn ngữ có cả internet để học hỏi, trong khi robot thì không. Levine dự đoán sự chỉ trích sẽ tập trung vào việc các nhiệm vụ có vẻ "nhàm chán" so với những pha nhào lộn ngoạn mục. Ông lập luận rằng sự tổng quát hóa sẽ luôn trông kém kịch tính hơn một màn trình diễn được dàn dựng kỹ lưỡng, nhưng nó lại hữu ích hơn nhiều.

Physical Intelligence đã huy động được hơn 1 tỷ USD và được định giá 5,6 tỷ USD gần đây. Công ty hiện được cho là đang đàm phán cho vòng gọi vốn mới có thể nâng định giá lên 11 tỷ USD.