Cách robot học hỏi: Lịch sử hiện đại về sự trỗi dậy của robot thông minh

Ngành công nghiệp robot đang trải qua một cuộc cách mạng nhờ sự kết hợp giữa trí tuệ nhân tạo (AI) và các mô hình ngôn ngữ lớn. Thay vì lập trình các quy tắc cứng nhắc, robot hiện nay học hỏi thông qua mô phỏng và dữ liệu thực tế, dẫn đến sự bùng nổ đầu tư vào robot hình người.

Các nhà nghiên cứu robot từng mơ ước tạo ra những cỗ máy phức tạp như cơ thể con người, nhưng thực tế họ lại dành cả sự nghiệp để tinh chỉnh cánh tay robot cho các nhà máy ô tô. Họ nhắm tới C-3PO của Star Wars, nhưng kết quả lại chỉ là Roomba—một chiếc máy hút bụi tự động.

Tham vọng thực sự của nhiều nhà nghiên cứu là tạo ra robot kiểu khoa học viễn tưởng: một cỗ máy có thể di chuyển trong thế giới thực, thích nghi với các môi trường khác nhau và tương tác an toàn, hữu ích với con người. Tuy nhiên, một lịch sử dài đầy thất bại đã khiến phần lớn Thung lũng Silicon e ngại khi đầu tư vào robot hữu ích.

Tình thế đó đã thay đổi. Dù những cỗ máy này chưa được xây dựng hoàn thiện, nhưng dòng tiền đang đổ vào mạnh mẽ: chỉ riêng năm 2025, các công ty và nhà đầu tư đã rót 6,1 tỷ USD vào robot hình người, gấp 4 lần so với năm 2024.

Vậy điều gì đã xảy ra? Đó là một cuộc cách mạng trong cách máy móc học cách tương tác với thế giới.

Từ quy tắc cứng nhắc đến học tăng cường

Hãy tưởng tượng bạn muốn lắp đặt một cặp tay robot tại nhà chỉ để làm một việc: gấp quần áo. Robot sẽ học việc đó như thế nào?

Trước đây, cách tiếp cận truyền thống là viết các quy tắc. Kiểm tra vải để xem nó chịu được lực kéo bao nhiêu trước khi rách. Xác định cổ áo. Di chuyển bộ kẹp sang tay áo trái, nâng lên và gấp vào trong một khoảng cách chính xác. Rất nhanh chóng, số lượng quy tắc sẽ bùng nổ, nhưng nếu liệt kê đầy đủ, nó có thể tạo ra kết quả đáng tin cậy. Đây là nghề thủ công ban đầu của robot học: dự đoán mọi khả năng và mã hóa chúng trước.

Khoảng năm 2015, các kỹ thuật tiên tiến bắt đầu làm việc khác đi: Xây dựng một mô phỏng kỹ thuật số của tay robot và quần áo, sau đó đưa ra tín hiệu thưởng mỗi khi gấp thành công và tín hiệu phạt khi thất bại. Cách này giúp robot tốt hơn thông qua thử và sai với hàng triệu lần lặp lại—giống như cách AI trở nên giỏi chơi cờ vây.

Sự xuất hiện của ChatGPT vào năm 2022 đã thúc đẩy làn sóng bùng nổ hiện tại. Các mô hình ngôn ngữ lớn (LLM), được đào tạo trên lượng văn bản khổng lồ, hoạt động không phải qua thử và sai mà bằng cách học dự đoán từ tiếp theo trong câu. Các mô hình tương tự được điều chỉnh cho robot học có thể hấp thụ hình ảnh, dữ liệu cảm biến và vị trí các khớp của robot, sau đó dự đoán hành động tiếp theo mà máy nên thực hiện.

Jibo, một robot xã hội di chuyển được, thực hiện các cuộc trò chuyện từ trước kỷ nguyên LLM.

Jibo: Giấc mơ về robot xã hội

Năm 2014, nhà nghiên cứu robot của MIT Cynthia Breazeal đã giới thiệu Jibo—một robot không tay, không chân, không mặt, trông giống như một chiếc đèn. Mục tiêu của Breazeal là tạo ra một robot xã hội cho gia đình, và ý tưởng này đã huy động được 3,7 triệu USD từ chiến dịch gây vốn cộng đồng.

Jibo ban đầu có thể tự giới thiệu và nhảy múa để giải trí cho trẻ em, nhưng chỉ có vậy. Tầm nhìn luôn là biến nó thành một trợ lý hiện thân có thể xử lý mọi thứ từ lịch trình, email đến kể chuyện. Dù có một nhóm người dùng trung thành, công ty cuối cùng đã đóng cửa vào năm 2019.

Nhìn lại, một thứ mà Jibo thực sự cần là khả năng ngôn ngữ tốt hơn. Nó phải cạnh tranh với Siri của Apple và Alexa của Amazon, và tất cả các công nghệ thời đó đều dựa vào các kịch bản lệnh nặng nề. Khi bạn nói chuyện, phần mềm sẽ dịch giọng nói thành văn bản, phân tích ý định và tạo ra phản hồi từ các đoạn mã được phê duyệt trước. Những đoạn này có thể duyên dáng, nhưng cũng lặp lại và nhàm chán—quá "robot".

Ngày nay, cuộc cách mạng trong việc máy móc tạo ra ngôn ngữ đã thay đổi mọi thứ. Tuy nhiên, nó cũng đi kèm rủi ro mới: trong khi các cuộc trò chuyện theo kịch bản khó bị trật bánh, thì những cuộc do AI tạo ra hoàn toàn có thể. Một số món đồ chơi AI phổ biến đã từng nói với trẻ em về cách tìm diêm và dao.

OpenAI và Dactyl: Mô phỏng và ngẫu nhiên hóa miền

Đến năm 2018, mọi phòng thí nghiệm robot hàng đầu đều cố gắng loại bỏ các quy tắc kịch bản cũ và đào tạo robot thông qua thử và sai. OpenAI đã cố gắng đào tạo bàn tay robot Dactyl của mình trong môi trường ảo—với các mô hình kỹ thuật số của bàn tay và các khối lập phương nhỏ.

Vấn đề là: Một bàn tay robot có thể rất giỏi trong thế giới ảo, nhưng khi đưa chương trình đó vào thế giới thực, những khác biệt nhỏ giữa hai môi trường có thể gây ra lỗi. Màu sắc có thể hơi khác, hoặc cao su ở đầu ngón tay robot có thể dai hơn so với trong mô phỏng.

Giải pháp được gọi là "ngẫu nhiên hóa miền" (domain randomization). Về cơ bản, bạn tạo ra hàng triệu thế giới ảo khác nhau đôi chút. Trong mỗi thế giới, ma sát có thể ít hơn, ánh sáng mạnh hơn hoặc màu sắc tối hơn. Tiếp xúc với đủ sự biến đổi này giúp robot có thể thao tác khối lập phương tốt hơn trong thế giới thực.

Dactyl, một bàn tay robot được đào tạo bằng mô phỏng, cố gắng giải khối Rubik.

Cách tiếp cận này đã hoạt động trên Dactyl, và một năm sau, nó có thể sử dụng các kỹ thuật cốt lõi tương tự để làm việc khó hơn: giải khối Rubik (dù tỷ lệ thành công chỉ 60%). OpenAI đã đóng cửa nỗ lực robot học của mình vào năm 2021 nhưng gần đây đã khởi động lại bộ phận này—được cho là tập trung vào robot hình người.

Google DeepMind: RT-2 và dữ liệu từ internet

Khoảng năm 2022, đội ngũ robot của Google đã thực hiện những việc kỳ lạ: dành 17 tháng đưa tay cầm robot cho người dùng và quay phim họ làm mọi thứ từ lấy túi khoai tây đến mở hũ. Đội ngũ đã tổng hợp 700 nhiệm vụ khác nhau.

Mục tiêu là xây dựng và kiểm tra một trong những mô hình nền tảng quy mô lớn đầu tiên cho robot học. Giống như các mô hình ngôn ngữ, ý tưởng là đưa vào nhiều văn bản, sau đó tạo ra đầu ra. Mô hình RT-1 của Google nhận đầu liệu về những gì robot đang nhìn và vị trí các khớp tay robot, sau đó nhận một lệnh và dịch nó thành các lệnh điều khiển động cơ.

Bản lặp lại thứ hai, RT-2, ra mắt năm sau và đi xa hơn. Thay vì đào tạo trên dữ liệu riêng biệt của robot học, nó đào tạo trên các hình ảnh chung từ khắp internet. Điều này cho phép robot diễn giải vị trí của các vật thể trong cảnh.

"Tất cả những thứ khác đã được mở khóa," Kanishka Rao, nhà nghiên cứu robot tại Google DeepMind cho biết. "Chúng tôi có thể làm những việc như 'Đặt lon Coke gần bức ảnh Taylor Swift'."

Covariant: RFM-1 và robot đồng nghiệp

Năm 2017, một nhóm kỹ sư của OpenAI đã tách ra để thành lập Covariant, nhằm mục đích xây dựng không phải robot hình người viễn tưởng mà là loại robot thực dụng nhất: một cánh tay có thể nhặt và di chuyển đồ vật trong kho hàng.

Đến năm 2024, Covariant đã phát hành mô hình robot RFM-1, mà bạn có thể tương tác như một đồng nghiệp. Nếu bạn chỉ cho cánh tay robot nhiều bao bóng bàn, bạn có thể hướng dẫn nó di chuyển từng bao đến một khu vực riêng biệt. Robot có thể phản hồi—có thể dự đoán rằng nó không thể giữ chặt vật phẩm và sau đó hỏi lời khuyên về nên dùng bộ phận hút chân không nào.

Đây là những thứ đã được thực hiện trong thí nghiệm, nhưng Covariant đang triển khai ở quy mô đáng kể. Công ty hiện có camera và máy thu thập dữ liệu tại mọi địa điểm của khách hàng, cung cấp thêm dữ liệu để đào tạo mô hình.

Agility Robotics: Digit trong thế giới thực

Dòng tiền đầu tư mới đổ vào các startup robot học chủ yếu nhắm vào những robot có hình dáng con người. Robot hình người được cho là có thể bước vào không gian và công việc nơi con người đang làm việc, tránh nhu cầu cải tạo dây chuyền lắp ráp.

Dù nói dễ hơn làm, nhưng humanoid Digit của Agility Robotics dường như đang thực hiện một số công việc thực sự. Amazon, Toyota và GXO đều đã triển khai robot này—làm nó trở thành một trong những ví dụ đầu tiên về robot hình người mang lại lợi ích chi phí thực tế thay vì chỉ là sự mới lạ.

Các công ty đang đưa humanoid Digit vào thử nghiệm trong các môi trường thực tế.

Tuy nhiên, Digit hiện tại vẫn còn xa mới là trợ lý giống con người mà Thung lũng Silicon đang đánh cược. Nó chỉ có thể nhấc được 16 kg, và mỗi khi Agility làm Digit mạnh hơn, pin của nó trở nên nặng hơn và phải sạc thường xuyên hơn. Các tổ chức tiêu chuẩn cũng cho rằng robot hình người cần các quy tắc an toàn nghiêm ngặt hơn hầu hết robot công nghiệp.

Nhưng Digit cho thấy cuộc cách mạng trong đào tạo robot không đang hội tụ về một phương pháp duy nhất. Agility dựa vào các kỹ thuật mô phỏng như OpenAI từng dùng, và công ty đã làm việc với các mô hình Gemini của Google để giúp robot thích nghi với môi trường mới. Đó là nơi mà hơn một thập kỷ thí nghiệm đã đưa ngành công nghiệp này đi đến: Bây giờ, họ đang xây dựng những thứ lớn lao.