Khi AI tiếp nhận cơ thể vật lý: Kỹ năng lập trình đang mở ra kỷ nguyên mới cho robot học

Các mô hình AI hiện đại đang biến việc xây dựng và điều khiển robot trở nên dễ dàng hơn bao giờ hết. Thông qua việc kết hợp tác nhân AI với cánh tay robot vật lý, chúng ta có thể tự động hóa việc cấu hình, lập trình và huấn luyện robot thực hiện các nhiệm vụ phức tạp. Đây được xem là bước tiến quan trọng giúp robot học trở nên phổ cập và dễ tiếp cận hơn với mọi người.

Gần đây, tôi đã trang bị cho tác nhân AI của mình tên là OpenClaw một cánh tay robot thật sự để tương tác. Kết quả thực sự đã làm "choáng váng" mạng nơ-ron của tôi. Tác nhân AI này không chỉ có khả năng cấu hình cánh tay robot, sử dụng nó để quan sát và từ từ cầm nắm vật thể, mà thậm chí còn huấn luyện được một mô hình AI khác để thực hiện nhiệm vụ nhặt và đặt các vật thể cụ thể. Mọi người vẫn nói rằng Trí tuệ nhân tạo tổng quát (AGI) còn vài năm nữa mới tới, nhưng những kết quả này khiến tôi tin rằng chúng ta đang đứng trước ngưỡng cửa của một bước đột phá trong robot học.

Robot vẫy tay

Trước đây, việc huấn luyện và điều khiển robot đòi hỏi kỹ năng chuyên môn cao. Nhưng ngày nay, các mô hình AI có thể biến quá trình này trở nên gần như dễ dàng.

Ken Goldberg, một nhà nghiên cứu robot tại UC Berkeley, người đang khám phá hướng tiếp cận này, cho biết: "Lập trình có hỗ trợ AI cực kỳ thú vị vì nó có tiềm năng thu hẹp khoảng cách giữa các phương pháp kỹ thuật truyền thống — vốn đáng tin cậy nhưng không khả năng tổng quát hóa cao — và các mô hình hành động thị giác-ngôn ngữ hiện đại — vốn có khả năng tổng quát nhưng chưa đủ đáng tin cậy."

LeRobot 101: Bước đệm phần cứng mở nguồn

Tôi đã mua một cánh tay robot được lắp ráp sẵn tên là LeRobot 101. Đây là một phần của dự án mã nguồn mở từ HuggingFace nhằm làm giảm chi phí để mọi người có thể bắt đầu xây dựng và thử nghiệm với robot.

LeRobot bao gồm hai cánh tay: một cánh tay điều khiển mà người vận hành sử dụng thông qua tay cầm và cò súng, cùng một cánh tay theo sau được trang bị camera để sao chép các chuyển động đó. Bạn có thể huấn luyện mô hình AI bằng cách điều khiển từ xa cánh tay điều khiển và để mô hình học cách di chuyển cánh tay theo sau dựa trên những gì camera ghi nhận.

Robot cầm quả bóng đỏ

Vibe Coding với robot

Trước khi sử dụng OpenClaw, tôi đã dành nhiều giờ để cố gắng kết nối và hiệu chỉnh robot, thậm chí một lần đã làm cháy động cơ do áp đặt cài đặt sai khiến chúng quá nhiệt.

Sau đó, với sự trợ giúp của OpenClaw và Codex, tôi có thể thực hiện "vibe coding" (lập trình theo cảm hứng) một chương trình đơn giản đóng càng cầm của robot khi nó phát hiện ra một quả bóng đỏ. Trong terminal, Codex đã xử lý công việc khó khăn là cấu hình các kết nối tới robot. Sau đó, với sự hỗ trợ của tôi, nó hiệu chỉnh vị trí các khớp nối. Nó cũng viết một script Python sử dụng nhiều thư viện để xác định và cầm quả bóng đó.

Tất nhiên, vibe coding không hoàn hảo, và các hiện tượng ảo giác (hallucinations) có thể gây ra lỗi, đặc biệt khi làm việc với các phần cứng khác nhau, nhưng kết quả đạt được thật sự ấn tượng.

Robot nhặt vật thể

Code as Policy: Mã hóa làm chính sách

Ý tưởng cho rằng lập trình có hỗ trợ AI có thể cung cấp một cách mới mạnh mẽ để xây dựng robot đã được nổi bật trong một bài báo nghiên cứu năm 2022, đặt tên cho phương pháp này là "Code as Policy" (Mã hóa làm chính sách). Kể từ đó, kỹ năng lập trình của AI đã tiến bộ với tốc độ chóng mặt, và phương pháp code-as-policy đã ngày càng được nhiều phòng thí nghiệm áp dụng.

Nhóm nghiên cứu của Goldberg, cùng với các nhà nghiên cứu từ Nvidia, Đại học Carnegie Mellon và Đại học Stanford, gần đây đã phát triển một tiêu chuẩn đánh giá mới gọi là CaP-X để đo lường khả năng lập trình robot của các mô hình code. Đáng chú ý, CaP-X cho thấy mô hình tốt nhất để lập trình robot hiện nay không phải là Claude hay ChatGPT, mà là Gemini — có lẽ là do Google DeepMind đã tập trung vào việc đào tạo các mô hình của họ để trở nên đa phương thức (multimodal) và hiểu được thế giới vật lý.

Cùng với tiêu chuẩn đánh giá, các nhà nghiên cứu đã tạo ra CaP-Gym, một môi trường cho phép các tác nhân lập trình điều khiển cả robot mô phỏng và robot thật. Họ cũng phát triển CaP-Agent0, một khung tác nhân giúp tăng hiệu suất của các mô hình lập trình đến mức chúng đánh bại các mô hình được huấn luyện trực tiếp để điều khiển chuyển động robot trong một số nhiệm vụ thao tác.

Tương lai của robot học phổ thông

Đội ngũ của Goldberg đang hợp tác với Nvidia để khám phá tiềm năng của phương pháp code-as-policy. Tôi đã có cuộc trò chuyện với Spencer Huang (chính là con trai của Jensen Huang), người đã tham gia tổ chức các cuộc hackathon bên trong công ty để mọi người có thể thử sức với việc vibe coding robot. Huang hiện đang làm việc trên một dự án nghiên cứu cùng Goldberg nhằm giúp phương pháp code-as-policy tương thích với nhiều công cụ phần mềm robot hơn.

Spencer Huang chia sẻ: "Gần như bất kỳ ai cũng có thể bước vào lĩnh vực robot học, đó chính là chén thánh thực sự." Việc cho phép mọi người điều khiển robot bằng lời nói hoặc lệnh gõ phím, hoặc bằng cách diễn tả một hành động, chính là "chìa khóa then chốt để robot hòa nhập vào xã hội", ông nhận định.