XDOF: Startup xây dựng "đường ống dữ liệu" cho kỷ nguyên robot và AI vật lý
Các phòng lab AI hàng đầu đang quay trở lại với robot nhưng thiếu hụt dữ liệu vật lý. XDOF đã huy động 70 triệu USD để giải quyết nút thắt này thông qua việc thu thập và xử lý dữ liệu chuyên sâu.

XDOF: Startup xây dựng "đường ống dữ liệu" cho kỷ nguyên robot và AI vật lý
Hai tuần trước, OpenAI tuyên bố sẽ khởi động lại chương trình robot mà họ từng đóng cửa vào năm 2021. Đây là tín hiệu mới nhất cho thấy các phòng lab AI lớn nhất đang chạy đua để dạy máy móc cách vận hành trong thế giới thực. Tuy nhiên, việc xây dựng những robot có khả năng đòi hỏi một thứ mà ngành công nghiệp AI hiện chưa có: đó là dữ liệu huấn luyện tương đương với những gì đã được sử dụng cho các mô hình ngôn ngữ (LLM).
Khoảng trống này đang tạo ra một loại hình kinh doanh cơ sở hạ tầng mới. Khác với các LLM được huấn luyện trên đại dương văn bản công khai khổng lồ, robot cần dữ liệu ghi lại sự tương tác vật lý, và loại dữ liệu này gần như không tồn tại. Các video trên YouTube hoặc cảnh quay do nhân viên gig thu thập thường có độ trung thực thấp và rất khó đồng bộ hóa với thế giới thực.
XDOF (đọc là "ecks-doff"), một startup vừa bước ra khỏi chế độ ẩn danh, đang đặt cược rằng nút thắt lớn tiếp theo của AI không phải là mô hình hay chip, mà là vòng lặp phản hồi dữ liệu cần thiết để dạy robot cách tương tác với thế giới vật lý.
Startup này nhằm mục đích xây dựng các đường ống dữ liệu, công cụ thu thập và hệ thống chú giải mà các phòng lab tiên phong và công ty robot khó có thể tự xây dựng dễ dàng. Họ đã huy động được 70 triệu USD từ Thrive Capital, Spark Capital, a16z, Lux và WndrCo để thực hiện điều này. Đồng sáng lập kiêm CEO Philipp Wu cho biết XDOF, hiện có khoảng 60 nhân viên, đang làm việc với 20 khách hàng, bao gồm một số phòng lab AI hàng đầu, nhưng không thể tiết lộ tên cụ thể.
"Tất cả các phòng lab hàng đầu đều đang theo đuổi robot," Wu nói. "Chúng ta đã thấy một số hậu quả của việc bị tụt hậu một chút trong cuộc đua mô hình ngôn ngữ... bạn không muốn rơi vào tình huống theo đuổi công nghệ này quá muộn, khi mà mọi người đều đang ở trên cùng một con thuyền với AI vật lý là biên giới tiếp theo."
Wu từng gặp phải vấn đề này khi còn là sinh viên tiến sĩ tại UC Berkeley. Trọng tâm của ông là cho phép robot học kỹ năng từ các tập dữ liệu quy mô lớn. Chỉ có một vấn đề duy nhất.
"Chúng tôi không có dữ liệu quy mô lớn để làm việc," ông chia sẻ với TechCrunch. "Đó là vấn đề con gà và quả trứng — trước tiên chúng ta cần thực sự thu thập dữ liệu trước khi thậm chí có thể hỏi làm thế nào để huấn luyện một mô hình nền tảng cho robot."
Wu và người đồng sáng lập tương lai kiêm CTO của XDOF, Fred Shentu, đã làm việc trên một dự án gọi là GELLO, một hệ thống điều khiển từ xa giá rẻ cho phép người vận hành con người điều khiển cánh tay robot để tạo dữ liệu huấn luyện. "Nó đã trở thành một bài báo rất có ảnh hưởng trong lĩnh vực robot, vì nhiều người có nhu cầu và nút thắt tương tự, và nhiều người bắt đầu tận dụng loại thiết bị này để thu thập dữ liệu," Wu nói.
Nhận thấy cơ hội, Wu, Shentu và đồng sáng lập thứ ba kiêm Giám đốc vận hành Nemo Jin đã ra mắt XDOF vào tháng 10 năm 2024 để cung cấp hệ sinh thái dữ liệu cho các công ty theo đuổi các mô hình robot. Nhận thức rằng việc chỉ cung cấp dữ liệu có thể là một công việc kinh doanh đi vào ngõ cụt, công ty cũng tập trung vào việc làm sạch dữ liệu, công cụ và chú giải — tạo ra một vòng lặp phản hồi tự củng cố cho những người huấn luyện robot.
Là điểm khởi đầu, công ty đang hợp tác với phòng lab Nghiên cứu AI của UC Berkeley để phát hành những gì họ tin là bộ sưu tập dữ liệu huấn luyện robot chất lượng cao lớn nhất từng được lắp ráp, có tên gọi ABC. Nó bao gồm 130.000 quỹ đạo dữ liệu thao tác robot, 300 giờ mô phỏng và 100 giờ đánh giá. Loại dữ liệu huấn luyện trước quy mô lớn này chưa từng có sẵn cho giới học thuật trước đây.
"Chúng ta đã thấy trong ngôn ngữ, tạo ảnh và các lĩnh vực khác rằng khi các mô hình và dữ liệu được phát hành, cộng đồng sẽ đạt được những điều mà bạn không nhất thiết mong đợi," David McAllister, sinh viên tiến sĩ tại Berkeley đã giúp tổ chức việc phát hành, cho biết.
Đội ngũ đã sử dụng dữ liệu này để huấn luyện robot thực hiện các nhiệm vụ chuẩn như gấp áo thun, làm phẳng hộp hoặc xắp AirPods vào hộp đựng.
Bậc tự do không giới hạn
Công ty có kế hoạch hoạt động trên ba tầng của một kim tự tháp dữ liệu. Tầng có giá trị nhất là dữ liệu điều khiển từ xa được thu thập trên robot thực tế đang được triển khai; tiếp theo là robot được điều khiển từ xa thu thập dữ liệu chung hơn, giống như với GELLO; và cuối cùng là dữ liệu "góc nhìn thứ nhất" được thu thập bởi con người thực hiện các nhiệm vụ hàng ngày, mà XDOF có kế hoạch xây dựng các cảm biến đeo được của riêng mình.
"Lựa chọn camera của bạn sẽ ảnh hưởng đến chất lượng dữ liệu — điều này sẽ ảnh hưởng đến cách thuật toán theo dõi tay hoạt động," Wu nói. "Nếu bạn không thiết kế phần cứng tốt ngay từ đầu, dữ liệu bạn thu thập có thể gặp những vấn đề rất cụ thể mà bạn không lường trước được."
Công ty có kế hoạch tuyển dụng và đào tạo các đội ngũ điều khiển từ xa và nhà khai thác dữ liệu góc nhìn trên khắp thế giới — một mô hình tốn nhiều nhân lực đặt ra một câu hỏi rõ ràng: Tại sao các phòng lab lớn không tự làm công việc sản xuất dữ liệu này?
"Bạn cần một nhà kho hàng trăm nghìn mét vuông với hàng trăm robot," Wu nói. "Bạn cần bảo trì những robot này, hiệu chỉnh các thông số vật lý của chúng và đào tạo đúng cách cho các nhà khai thác."
Đó là một việc xây dựng đòi hỏi sự tập trung, vốn và quy mô vận hành mà hầu hết các phòng lab AI muốn thuê ngoài — và chính xác là thị trường mà XDOF đang đặt cược vào.
Tên gọi XDOF là một cách chơi chữ với thuật ngữ robot "bậc tự do" (degrees of freedom), mô tả số lượng chuyển động độc lập mà một robot có thể thực hiện. Cánh tay của bạn, từ vai đến cổ tay, có bảy bậc tự do. Robot mới nhất của công ty robot hình người Figure AI có 30 bậc tự do. Chữ X trong tên công ty thể hiện tham vọng của họ: "Bậc tự do tùy ý, bậc tự do không giới hạn," Wu nói.
Bài viết liên quan

Công nghệ
Xbox đóng cửa studio Ninja Theory, nhà phát triển dòng game Hellblade
15 tháng 6, 2026

Công nghệ
Startup Battlefield 2026: Hướng dẫn đăng ký và những điều bạn cần biết trước hạn chót 8/6
08 tháng 6, 2026
Công nghệ
Hiệp hội ngành cáp cảnh báo hỗn loạn nếu FCC không nới lỏng lệnh cấm router nước ngoài
04 tháng 6, 2026
