Những công nhân tự do toàn cầu trở thành "giáo viên" cho robot nhân dạng người

Khi các công ty công nghệ như Tesla và Figure AI chạy đua với robot nhân dạng người, họ đã tìm đến nguồn lực mới: hàng ngàn công nhân tự do trên toàn thế giới quay video các công việc nhà để huấn luyện máy móc. Dù tạo ra nguồn thu nhập tốt cho người lao động và đóng vai trò quan trọng trong việc robot tương tác với thế giới thực, mô hình này cũng đặt ra những thách thức lớn về quyền riêng tư và chất lượng dữ liệu.

Về đêm, sinh viên y khoa Zeus ở Nigeria, Nigeria, rời bệnh viện sau một ngày dài và trở về căn hộ nhỏ của mình. Anh bật đèn ring, gắn iPhone lên trán và bắt đầu ghi hình. Zeus nhấc tay lên trước mặt như đang ngủ mộng và trải chiếu lên giường. Anh di chuyển chậm rãi, cẩn thận để đảm bảo đôi tay vẫn nằm trong khung hình. Tại sao một y sinh viên lại làm điều kỳ lạ này? Câu trả lời nằm trong sự bùng nổ của ngành công nghiệp robot nhân dạng người.

Zeus là một "người ghi nhận dữ liệu" (data recorder) cho Micro1, một công ty có trụ sở tại Palo Alto, California. Micro1 thu thập dữ liệu thực tế từ thế giới thực để bán cho các công ty robot. Khi các ông lớn công nghệ như Tesla, Figure AI và Agility Robotics chạy đua để xây dựng những robot trông giống và vận động như con người trong nhà máy và gia đình, các video do những công nhân tự do như Zeus quay trở thành nguồn dữ liệu "nóng" nhất để huấn luyện chúng.

Micro1 đã tuyển dụng hàng nghìn công nhân hợp đồng tại hơn 50 quốc gia, bao gồm Ấn Độ, Nigeria và Argentina, nơi có lượng thanh niên thành thị có kỹ năng công nghệ cao đang tìm kiếm việc làm. Họ gắn iPhone lên đầu, quay video việc nhà như giặt ủi, rửa bát và nấu ăn. Công việc này trả mức lương tốt theo tiêu chuẩn địa phương và đang thúc đẩy kinh tế địa phương, nhưng cũng đặt ra những câu hỏi phức tạp về quyền riêng tư và sự đồng thuận.

Tại sao robot cần video từ con người?

Robot nhân dạng người nổi tiếng là khó xây dựng vì khả năng thao tác các vật thể vật lý là một kỹ năng khó thành thạo. Tuy nhiên, sự bùng nổ của các mô hình ngôn ngữ lớn (LLM) - nền tảng của ChatGPT - đã truyền cảm hứng cho một sự chuyển dịch trong robot học. Giống như LLM học cách tạo ra văn bản bằng cách được huấn luyện trên lượng khổng lồ văn bản từ internet, nhiều nhà nghiên cứu tin rằng robot nhân dạng có thể học cách tương tác với thế giới bằng cách được huấn luyện trên lượng khổng lồ dữ liệu di chuyển.

Tuy nhiên, robot học đòi hỏi nhiều dữ liệu phức tạp hơn về thế giới vật lý và khó tìm kiếm hơn nhiều so với văn bản. Mô phỏng ảo có thể huấn luyện robot làm những động tác nguy hiểm, nhưng không dạy được cách nắm và di chuyển đồ vật vì mô phỏng vật lý khó chính xác tuyệt đối. Để robot có thể làm việc trong nhà máy hoặc làm việc cho gia đình, dữ liệu thực tế - dù tốn thời gian và chi phí - có thể là thứ chúng ta cần.

Nền kinh tế dữ liệu tại nhà

Đầu tư đang đổ mồ hôi để giải quyết vấn đề này, với hơn 6 tỷ USD được chi cho robot nhân dạng vào năm 2025. Và việc thu thập dữ liệu tại nhà đang trở thành một phần của nền kinh tế gig đang bùng nổ. Các công ty như Scale AI và Encord tuyển dụng "quân đội" người ghi nhận dữ liệu riêng, trong khi DoorDash trả tiền cho tài xế giao đồ ăn để quay cảnh làm việc nhà. Tại Trung Quốc, các công nhân tại các trung tâm đào tạo robot nhà nước thậm chí còn đeo kính thực tế ảo và bộ khung xương ngoài (exoskeleton) để dạy robot mở lò vi sóng và lau bàn.

"Rất nhiều nhu cầu và nó đang tăng tốc rất nhanh", Ali Ansari, CEO của Micro1, nhận định. Ông ước tính các công ty robot hiện đang chi hơn 100 triệu USD mỗi năm để mua dữ liệu thực tế từ công ty và các đối thủ tương tự.

Thách thức về không gian và sự cô đơn

Người làm việc cho Micro1 được kiểm duyệt bởi một AI tên là Zara, thực hiện phỏng vấn và xem xét các mẫu video. Mỗi tuần, họ phải nộp video quay cảnh ở nhà, tuân thủ các hướng dẫn như giữ tay trong khung hình và di chuyển với tốc độ tự nhiên. Video sau đó được kiểm tra bởi cả AI và con người để được chấp nhận hoặc từ chối, sau đó được gán nhãn bởi đội ngũ hàng trăm người.

Vì cách tiếp cận huấn luyện robot này còn ở giai đoạn sơ khai, việc tạo ra sự đa dạng trong "nội dung việc nhà" trong những căn hộ nhỏ là một thách thức. Zeus, sinh viên sống trong căn hộ chật chội, khó quay được bất cứ thứ gì ngoài việc ủi quần áo mỗi ngày. Arjun, một gia sư ở Delhi, mất một giờ để quay một video 15 phút vì anh ta dành nhiều thời gian để sáng tạo ra các công việc mới.

Vấn đề quyền riêng tư và minh bạch

Bên cạnh đó còn là vấn đề quyền riêng tư. Micro1 yêu cầu công nhân không lộ mặt hoặc thông tin cá nhân. Sau đó, AI và con người sẽ xóa bỏ những gì lọt lưới. Tuy nhiên, ngay cả khi không lộ mặt, các video vẫn ghi lại những khoảnh khắc đời tư: nội thất nhà, đồ vật sở hữu và thói quen hàng ngày. Việc xác định thông tin nhạy cảm bị ghi lại trong lúc làm việc trên máy ảnh có thể rất khó khăn.

Với những người làm việc có gia đình, việc giữ cuộc sống riêng tư ngoài khung hình là một cuộc đàm phán liên tục. Arjun, cha của hai cô con gái, phải dỗ dành cô con gái hai tuổi để không lọt vào khung hình. Sasha, một cựu ngân hàng ở Nigeria, phải đi chân trần khi phơi quần áo ngoài công viên chung cư để tránh quay lén vào nhà hàng xóm.

"Sẽ mất nhiều thời gian hơn người ta nghĩ."

Ken Goldberg, một nhà robot học tại Đại học California, Berkeley, nói về lượng dữ liệu cần thiết. Mô hình ngôn ngữ lớn được huấn luyện trên văn bản và hình ảnh mà một con người mất 100.000 năm để đọc, và robot nhân dạng có thể cần nhiều dữ liệu hơn, vì việc kiểm soát các khớp robot phức tạp hơn nhiều so với việc tạo ra văn bản.

Tương lai của dữ liệu và an toàn

Đôi khi, các công nhân nói rằng họ thấy những người khác hỏi trên kênh Slack của công ty liệu họ có thể xóa dữ liệu của mình không. Micro1 từ chối bình luận về việc liệu dữ liệu có bị xóa hay không. "Những người đang tham gia vào việc này, họ có thể từ bỏ công việc bất cứ lúc nào", Ansari nói.

Với hàng ngàn công nhân làm những việc khác nhau trong hàng ngàn ngôi nhà khác nhau, một số nhà robot học tự hỏi xem dữ liệu thu thập được có đủ đáng tin cậy để huấn luyện robot an toàn hay không. "Cách chúng ta thực hiện các hoạt động trong nhà hàng ngày không phải lúc nào cũng đúng về mặt an toàn", Aaron Prather, một nhà robot học tại ASTM International, nhận định. "Nếu những người này dạy cho robot những thói quen xấu có thể dẫn đến tai nạn, thì đó không phải là dữ liệu tốt."

Khi Dattu, sinh viên kỹ thuật ở Ấn Độ, về nhà sau trường đại học, anh bỏ qua bữa tối và lao ra ban công chật hẹp để quay video ủi quần áo. Gia đình anh nhìn anh với ánh mắt ngạc nhiên. "Đó giống như một công nghệ vũ trụ với họ", Dattu nói. Khi anh kể chuyện này với bạn bè, "họ chỉ ngạc nhiên khi có thể được trả tiền để quay cảnh làm việc nhà".

Juggling việc học đại học cùng việc ghi nhận dữ liệu, cũng như các công việc gán nhãn dữ liệu khác, đã gây áp lực lớn lên anh. Nhưng "cảm giác như bạn đang làm một điều gì đó khác biệt so với cả thế giới", anh nói.