Vệ tinh đầu tiên tự nhận diện vật thể nhờ AI: Bước ngoặt thay đổi tương lai quan sát Trái Đất

Lần đầu tiên, một vệ tinh quan sát Trái Đất đã tự nhận diện và tìm kiếm mục tiêu mà không cần sự hỗ trợ của các chuyên gia dưới mặt đất. Sự kiện này đánh dấu việc sử dụng thành công mô hình ngôn ngữ thị giác (VLM) trên quỹ đạo, mở ra kỷ nguyên mới cho khả năng của cảm biến không gian.

Lần đầu tiên trong lịch sử, một vệ tinh quan sát Trái Đất đã tự mình xác định được mục tiêu mà không cần sự phân tích của con người tại trạm mặt đất. Cột mốc quan trọng này diễn ra vào tháng 4 vừa qua, đánh dấu lần đầu tiên một mô hình ngôn ngữ thị giác (VLM) được vận hành trên quỹ đạo. Điều này mang đến cái nhìn sâu sắc về cách AI có thể thay đổi căn bản khả năng của các cảm biến không gian và giá trị của chúng.

Thông thường, vệ tinh sẽ tải xuống các khối dữ liệu lớn cho các nhà phân tích trên Trái Đất, những người sử dụng thuật toán học máy hoặc mắt thường để xác định tình hình. Tuy nhiên, trên tàu vũ trụ Yam-9 do công ty cơ sở hạ tầng không gian Loft Orbital chế tạo, một gói phần mềm do Phòng Thí nghiệm Sức đẩy Phản lực (JPL) của NASA phát triển đã tự xác định các khu vực quan tâm dựa trên các truy vấn ngôn ngữ tự nhiên.

Mô hình Gemma 3 và sức mạnh của Edge AI

Mô hình Gemma 3 của Google DeepMind — VLM cung cấp sức mạnh cho bản demo này — được xây dựng đặc biệt cho các ứng dụng biên (edge applications), nghĩa là nó được thiết kế để chạy trên phần cứng hạn chế và xa trung tâm dữ liệu. VLM kết hợp khả năng hiểu ngữ cảnh của các mô hình ngôn ngữ lớn (LLM) với khả năng phân tích hình ảnh.

Các nhà nghiên cứu đã yêu cầu mô hình phân loại dữ liệu cảm biến nơi môi trường tự nhiên gặp phải sự phát triển của con người, hoặc xác định cơ sở hạ tầng quanh các trung tâm đường sắt — và nó đã hoàn thành xuất sắc nhiệm vụ.

Ý nghĩa của việc xử lý dữ liệu trên quỹ đạo

Bản demo này có ý nghĩa quan trọng vì hai lý do. Trong ngắn hạn, nó có thể làm cho cảm biến không gian hữu ích hơn nhiều bằng cách thực hiện phân loại dữ liệu ban đầu ngay trên quỹ đạo, giảm lượng dữ liệu thô mà các nhà phân tích hiện nay phải lọc qua. Về dài hạn, đây là bằng chứng cho việc vận hành cơ sở hạ tầng AI quy mô lớn hơn trong không gian.

"Nó mở ra cánh cửa cho các lớp tuần tra luôn hoạt động trong không gian," Paul Lasserre, người đứng đầu bộ phận AI của Loft, chia sẻ với TechCrunch. "Nếu bạn có một VLM, bạn có thể thiết lập logic — như 'giám sát biên giới này cho tôi và báo cho tôi khi có gì đó đáng ngờ' — và tương tác qua lại với các vệ tinh."

Phần cứng và tối ưu hóa phần mềm

Tàu vũ trụ của Loft được thiết kế như một nền tảng cho khách hàng bên thứ ba. Mô hình kinh doanh của họ gần giống với hạ tầng như một dịch vụ (IaaS) hơn là sản xuất vệ tinh truyền thống. Yam-9 được phóng vào mùa thu năm 2025 như một tàu thăm dò cho các dự án AI quỹ đạo của công ty, bao gồm GPU Nvidia Jetson Orin AGX — một trong những chip hàng đầu được sử dụng trong tính toán không gian.

Juan Delfa Victoria, một lãnh đạo kỹ thuật trong nhóm AI của NASA JPL, đã dẫn đầu sự phát triển của NAVI-Orbital, một gói phần mềm đóng vai trò như bộ điều khiển cho VLM Gemma 3. Mặc dù Gemma 3 có sẵn trên thị trường, các kỹ sư phần mềm phải tinh chỉnh gói phần mềm để giảm số lượng thư viện và bộ nhớ mà nó yêu cầu.

Tương lai của AI trong không gian

Mặc dù đây là lần đầu tiên sử dụng VLM trên quỹ đạo được báo cáo, chúng ta có thể mong đợi các công ty khác sẽ làm theo. Planet Labs vận hành các vệ tinh với bộ xử lý Jetson Orin; hiện tại họ sử dụng chúng cho các nhiệm vụ phát hiện vật thể đơn giản hơn, nhưng một người phát ngôn cho biết nghiên cứu đang được tiến hành về các ứng dụng AI khác, bao gồm cả VLM.

Kepler Communications, công ty vận hành nhóm GPU lớn nhất trong không gian, từ chối bình luận về việc liệu họ đã triển khai VLM hay không do các thỏa thuận bảo mật, nhưng lưu ý rằng đã có "một số trường hợp sử dụng chưa được tiết lộ" của môi trường tính toán của họ kể từ khi các tàu vũ trụ đó phóng lên vào tháng 1.

"Bây giờ chúng ta đã chứng minh được khái niệm này, đó thực sự là hướng đi trong tương lai," Lasserre nói. Mục tiêu là xây dựng một chòm sao vệ tinh để đảm bảo phủ sóng thời gian thực ở bất kỳ đâu trên Trái Đất, điều mà ông ước tính sẽ cần khoảng 50 đến 100 vệ tinh như Yam-9.

Ứng dụng cho các phi hành gia

Các bài học kinh nghiệm khi triển khai các mô hình nhỏ hơn này trên quỹ đạo sẽ cung cấp thông tin cho cách các công ty cố gắng triển khai cơ sở hạ tầng tính toán quy mô lớn hơn trong không gian, đặc biệt là trong các lĩnh vực quản lý điện năng và bộ nhớ.

Chúng cũng có thể mở đường cho các công cụ khoa học mới. Ý tưởng về NAVI-Space bắt đầu từ nhà nghiên cứu JPL Taran Cyriac John, người đang suy nghĩ về các trợ lý kỹ thuật số cho các phi hành gia khám phá Mặt Trăng hoặc Sao Hỏa.

"Chúng tôi nghĩ rằng, được rồi, bạn có các phi hành gia với bộ đồ áp suất, và bạn biết rằng họ không thể gõ phím, bất cứ điều gì họ muốn làm đều phức tạp," Delfa Victoria nói. "Vậy thì, sao chúng ta không cung cấp một trợ lý, giống như trong trò chơi điện tử và phim ảnh, nơi bạn thấy một AI có thể tương tác?"

Chỉ cần đừng gọi nó là HAL 9000 nhé.