Tại sao nhiệt động lực học là rào cản lớn nhất đối với trung tâm dữ liệu trên quỹ đạo
Các ông lớn công nghệ như Nvidia, SpaceX và Google đang đổ tiền vào trung tâm dữ liệu không gian, nhưng thực tế vật lý về tản nhiệt và bức xạ đặt ra những thách thức cực kỳ khắc nghiệt. Bài viết phân tích những khó khăn về nhiệt động lực học, chi phí vận hành và các ứng dụng thực tiễn duy nhất có thể biện minh cho sự tồn tại của các trung tâm dữ liệu này.

“Tính toán không gian, vùng biên giới cuối cùng, đã đến đây,” CEO Jensen Huang của Nvidia tuyên bố tại hội nghị GTC vào tháng 3. Ý tưởng về các trung tâm dữ liệu trên quỹ đạo đã chuyển từ khoa học viễn tưởng trở thành một hạng mục chi tiêu nghiêm túc. SpaceX của Elon Musk đã mua lại xAI và lên kế hoạch cho một chòm sao các trung tâm dữ liệu dựa trên không gian. Google cũng công bố dự án Suncatcher hợp tác cùng Planet, dự định phóng hai vệ tinh trang bị chip AI TPU vào đầu năm 2027. Startup Starcloud thậm chí đã đệ trình đề xuất lên Ủy ban Truyền thông Liên bang Mỹ (FCC) cho một chòm sao 88.000 vệ tinh phục vụ mục đích này.
Globe surrounded by zeroes and ones
Những người ủng hộ ca ngợi nhiều lợi ích kỳ diệu của việc tính toán trong không gian: năng lượng mặt trời dồi dào, làm mát miễn phí và sự tự do khỏi các sự cố trên Trái Đất như động đất, lũ lụt hay biểu tình. Tuy nhiên, một cái nhìn thực tế về vật lý của việc tính toán ngoài không gian vẽ nên một bức tranh phức tạp hơn nhiều.
Thách thức tản nhiệt trong không gian
Làm mát chính là nơi vật lý tách biệt khoa học khỏi viễn tưởng. Làm mát miễn phí có lẽ là hiểu lầm lớn nhất. Không gian lạnh, nhưng nó cũng không có khí quyển. Điều này có nghĩa là các cơ chế tản nhiệt tốt nhất là dẫn nhiệt và đối lưu đều không thể sử dụng. Lựa chọn duy nhất là bức xạ.
Để ngăn một con chip bị quá nhiệt trong không gian, cần một diện tích bề mặt lớn và tốn kém để tiêu tán năng lượng và sau đó bức xạ nó đi. Định luật chi phối cho việc làm mát bằng bức xạ, loại duy nhất có sẵn trong không gian, được gọi là Định luật Stefan-Boltzmann. Định luật này quy định rằng công suất bức xạ tỷ lệ thuận với diện tích của bộ tản nhiệt nhân với nhiệt độ của nó lũy thừa bốn.
Đối với một hệ thống kiến trúc không gian, hàm ý của định luật này là rất khắc nghiệt. Trên quỹ đạo, biến số duy nhất chúng ta có thể kiểm soát là diện tích. Hạn chế này tạo ra một hình phạt hình học, hay một “thuế vật lý”, cho việc làm mát trong không gian: càng nhiều công suất cần loại bỏ, càng cần bộ tản nhiệt lớn hơn.
Hãy lấy ví dụ về một con chip tiêu thụ 700 watt, như GPU Nvidia H100 phổ biến. Để giữ con chip này ở nhiệt độ 60 °C – điểm ngọt cho tuổi thọ và độ ổn định của GPU – nó sẽ yêu cầu 1,4 mét vuông bề mặt bộ tản nhiệt. Để đặt vào tầm nhìn, một rack AI phổ biến có thể chứa khoảng 32 GPU. Với CPU, bộ nhớ và thiết bị mạng, rack này sẽ tiêu thụ khoảng 40 kilowatt công suất. Nhưng để làm mát tải nhiệt này trong chân không, rack đơn lẻ đó sẽ yêu cầu một bộ tản nhiệt 80 mét vuông, lớn bằng một sân pickleball.
Và đó là kịch bản tốt nhất. Môi trường quỹ đạo thấp (LEO) tự nó chứa đựng những vấn đề khác. Không gian tiếp xúc với các bộ tản nhiệt và lớp phủ của chúng một hỗn hợp hóa chất thù địch của ánh sáng cực tím và oxy nguyên tử. Trong vòng 5 năm tuổi thọ điển hình của một vệ tinh LEO, các yếu tố này làm suy giảm các đặc tính bề mặt của bộ tản nhiệt và làm giảm khả năng tản nhiệt.
Bao gồm sự suy giảm này trong mô hình cho thấy rằng khi bộ tản nhiệt chuyển từ trạng thái “mới” sang trạng thái “hết hạn sử dụng”, vật lý yêu cầu một hình phạt thêm. Để duy trì nhiệt độ hoạt động 60 °C cho các chip GPU, diện tích bề mặt cần thiết sẽ tăng từ khoảng 1,4 mét vuông mỗi chip lên gần 2,0 mét vuông. Nói cách khác, thuế vật lý tăng thêm 40%.
Thách thức từ bức xạ ion hóa
Giải quyết vấn đề nhiệt chỉ là một phần của cuộc chiến. Thách thức lớn khác ở quỹ đạo thấp là bức xạ ion hóa, ảnh hưởng trực tiếp đến phần cứng tính toán. Các vệ tinh ngày nay thường sử dụng bộ xử lý chống bức xạ (rad-hard), rất đáng tin cậy nhưng cũng đắt đỏ hơn nhiều và hiệu suất kém hơn nhiều so với bộ xử lý thương mại tiêu chuẩn.
Một con chip rad-hard tiêu chuẩn không có sức mạnh xử lý để chạy một mô hình ngôn ngữ lớn (LLM) hiện đại. Kết quả là, các nhà khai thác vệ tinh khao khát phóng trung tâm dữ liệu không có lựa chọn nào khác ngoài việc phải thỏa hiệp rủi ro: sử dụng phần cứng dành cho sử dụng trên mặt đất. Để đạt được mật độ tính toán cần thiết, các trung tâm dữ liệu trên quỹ đạo phải sử dụng cùng các Nvidia H100 hoặc Google TPU được tìm thấy trong các trang trại máy chủ trên mặt đất. Vấn đề là các chip này là “mục tiêu mềm” trong không gian. Các hạt năng lượng cao có thể làm lật bit trong bộ nhớ hoặc gây ra “kẹt logic” (latch-ups) làm cháy mạch.
Một lựa chọn có thể là che chắn máy tính khỏi bức xạ bằng các tấm dày, hấp thụ. Tuy nhiên, lớp che chắn sẽ làm tăng đáng kể khối lượng của các vệ tinh vốn đã nặng nề. Lựa chọn khác là bù đắp cho thiệt hại bức xạ bằng tính dư thừa. Các kiến trúc sư tính toán biên đang chuyển sang khả năng phục hồi do phần mềm định nghĩa, nơi thay vì một máy tính hoàn toàn chống chịu, các nhà khai thác vận hành một cụm máy tính thương mại không hoàn hảo với tổng chi phí có thể thấp bằng một phần mười đến một phần trăm so với mô hình rad-hard.
Cách tiếp cận dư thừa này được sử dụng trong nhiều tàu vũ trụ, bao gồm Artemis II, cũng như máy tính bay của SpaceX và máy chủ biên Hewlett Packard Enterprise cho Trạm vũ trụ Quốc tế. Bằng cách chạy ba (hoặc nhiều hơn) phiên bản của cùng một tính toán trên ba nút khác nhau và so sánh câu trả lời, hệ thống có thể phát hiện ra một bộ xử lý bị hỏng. Điều này đảm bảo khả năng phục hồi, nhưng cũng có nghĩa là một phần công suất tính toán được dành cho tính dư thừa, làm tăng thêm chi phí.
Thách thức năng lượng và chi phí
Một lợi thế được ca ngợi thường xuyên của các trung tâm dữ liệu trên quỹ đạo là nguồn cung cấp năng lượng sạch, miễn phí dường như vô tận từ mặt trời. Năng lượng mặt trời trên quỹ đạo thực sự dồi dào, ở mức 1.361 watt trên mỗi mét vuông. Tuy nhiên, việc thu hoạch năng lượng miễn phí đó chỉ có thể thực hiện được thông qua việc phóng các tấm pin mặt trời lớn cực kỳ tốn kém lên quỹ đạo. Và những tấm pin mặt trời này cũng bị suy giảm theo thời gian do tiếp xúc với bức xạ, thường mất đi 1 đến 3% hiệu quả mỗi năm.
Giả sử một mảng pin mặt trời thu thập 1 MW công suất để chạy một cụm AI. Các định luật vật lý yêu cầu vệ tinh cuối cùng phải bức xạ 1 MW nhiệt thải. Vì diện tích vuông cần thiết để tạo ra năng lượng mặt trời – khoảng 400 W/m2 – và để loại bỏ nhiệt – khoảng 450 W/m2 – gần như tương đương, mỗi mét vuông tạo ra năng lượng giờ đây đòi hỏi khoảng một mét vuông làm mát khác. Bộ tản nhiệt cần phải là một kết cấu ngang hàng, không chỉ là một lớp phủ thụ động trên bề mặt được sử dụng cho mục đích khác.
Tại ABI Research, chúng tôi đã thực hiện một so sánh chi phí sở hữu tổng thể sơ bộ giữa một trung tâm dữ liệu trên Trái Đất và một trung tâm trong không gian. Nó cho thấy chi phí để phóng và vận hành một GPU trong không gian trong một năm cao hơn ít nhất một cấp độ so với cùng một nhiệm vụ trong trung tâm dữ liệu trên mặt đất. Mô hình của chúng tôi giả định sử dụng tàu Starship của SpaceX với chi phí phóng tối ưu là 44 USD mỗi kg và chi phí năng lượng trên mặt đất là 0,20 USD mỗi kilowatt-giờ.
Các ứng dụng “sát thủ” cho tính toán không gian
Với tất cả những thách thức này, tại sao lại xây dựng trung tâm dữ liệu trong không gian? Mặc dù việc huấn luyện hoặc suy luận trên các LLM trong không gian dường như không kinh tế hiện nay, có những ứng dụng rất thuyết phục khác cho tính toán trong không gian.
Một ứng dụng là giải quyết nút thắt truyền dữ liệu xuống (downlink bottleneck) từ các vệ tinh quan sát Trái Đất. Các vệ tinh quan sát Trái Đất mới nhất được trang bị cảm biến siêu quang phổ và radar khẩu độ tổng hợp có thể tạo ra hàng trăm terabyte dữ liệu thô mỗi ngày. Tuy nhiên, các “đường ống” tần số vô tuyến được sử dụng để truyền dữ liệu xuống đang bị tắc nghẽn và cơ sở hạ tầng mặt đất không thể hấp thụ khối lượng dữ liệu thô khổng lồ đó. Bằng cách đặt tính toán hiệu suất cao ngay cạnh cảm biến, chúng ta có thể xử lý terabyte dữ liệu trên quỹ đạo và chỉ truyền xuống dữ liệu liên quan theo thời gian thực.
Một ứng dụng cấp bách khác là ngăn chặn va chạm trong môi trường quỹ đạo thấp ngày càng đông đúc. Với hơn 17.000 vệ tinh trên quỹ đạo, việc tránh va chạm giữa các vệ tinh này là rất quan trọng. Theo báo cáo gần đây của SpaceX, chòm sao Starlink thực hiện một thao tác tránh va chạm trung bình mỗi 2 phút. Trong kỷ nguyên của các chòm sao khổng lồ, vòng lặp OODA (quan sát, định hướng, quyết định, hành động) phải diễn ra trên bo mạch, do đó giảm thời gian phân tích từ vài phút xuống vài mili giây. Các máy tính bay tiêu chuẩn hiện tại không được xây dựng cho mức độ xử lý này, do đó nhu cầu về các máy tính mạnh hơn là rõ ràng.
Tương lai của tính toán trong không gian
Ngành công nghiệp hiện đang thử nghiệm hai lớp giải pháp chính để đối phó với định luật Stefan-Boltzmann. Một lựa chọn sáng tạo là sử dụng các bộ tản nhiệt lấy cảm hứng từ nghệ thuật gấp giấy origami, loại được sử dụng cho kính viễn vọng James Webb. Các công ty đang phát triển các bộ tản nhiệt composite linh hoạt, dẫn nhiệt cao gấp thành một khối lập phương chặt chẽ để phóng và triển khai thành các cánh nhiệt khổng lồ nhưng nhẹ nhàng trên quỹ đạo.
Một khả năng khác là sử dụng bộ tản nhiệt giọt chất lỏng. Khái niệm này đề xuất loại bỏ hoàn toàn cấu trúc bộ tản nhiệt cứng và thay vào đó phun một dòng dầu làm mát trực tiếp vào chân không của không gian. Chất lỏng di chuyển qua một vòng hở, tiếp xúc với sự lạnh gần tuyệt đối của hư vô, tối đa hóa diện tích bề mặt bức xạ trước khi được thu thập bởi một bộ thu và bơm trở lại tàu.
Ngay cả khi chi phí phóng giảm, gánh nặng khối lượng và chi phí của việc tạo năng lượng và quản lý nhiệt sẽ vẫn là một vấn đề cơ bản. Việc nhận ra thực tế nhiệt của việc làm mát trong không gian buộc chúng ta phải thay đổi cách nhìn nhận hoạt động vệ tinh. Chúng ta đang chuyển khỏi kỷ nguyên “phóng và quên” sang kỷ nguyên “hậu cần tự chủ”. Để làm cho kinh tế của việc tính toán trên quỹ đạo hoạt động, cơ sở hạ tầng phải có thể bảo trì và tên lửa phóng chúng phải có thể tái sử dụng.
Cuối cùng, thuế vật lý là phổ quát. Cho dù quản lý việc loại bỏ nhiệt trong chân không của quỹ đạo thấp hay quản lý mật độ công suất trong một cơ sở siêu quy mô ở Virginia, ràng buộc không bao giờ là silic. Đó là nhiệt động lực học.



