Expanse: Khai thác dung lượng GPU lãng phí và tối ưu hóa hiệu suất cho các cụm HPC

Startup Expanse (YC P26) ra mắt giải pháp phần mềm giúp tăng hiệu suất sử dụng cụm HPC/GPU bằng cách dự đoán chính xác nhu cầu tài nguyên trước khi chạy job. Hệ thống tích hợp với Kubernetes và SLURM, giúp các trung tâm dữ liệu tiết kiệm hàng triệu USD và ngăn chặn sự cố thất bại của workload nhờ phân tích mã nguồn và telemetry phần cứng.

Vấn đề lãng phí tài nguyên trong trung tâm dữ liệu

Các trung tâm dữ liệu hiện nay thường chỉ hoạt động ở mức hiệu suất khoảng 30% đến 40%. Nguyên nhân chính là do người dùng thường yêu cầu (request) nhiều tài nguyên hơn mức thực sự cần thiết. Đây là kết quả của rủi ro không cân xứng: việc yêu cầu quá nhiều sẽ tốn kém và lãng phí dung lượng mà người khác có thể sử dụng, nhưng nếu yêu cầu quá ít, công việc (job) sẽ bị gián đoạn giữa chừng và bạn mất đi nhiều ngày làm việc. Do đó, hầu hết mọi người đều yêu cầu dư thừa từ hai đến ba lần so với nhu cầu thực tế.

Đội ngũ Expanse đã đo lường một cụm HPC (High Performance Computing) quy mô quốc gia trong một tháng. Trong số 122.000 job, có tới 59% sức mạnh tính toán bị lãng phí. Với giá thuê theo nhu cầu (on-demand) của đám mây cho cùng phần cứng đó, con số này tương đương khoảng 8,5 triệu USD chi phí tính toán bị lãng phí chỉ trong một tháng tại một cụm máy. Mô hình lãng phí tương tự cũng xuất hiện trong các ngành công nghiệp tính toán quy mô lớn như các quỹ định lượng (quant funds), phòng thí nghiệm AI và sản xuất.

Cách Expanse giải quyết vấn đề

Expanse được cài đặt trên mọi node và tích hợp sâu vào SLURM hoặc bộ lập lịch Kubernetes. Hệ thống này tiêu thụ telemetry phần cứng trực tiếp (DCGM, CUPTI, Cgroups, Network/IO monitoring) của cụm máy để tạo ra một biểu diễn tùy chỉnh về cách phần cứng của bạn hoạt động.

Expanse quét bất kỳ workload nào sắp được gửi qua SLURM/K8s (tích hợp vào vòng đời của job nên bạn không cần thay đổi cách gửi things) và đưa dữ liệu này vào các mô hình deep learning của mình. Điều này cung cấp cho các nhà nghiên cứu các đề xuất tài nguyên chính xác, phát hiện lỗi và gợi ý tối ưu hóa ngay tại thời điểm gửi job. Các mô hình được tinh chỉnh (fine-tune) riêng cho từng cụm và sẽ trở nên chính xác hơn theo thời gian khi chạy nhiều workload hơn.

Các mô hình của Expanse được đào tạo để cung cấp (over-provision) thay vì thiếu hụt (under-provision) do hậu quả không cân xứng khi một job bị crash. Họ cũng cung cấp các ước tính về độ không chắc chắn và giá trị p90 để cho phép người dùng chọn mức dung sai rủi ro của mình.

Ba tính năng chính của Expanse

Expanse cung cấp ba khả năng cốt lõi cho người dùng cụm:

Dự đoán tài nguyên khi gửi job: Expanse dự đoán GPU VRAM, mức sử dụng, bộ nhớ, CPU và thời gian chạy thực tế mà job cần, đi kèm khoảng tin cậy. Từ các dự đoán này, hệ thống cũng đưa ra cảnh báo lỗi cho các vấn đề liên quan đến bộ nhớ (như OOM - Out of Memory) và các đề xuất tối ưu hóa cấp độ dòng mã để tăng hiệu suất sử dụng phần cứng.
Quan sát trực tiếp (Live Observability): Trong khi job chạy, Expanse hiển thị telemetry đang thu thập thông qua một bảng điều khiển trực quan, cung cấp cái nhìn sâu sắc về những gì đang diễn ra trên phần cứng và vị trí workload của bạn ở mức độ phân tích stack mã. Hệ thống phân tích động các workload để đạt được mức chi phí thấp (chỉ một chữ số phần trăm) nhưng vẫn cung cấp nhiều thông tin.
Chẩn đoán lỗi: Nếu một workload thất bại, Expanse sẽ sử dụng tất cả dữ liệu đã thu thập để thực hiện tương quan giữa phân tích stack và telemetry phần cứng, từ đó đưa ra nhật ký giải pháp hướng tới hành động. Các nhật ký này sẽ cho bạn biết không chỉ những gì đã xảy ra khi job thất bại, mà còn tại sao và cách khắc phục với các gợi ý cụ thể từng dòng mã.

Tại sao Expanse tốt hơn các LLM hiện tại?

Phương pháp tiếp cận tiên tiến nhất hiện nay cho các cụm máy thường dựa vào các giá trị trung bình lịch sử theo người dùng từ sacct (cơ sở dữ liệu kế toán SLURM), các quy tắc/heuristic do con người viết, hoặc các tác nhân viết mã LLM. Tuy nhiên, Expanse đã vượt xa các mô hình LLM biên giới (frontier LLMs) như Gemini, Claude Opus hay GPT trong các bài kiểm tra dự đoán tài nguyên.

Các mô hình LLM lý luận trong môi trường chân không, không có hỗ trợ gốc cho các đầu vào đa phương thức như mã nguồn (để hiểu luồng dữ liệu và mẫu tính toán) và telemetry phần cứng (để hiểu mẫu hiệu suất của cụm). Do đó, chúng không thể dự đoán chính xác tài nguyên cần thiết. Ngược lại, Expanse liên tục cập nhật các mô hình nội bộ để đảm bảo dự đoán ngày càng chính xác khi có nhiều workload mới chạy trên cụm, giúp hệ thống thích nghi tốt với thay đổi về phần cứng hoặc mẫu workload mới.

LLM rất giỏi trong việc viết mã và quét siêu tham số (hyper parameter sweeps), nhưng chúng cần Expanse để hoàn thành vòng lặp tác nhân đầy đủ cho nghiên cứu tự động. Đội ngũ Expanse đã làm cho các công cụ CLI của mình thân thiện với LLM để dễ dàng tích hợp.

Mô hình hoạt động và đối tượng hướng tới

Hiện tại, Expanse đang tìm kiếm khách hàng cho các chương trình thí điểm trả phí. Giá cả được xác định trên mỗi cụm máy. Họ cung cấp cửa sổ đo lường hai tuần, nơi họ cài đặt, thu thập dữ liệu và báo cáo dung lượng có thể khôi phục cho các nhà khai thác trung tâm dữ liệu, sau đó là triển khai thí điểm trả phí trong một bộ phận với mức phí cố định hàng tháng.

Nếu bạn đang vận hành một cụm HPC/GPU (SLURM hoặc K8s, 100+ GPU trở lên), đội ngũ Expanse rất muốn trao đổi. Họ sẽ cài đặt trên một phần cụm của bạn trong một tuần, gửi báo cáo bằng văn bản về dung lượng có thể khôi phục, và bạn quyết định xem có tiếp tục hay không.