Xây dựng Máy tính Trọng lực Dữ liệu cho Hạ tầng AI: Phương pháp luận và Ứng dụng

Hầu hết các quyết định về hạ tầng AI hiện nay thường chỉ dựa vào giá thuê GPU theo giờ, nhưng đây chưa phải là biến số tối ưu. Vị trí lưu trữ dữ liệu mới thực sự quyết định chi phí AI, và việc di chuyển một tập dữ liệu lớn có thể tốn kém hơn cả tiền tiết kiệm được từ tính toán. Chúng tôi đã xây dựng AI Gravity & Placement Engine để tính toán "trọng lực dữ liệu" và đưa ra lời khuyên tối ưu về việc đặt hạ tầng trước khi bắt đầu xây dựng kiến trúc.

Hầu hết các quyết định về hạ tầng AI hiện nay thường chỉ dựa vào giá thuê GPU theo giờ. Tuy nhiên, đây thực sự là một biến số đầu vào sai lầm.

Vị trí lưu trữ dữ liệu của bạn mới chính là yếu tố quyết định chi phí AI. Một tập dữ liệu 50TB nằm trên S3 không thể tự động di chuyển sang CoreWeave miễn phí — và chi phí di chuyển dữ liệu đó có thể vượt quá số tiền tiết kiệm được từ tính toán trước khi bạn chạy xong bất kỳ công việc huấn luyện nào.

Chúng tôi đã xây dựng AI Gravity & Placement Engine (Công cụ Trọng lực & Đặt hạ tầng AI) để giúp tính toán độ ma sát này trước khi kiến trúc hệ thống được xác định.

AI placement engine — Token TCO và điểm số trọng lực dữ liệu cho Llama 3 70B BF16 trên nhiều nền tảng hạ tầng đám mây và tại chỗ

Công cụ này hoạt động như thế nào?

Công cụ này tính toán Token TCO (Tổng chi phí sở hữu trên mỗi Token) khi chạy mô hình Llama 3 70B ở độ chính xác BF16 trên sáu tầng hạ tầng khác nhau:

AWS (p5.48xlarge — 8x H100)
GCP (A3-High — 8x H100)
CoreWeave HGX (bare-metal InfiniBand)
Lambda H100
Nutanix AHV (H100, khấu hao CapEx 36 tháng)
Cisco UCS M7 (H100, khấu hao CapEx 36 tháng)

Tất cả các nhà cung cấp đều được chuẩn hóa về chi phí trên mỗi giờ GPU ở cấu hình 8 GPU BF16. Các nhà cung cấp tại chỗ (on-prem) sử dụng khấu hao CapEx trong 36 tháng cộng với một hệ số OpEx có thể điều chỉnh (mặc định là 20%) cho điện năng, làm mát và bảo trì.

Tại sao lại chọn BF16 thay vì INT4?

BF16 yêu cầu khoảng 145GB VRAM chỉ cho trọng số của mô hình Llama 3 70B. Điều này buộc phải sử dụng cấu hình đa GPU trên mọi nhà cung cấp và giúp lộ ra những nền tảng nào có kết nối tốc độ cao (InfiniBand hoặc tương đương NVLink) cần thiết để kết nối các GPU này mà không gây ra độ trễ phạt.

Trong khi đó, lượng tử hóa INT4 có thể vừa vặn trên một GPU 48GB duy nhất. BF16 cho bạn biết chi phí thực tế của kiến trúc ở độ trung thực sản xuất (production fidelity) — và những nhà cung cấp nào có khả năng xử lý nó mà không bị giới hạn về băng thông fabric.

Điểm số Trọng lực Dữ liệu (Data Gravity Score)

Đây là điểm khác biệt chính. Điểm số Trọng lực (G) đo lường chi phí egress (truyền dữ liệu ra ngoài) dưới dạng tỷ lệ phần trăm của chi phí tính toán hàng tháng:

G = (Kích thước Dữ liệu tính bằng GB × Tỷ lệ Egress) ÷ Chi phí Tính toán Hàng tháng

G > 0.5: Chi phí egress vượt quá 50% chi phí tính toán. Dữ liệu quá nặng để di chuyển một cách kinh tế. Phán quyết: Ở nguyên hoặc Hoàn toàn hồi phục (Full Repatriation).
G < 0.1: Dữ liệu thực sự không có trọng lượng. Nhà cung cấp có chi phí tính toán thấp nhất sẽ thắng. Phán quyết: Hybrid Burst (Bùng nổ kết hợp).
Giữa 0.1 và 0.5: Không gian quyết định kiến trúc — nơi việc lựa chọn nhà cung cấp thực sự quan trọng.

Với 50TB và mức egress của AWS là $0.09/GB, Điểm số Trọng lực so với tính toán của AWS rơi vào khoảng 19.6%. Tỷ lệ egress cao hơn của GCP ($0.12/GB) đẩy điểm số của họ lên 34.2% trên cùng một tập dữ liệu. Mức egress gần như bằng không của CoreWeave ($0.01/GB) làm giảm điểm số xuống còn 1.4% — khiến dữ liệu trở nên "nhẹ như không" mặc dù đây là nhà cung cấp có giá GPU theo giờ cao nhất.

Bảng so sánh Nhà cung cấp (Tháng 4/2026, Đã chuẩn hóa)

Nhà cung cấp	Đơn giá ($/GPU-hr)	Egress/GB	Ghi chú
AWS (p5.48xlarge)	$3.93	$0.09	On-demand US-East-1
GCP (A3-High)	$3.00	$0.12	Giảm giá sau năm 2025
CoreWeave HGX	$6.16	$0.01	Bare-metal InfiniBand
Lambda H100	$2.99	$0.00*	*Áp dụng giới hạn băng thông
Nutanix AHV	$2.15	$0.00	Khấu hao 36 tháng + 20% OpEx
Cisco UCS M7	$2.45	$0.00	Khấu hao 36 tháng + 20% OpEx

Phán quyết Đặt hạ tầng

Kết quả đầu ra không phải là một bảng số liệu. Đó là một phán quyết cụ thể:

Ở nguyên (Stay Put) — Trọng lực dữ liệu khiến việc di chuyển trở nên phi kinh tế.
Hybrid Burst — Giữ dữ liệu tại chỗ (on-prem), bùng nổ tính toán lên đám mây để huấn luyện.
Hoàn toàn hồi phục (Full Repatriation) — Suy luận trạng thái ổn định 24/7 ưu tiên sở hữu CapEx.

Mỗi phán quyết đều bao gồm lý do dựa trên các đầu vào cụ thể của bạn và một "Mẹo Kiến trúc sư" (Architect Tip) — cân nhắc vận hành Ngày 2 mà việc so sánh chi phí đơn thuần không thể hiện ra.

Ví dụ, với chu kỳ làm việc 100% ổn định ở mức 50TB, phán quyết là Hoàn toàn hồi phục về Nutanix AHV với giá $125.56/1M token so với $274.51 trên AWS. Mẹo Kiến trúc sư: Cấu hình Nutanix Metro Availability trên Cisco UCS để phù hợp với kỳ vọng SLA kiểu cloud-native mà không phụ thuộc vào các hyperscaler.

Các điều khiển bổ sung

OpEx Adder: Có thể điều chỉnh từ 20% lên 35% cho các cơ sở cũ hơn hoặc phân bổ nhân sự đầy đủ.
Chế độ Chủ quyền (Sovereign Mode): Loại bỏ tất cả các nhà cung cấp đám mây công cộng, giới hạn phán quyết chỉ dành cho Nutanix và Cisco.
Chu kỳ làm việc (Duty Cycle): Mô hình hóa huấn luyện bùng nổ (20–40%) so với suy luận trạng thái ổn định (100%).

Dưới 70% chu kỳ làm việc, lợi thế chi phí của CapEx tại chỗ bắt đầu mất đi so với giá linh hoạt của đám mây. Công cụ sẽ xác định điểm giao thoa này một cách động.

Trải nghiệm ngay

Miễn phí, không cần đăng ký, chạy hoàn toàn trên trình duyệt.

Công cụ: https://gpe.rack2cloud.com

Phương pháp luận + phân tích chi tiết: https://www.rack2cloud.com/ai-gravity-placement-engine/

Tệp providers.json và công thức Điểm số Trọng lực đều được tài liệu hóa trên trang đích để bất kỳ ai muốn xác thực hoặc điều chỉnh mô hình đều có thể thực hiện.