DeepSeek-V4: SGLang và Miles mang đến hỗ trợ Day-0 cho suy luận nhanh và Học tăng cường
SGLang và Miles đã công bố hỗ trợ "Day-0" cho DeepSeek-V4, cung cấp giải pháp suy luận và huấn luyện RL hiệu quả ngay từ ngày ra mắt. Hệ thống được tối ưu hóa cho kiến trúc attention lai, kết nối siêu mHC và trọng số FP4, mang lại hiệu suất cao trên các phần cứng mới như Blackwell.

DeepSeek-V4: SGLang và Miles mang đến hỗ trợ Day-0 cho suy luận nhanh và Học tăng cường
Đội ngũ SGLang và Miles hào hứng thông báo về việc hỗ trợ ngay lập tức (Day-0) cho DeepSeek-V4 trên cả hai khía cạnh là suy luận (inference) và huấn luyện Học tăng cường (RL). Đây là hai nền tảng mã nguồn mở đầu tiên phục vụ và huấn luyện DeepSeek-V4 ngay trong ngày ra mắt, với hệ thống được xây dựng chuyên biệt cho kiến trúc attention lai thưa (hybrid sparse-attention), kết nối siêu bị hạn chế đa tạp (manifold-constrained hyper-connections - mHC) và trọng số chuyên gia FP4.
ShadowRadix Layout
Các tính năng chính và khả năng mới của DeepSeek-V4
DeepSeek-V4 (phiên bản 1.6T Pro và 284B Flash) là bước tiến hóa từ người tiền nhiệm DeepSeek-V3.2 với ba trụ cột chính:
- Attention lai thưa (Hybrid sparse-attention): Mỗi lớp kết hợp cơ chế attention cửa sổ trượt (sliding window) với một trong hai cơ chế nén: top-k thưa (tỷ lệ 4:1) hoặc nén dày đặc (tỷ lệ 128:1). Điều này giúp duy trì khả năng xử lý cửa sổ ngữ cảnh lên tới 1 triệu token một cách hiệu quả.
- mHC (Manifold-Constrained Hyper-Connections): Đây là sự mở rộng của các kết nối dư (residual connections) tiêu chuẩn, giúp cải thiện dòng chảy gradient và chất lượng biểu diễn của mô hình.
- Trọng số chuyên gia FP4: Sử dụng các chuyên gia MoE (Mixture of Experts) với độ chính xác FP4 gốc, giúp tối ưu hóa hiệu suất phục vụ trên phần cứng Blackwell mới nhất.
Tối ưu hóa suy luận với ShadowRadix và HiSparse
Để xử lý sự phức tạp của cơ chế attention lai trong DeepSeek-V4, SGLang đã giới thiệu ShadowRadix — một cơ chế bộ nhớ đệm tiền tố (prefix caching) dành riêng cho attention lai.
Thông thường, mỗi lớp của DeepSeek-V4 kết hợp SWA (attention cửa sổ trượt) với C4 (thưa top-512) hoặc C128 (dày đặc). ShadowRadix giải quyết vấn đề đồng bộ hóa giữa các nhóm bộ nhớ KV khác nhau bằng cách sử dụng cây radix để lập chỉ mục các vị trí token ảo. Điều này cho phép vòng đời của các bộ nhớ được quản lý độc lập: các token SWA có thể được giải phóng khi cửa sổ trượt di chuyển qua, trong khi các KV nén C4/C128 vẫn được giữ lại để tái sử dụng cho các yêu cầu khác có tiền tố khớp.
Bên cạnh đó, kỹ thuật HiSparse được sử dụng để tăng tốc attention thưa bằng bộ nhớ phân cấp. HiSparse chuyển các bộ nhớ đệm KV không hoạt động sang RAM CPU, cho phép tăng kích thước lô (batch size) và thông lượng tổng thể cho các tác vụ ngữ cảnh dài lên tới 3 lần.
Benchmark kết quả
Tích hợp Kernel và Giải mã suy đoán
SGLang tích hợp nhiều kernel tối ưu hóa để khai thác tối đa phần cứng:
- FlashMLA: Đường dẫn mới cho attention lai, kết hợp SWA và attention bổ sung (C4 hoặc C128) trong một cuộc gọi kernel hợp nhất, hỗ trợ GPU Hopper và Blackwell.
- FlashInfer TRTLLM-Gen: Hợp nhất MoE cho MXFP8 x MXFP4, tận dụng cơ chế tensor-core FP4 đặc thù của Blackwell.
- TileLang và DeepGEMM: Tối ưu hóa cho các lớp mHC và Mega MoE, cải thiện khả năng sử dụng GPU ở các kích thước lô nhỏ và chồng chép giao tiếp NVLink với tính toán tensor-core.
Về Giải mã suy đoán (Speculative Decoding), DeepSeek-V4 sử dụng đầu MTP (Multi-Token Prediction) một lớp. SGLang đã tối ưu hóa việc chuẩn bị metadata nặng nề của attention lai bằng cách hợp nhất nó trực tiếp vào CUDA graph, giúp giảm thiểu chi phí khởi chạy từng bước một cách đáng kể.
Hỗ trợ Học tăng cường (RL) với Miles
Ngoài suy luận, Miles cung cấp nền tảng huấn luyện RL hoàn chỉnh cho DeepSeek-V4. Hệ thống hỗ trợ tất cả các chiến lược song song hóa (DP/TP/SP/EP/PP/CP) trong Megatron-LM.
Các tính năng RL nổi bật bao gồm:
- Ổn định số học: Hỗ trợ huấn luyện FP8 và BF16, với các kỹ thuật như Rollout Routing Replay (R3) và Indexer replay để đảm bảo tính ổn định.
- Xử lý độ chính xác: Duy trì độ chính xác FP32 cho các trọng số nhạy cảm và chuyển đổi một số all-reduce sang FP32 để tránh sai lệch làm tròn BF16.
- Hiệu suất: Các kết quả huấn luyện sơ bộ trên 32 GPU GB300 cho thấy động lực huấn luyện ổn định với độ lệch log-prob giữa rollout và huấn luyện chỉ khoảng 0.023 ở bước đầu tiên.
Kết luận
Với sự hỗ trợ của SGLang và Miles, DeepSeek-V4 không chỉ thể hiện sức mạnh về mặt kiến trúc mô hình mà còn cho thấy khả năng tối ưu hóa phần mềm và phần cứng ấn tượng. Các kỹ thuật như ShadowRadix, HiSparse và các tích hợp kernel tiên tiến giúp khai thác tối đa tiềm năng của GPU Hopper và Blackwell, mở ra cơ hội cho các ứng dụng AI quy mô lớn và ngữ cảnh dài trong tương lai.
Bài viết liên quan

Công nghệ
Tự tay chế tạo hệ thống tổng đài PBX tại nhà: Kỹ thuật, linh kiện và niềm đam mê công nghệ
26 tháng 4, 2026
Công nghệ
Bí mật kỹ thuật bên trong hộp mực Super Nintendo: Từ chip bảo vệ đến bộ xử lý tăng cường
26 tháng 4, 2026

Phần mềm
Toán học là khó khăn: Câu chuyện về OpenBSD và những cạm bẫy của kiến trúc VAX
23 tháng 4, 2026
