Lucebox: Tối ưu hóa Qwen3.5 đạt 207 tok/s trên RTX 3090 nhờ viết lại Kernel

Dự án Lucebox giới thiệu cách tiếp cận mới để tăng tốc suy luận LLM bằng cách viết lại phần mềm cho từng chip cụ thể, đạt hiệu suất kỷ lục 207 token/giây với mô hình Qwen3.5-27B trên GPU RTX 3090. Các kỹ thuật như Megakernel và DFlash speculative decoding giúp khai thác tối đa phần cứng hiện có.

Lucebox Banner

Trong bối cảnh các mô hình ngôn ngữ lớn (LLM) ngày càng đòi hỏi nhiều tài nguyên phần cứng, dự án Lucebox đã công bố những kết quả ấn tượng khi tối ưu hóa hiệu suất suy luận trên GPU người dùng cuối. Thay vì chờ đợi các con chip mới mạnh hơn ra mắt, nhóm phát triển đã chọn cách viết lại hoàn toàn phần mềm, cụ thể là các nhân (kernel) CUDA, để khai thác tối đa sức mạnh của phần cứng hiện có như RTX 3090.

Triết lý: Viết lại phần mềm cho từng chip

Lucebox theo đuổi triết lý "Open LLM inference, rewritten by hand for one specific chip at a time" (Suy luận LLM mã nguồn mở, được viết lại thủ công cho từng chip cụ thể). Điều này có nghĩa là thay vì sử dụng các khung làm việc (framework) chung chung, họ tinh chỉnh các nhân tính toán, giải mã suy đoán (speculative decoding) và lượng tử hóa (quantization) dành riêng cho từng loại chip mục tiêu.

Discord Badge

Dự án hiện bao gồm hai thành phần chính, mỗi thành phần là một bản phát hành độc lập với các tiêu chuẩn hiệu năng và tài liệu kỹ thuật riêng.

Megakernel Qwen3.5 0.8B: Hiệu suất trên mỗi watt

Dự án đầu tiên là Megakernel dành cho mô hình Qwen 3.5-0.8B trên RTX 3090. Đây là megakernel đầu tiên cho các mô hình LLM kết hợp DeltaNet/Attention.

Điểm nổi bật của Megakernel là nó gộp tất cả 24 lớp của mô hình vào một lần điều phối (dispatch) CUDA duy nhất. Điều này giúp loại bỏ các vòng lặp CPU giữa các lớp, giảm độ trễ và tăng hiệu suất năng lượng.

Kết quả benchmark cho thấy Megakernel đạt hiệu suất 1.87 tok/J (token trên mỗi Joule) trên GPU RTX 3090 năm 2020, tương đương với silicon mới nhất của Apple nhưng có tốc độ xử lý gấp đôi.

Megakernel @220W: 37,800 (prefill), 413 (decode), 1.87 tok/J
llama.cpp BF16 @350W: 11,247 (prefill), 267 (decode), 0.76 tok/J
PyTorch HF: 7,578 (prefill), 108 (decode)

DFlash DDtree Qwen3.5 27B: Kỷ lục 207 tok/s

Thành phần thứ hai và cũng là ấn tượng nhất là việc triển khai DFlash DDtree cho mô hình Qwen3.5-27B trên cùng một chiếc RTX 3090.

Nhóm phát triển đã thực hiện việc port thuật toán DFlash speculative decoding sang định dạng GGUF. Với cấu hình Q4_K_M cho mô hình chính và BF16 cho mô hình nháp (draft), kết quả đạt được cực kỳ đáng nể:

Tốc độ tối đa: 207 tok/s trong bản demo (so với 38 tok/s của phương pháp autoregressive truyền thống).
Tốc độ trung bình trên HumanEval: 129.5 tok/s.
Nhanh hơn 3.43 lần so với autoregressive.
Nhanh hơn 2.8 lần so với SGLang AWQ trên cùng phần cứng.
Hỗ trợ ngữ cảnh lên đến 128K trong bộ nhớ 24 GB.

Blog Badge

"Local AI should be a default, not a privilege: private data, no per-token bill, no vendor lock-in."

— Lucebox Team

Tại sao điều này quan trọng?

Sự ra đời của Lucebox đánh dấu một bước chuyển dịch quan trọng. Trong thập kỷ qua, các khung làm việc mục đích chung (general-purpose frameworks) thống trị vì việc tinh chỉnh kernel thủ công cho từng chip quá tốn kém. Kết quả là một stack phần mềm "tạm ổn" cho mọi thứ nhưng không xuất sắc trên bất kỳ thứ gì.

Nhờ sự hỗ trợ của AI trong phát triển, việc viết lại (rewrite) phần mềm giờ đây tốn ít thời gian hơn, cho phép các đội nhóm nhỏ tối ưu hóa sâu cho từng dòng chip cụ thể. Điều này mang lại lợi ích lớn cho cộng đồng chạy AI cục bộ (local AI): dữ liệu riêng tư, không tốn phí theo token, và không bị khóa vào nhà cung cấp nào.

Yêu cầu và Hướng dẫn cài đặt

Để chạy các dự án này, người dùng cần:

NVIDIA GPU (Ampere+, sm_86+), cụ thể là RTX 3090.
CUDA 12+, PyTorch 2.0+.
Dự án DFlash yêu cầu CMake 3.18+.

Các bước cài đặt cơ bản bao gồm clone repository từ GitHub, cài đặt dependencies và tải weights từ HuggingFace. Mã nguồn được cấp phép MIT và hoàn toàn mở để cộng đồng đóng góp và kiểm chứng.

License Badge

Đọc thêm chi tiết về kỹ thuật và benchmark tại trang chủ của Lucebox hoặc GitHub repository của dự án.

Lucebox: Tối ưu hóa Qwen3.5 đạt 207 tok/s trên RTX 3090 nhờ viết lại Kernel

Triết lý: Viết lại phần mềm cho từng chip

Megakernel Qwen3.5 0.8B: Hiệu suất trên mỗi watt

DFlash DDtree Qwen3.5 27B: Kỷ lục 207 tok/s

Tại sao điều này quan trọng?

Yêu cầu và Hướng dẫn cài đặt

Bài viết liên quan