Giới thiệu Orthrus-Qwen3: Khung nền tảng AI tạo token song song, tăng tốc độ gấp 7.8 lần mà vẫn giữ nguyên chất lượng

Orthrus là khung nền tảng mới kết hợp mô hình autoregressive và diffusion, giúp tăng tốc độ sinh token của Qwen3 lên tới 7.8 lần. Điểm nổi bật là công nghệ này đảm bảo kết quả đầu ra hoàn toàn giống hệt mô hình gốc mà không làm giảm độ chính xác hay tiêu tốn nhiều bộ nhớ.

Một bước tiến quan trọng trong lĩnh vực tối ưu hóa suy luận (inference) cho các Mô hình Ngôn ngữ Lớn (LLM) vừa được giới thiệu với tên gọi Orthrus. Đây là một khung khái kiến trúc kép (dual-architecture framework) mới, kết hợp tính chính xác tuyệt đối của các mô hình autoregressive truyền thống với khả năng sinh token song song tốc độ cao của các mô hình diffusion.

Điểm đột phá của Orthrus nằm ở việc nó phá vỡ nút thắt cổ chai trong quá trình giải mã tuần tự (sequential decoding) vốn hạn chế tốc độ của các LLM hiện nay. Thay vì tạo ra từng token một cách tuần tự, Orthrus cho phép tạo song song nhiều token trong một lần truyền tiếp (forward pass), mang lại hiệu suất vượt trội.

Kiến trúc Orthrus

Tăng tốc độ nhưng bảo toàn chất lượng "lossless"

Hầu hết các phương pháp tăng tốc hiện nay, như giải mã đầu cơ (speculative decoding), thường phải đánh đổi một phần độ chính xác để đổi lấy tốc độ. Tuy nhiên, Orthrus cam kết một sự sinh tạo "không mất mát" (strictly lossless). Cơ chế đồng thuận trong mô hình (intra-model consensus mechanism) đảm bảo rằng phân phối dự đoán đầu ra của Orthrus khớp chính xác 100% với mô hình gốc (base model).

So sánh hiệu suất trên MATH-500

Trên bộ kiểm tra MATH-500 đầy thách thức, Orthrus-Qwen3-8B đã đạt được mức tăng tốc khoảng 6 lần so với mô hình Qwen3-8B gốc, trong khi vẫn giữ nguyên điểm số chính xác. Điều này tương phản rõ rệt với các phương pháp như Fast-dLLM-v2, dù tăng tốc nhưng lại bị sụt giảm nghiêm trọng về độ chính xác trong các tác vụ suy luận phức tạp.

Hiệu suất vượt trội so với các giải pháp hiện có

Orthrus đã chứng minh lợi thế của mình khi so sánh trực tiếp với các phương pháp tối ưu hóa hàng đầu như EAGLE-3 và DFlash. Nhờ chia sẻ bộ nhớ đệm Key-Value (KV cache) gốc giữa hai luồng nhìn (autoregressive và diffusion), Orthrus loại bỏ được chi phí bộ nhớ dư thừa thường thấy ở các mô hình phác thảo (draft models).

So sánh tốc độ theo độ dài ngữ cảnh

Kết quả benchmark cho thấy Orthrus đạt được số lượng token xác thực trung bình cao hơn nhiều trên mỗi lần chuyển tiếp, đặc biệt là khi độ dài ngữ cảnh (context length) tăng lên. Điều này làm cho nó trở thành một giải pháp lý tưởng cho các ứng dụng yêu cầu xử lý văn bản dài và tốc độ thực thời.

Các phiên bản mô hình hiện có

Hiện tại, nhóm phát triển đã phát hành các phiên bản Orthrus dựa trên nền tảng Qwen3 với các mức hiệu suất khác nhau:

Orthrus-Qwen3-1.7B: Tăng tốc trung bình 4.25×.
Orthrus-Qwen3-4B: Tăng tốc trung bình 5.20×.
Orthrus-Qwen3-8B: Tăng tốc trung bình 5.36×.

Tất cả các mô hình đều có sẵn trên HuggingFace và đảm bảo tính tương thích, người dùng có thể cài đặt dễ dàng thông qua uv pip hoặc pip. Đặc biệt, khungframework này chỉ cần tinh chỉnh (fine-tune) khoảng 16% tổng số tham số của mô hình, giúp tiết kiệm tài nguyên đào tạo đáng kể.

Triển khai và Tương lai

Orthrus được thiết kế để tích hợp liền mạch với thư viện HuggingFace Transformers và hỗ trợ Flash Attention 2/4 để tối ưu hóa phần cứng. Nhóm phát triển cũng thông báo rằng đang trong quá trình hoàn thiện việc tích hợp sẵn với các khung suy luận hiệu suất cao như vLLM và SGLang trong thời gian tới.

Đối với các nhà phát triển và kỹ sư AI đang tìm kiếm giải pháp để đẩy nhanh tốc độ phản hồi của chatbot hoặc hệ thống xử lý ngôn ngữ tự nhiên mà không muốn hy sinh chất lượng, Orthrus-Qwen3 là một đề xuất cực kỳ hấp dẫn.

Giới thiệu Orthrus-Qwen3: Khung nền tảng AI tạo token song song, tăng tốc độ gấp 7.8 lần mà vẫn giữ nguyên chất lượng

Tăng tốc độ nhưng bảo toàn chất lượng "lossless"

Hiệu suất vượt trội so với các giải pháp hiện có

Các phiên bản mô hình hiện có

Triển khai và Tương lai

Bài viết liên quan