KVarN: Backend lượng tử hóa KV-cache gốc của Huawei giúp vLLM tăng hiệu suất vượt trội

KVarN là giải pháp backend mới dành cho vLLM, cung cấp khả năng tăng dung lượng bộ nhớ đệm KV lên 3-5 lần và cải thiện thông lượng lên tới 1,3 lần so với FP16 mà vẫn giữ nguyên độ chính xác. Được thiết kế cho các tác vụ AI bối cảnh dài và tác nhân (agentic), công nghệ này hoạt động không cần hiệu chuẩn và dễ dàng tích hợp.

KVarN là giải pháp backend lượng tử hóa KV-cache mới được phát triển bởi Huawei, được thiết kế đặc biệt để tối ưu hóa cho các khối lượng công việc AI đòi hỏi bối cảnh dài và khả năng tác nhân (agentic). Công nghệ này giải quyết bài toán khó khăn trong việc cân bằng giữa dung lượng bộ nhớ, tốc độ xử lý và độ chính xác khi suy luận các mô hình ngôn ngữ lớn (LLM).

Build on vLLM

Tại sao KVarN lại quan trọng?

Trong suy luận AI, KV-cache (Key-Value cache) đóng vai trò then chốt nhưng thường chiếm dụng nhiều bộ nhớ GPU. Các phương pháp lượng tử hóa hiện nay thường đánh đổi: hoặc là tăng dung lượng nhưng giảm tốc độ, hoặc là giảm tốc độ và làm mất độ chính xác. KVarN ra đời để phá vỡ thế cân bằng này, cho phép hệ thống đạt được cả ba yếu tố: dung lượng lớn, tốc độ cao và độ chính xác tương đương FP16.

License Apache 2.0

Hiệu suất ấn tượng

KVarN mang lại những cải thiện đáng kể so với các phương pháp truyền thống như TurboQuant:

Tăng dung lượng KV-cache: Cung cấp từ 3 đến 5 lần dung lượng thêm so với FP16, cho phép xử lý các bối cảnh (context) dài hơn nhiều.
Tăng thông lượng: Cải thiện tốc độ xử lý lên tới khoảng 1,3 lần so với FP16 và gấp 2,4 lần so với TurboQuant trong cùng một dung lượng.
Độ chính xác cao: Giữ nguyên độ chính xác ở mức FP16, ngay cả với cấu hình lượng tử hóa 4-bit cho keys và 2-bit cho values.

Điều này giúp KVarN nằm ở "góc trên bên phải" của biểu đồ hiệu suất: nơi có độ chính xác cao nhất, tốc độ nhanh nhất và dung lượng lớn nhất mà các phương pháp hiện tại khó với tới được.

Cơ chế hoạt động: Chuẩn hóa phương sai

Tên gọi KVarN là viết tắt của Variance Normalized KV-Cache. Khác với các phương pháp lượng tử hóa thông thường, KVarN xử lý dữ liệu qua quy trình 4 giai đoạn cho mỗi ô (tile) token cố định:

Cache: Lấy dữ liệu KV thô từ FP16.
Rotated Cache: Sử dụng phép quay Hadamard dọc theo chiều kênh để phân tán các giá trị ngoại lai (outliers), giúp việc lượng tử hóa dễ dàng hơn mà không làm thay đổi điểm số attention.
Normalized Cache: Áp dụng chuẩn hóa phương sai lặp lại (tương tự thuật toán Sinkhorn) để cân bằng phương sai trên toàn bộ ô, giúp giảm thiểu sai số lượng tử hóa trước khi làm tròn số.
Quantized Cache: Thực hiện lượng tử hóa bất đối xứng ở độ bit thấp với các scale factors được gộp lại khi đọc.

arXiv Paper

Dễ dàng tích hợp và sử dụng

Một trong những ưu điểm lớn nhất của KVarN là tính năng "plug-and-play" (cắm là chạy). Nó là một backend attention gốc của vLLM, không yêu cầu hiệu chuẩn (calibration) hay thay đổi mô hình.

Để sử dụng KVarN, người dùng chỉ cần cài đặt bản fork của vLLM từ Huawei và thêm một cờ (flag) khi khởi tạo:

from vllm import LLM, SamplingParams

llm = LLM(
    model="Qwen/Qwen3-32B",
    dtype="float16",
    kv_cache_dtype="kvarn_k4v2_g128",   # Bật KVarN
    block_size=128,                     # Kích thước tile của KVarN
)

Hoặc khi chạy server:

vllm serve Qwen/Qwen3-32B --dtype float16 --kv-cache-dtype kvarn_k4v2_g128 --block-size 128

KVarN hiện đang được phát triển mạnh mẽ và đã có sẵn trên GitHub dưới giấy phép Apache 2.0, mở ra cơ hội mới cho việc triển khai các mô hình AI quy mô lớn với hiệu suất tối ưu hơn.

GitHub Stars

KVarN: Backend lượng tử hóa KV-cache gốc của Huawei giúp vLLM tăng hiệu suất vượt trội

Tại sao KVarN lại quan trọng?

Hiệu suất ấn tượng

Cơ chế hoạt động: Chuẩn hóa phương sai

Dễ dàng tích hợp và sử dụng

Bài viết liên quan