AutoRound: Bộ công cụ lượng tử hóa LLM tiên tiến giúp tối ưu hiệu suất và bộ nhớ

AutoRound là bộ công cụ mã nguồn mở giúp lượng tử hóa các Mô hình Ngôn ngữ Lớn (LLM) và Mô hình Ngôn ngữ-Thị giác (VLM) xuống mức 2-4 bit mà vẫn giữ được độ chính xác cao. Công cụ này hỗ trợ đa nền tảng, tích hợp dễ dàng với vLLM, Transformers và giúp giảm đáng kể chi phí phần cứng khi triển khai AI.

AutoRound là bộ công cụ lượng tử hóa tiên tiến được thiết kế dành riêng cho các Mô hình Ngôn ngữ Lớn (LLM) và Mô hình Ngôn ngữ-Thị giác (VLM). Được phát triển để giải quyết bài toán cân bằng giữa hiệu suất và tài nguyên, AutoRound cho phép đạt được độ chính xác cao ở các độ sâu bit siêu thấp (2–4 bit) nhờ thuật toán giảm gradient theo dấu (sign-gradient descent).

AutoRound Logo

Điểm nổi bật của AutoRound

Một trong những thách thức lớn nhất khi triển khai LLM là yêu cầu về bộ nhớ và sức mạnh tính toán khổng lồ. AutoRound giải quyết vấn đề này bằng cách cung cấp khả năng nén mô hình hiệu quả mà không làm giảm quá nhiều chất lượng đầu ra.

Độ chính xác vượt trội

Công cụ này mang lại hiệu suất mạnh mẽ ngay cả ở mức 2-3 bit, dẫn đầu trong các bài benchmark ở mức 4 bit. Điều này cho phép các nhà phát triển chạy các mô hình lớn trên phần cứng phổ thông hơn.

Tốc độ và chi phí tối ưu

AutoRound có thể lượng tử hóa mô hình 7B chỉ trong khoảng 10 phút trên một GPU duy nhất. Nó cũng cung cấp chế độ "Round-to-Nearest" được tối ưu hóa (RTN) giúp tăng tốc độ xử lý.

Hệ sinh thái hỗ trợ rộng lớn

Bộ công cụ này tương thích với nhiều thư viện và khung (framework) phổ biến hiện nay như Transformers, vLLM và SGLang. Ngoài ra, nó hỗ trợ xuất ra nhiều định dạng khác nhau như AutoAWQ, AutoGPTQ và GGUF để tối đa hóa khả năng tích hợp.

Python Badge

Cài đặt và Sử dụng

AutoRound hỗ trợ cài đặt linh hoạt trên nhiều môi trường phần cứng khác nhau bao gồm CPU (Intel Xeon), GPU (CUDA), Intel GPU và HPU (Gaudi).

Cài đặt qua pip

Để cài đặt phiên bản tiêu chuẩn cho CPU hoặc GPU (CUDA), bạn có thể sử dụng lệnh sau:

pip install auto-round

Sử dụng dòng lệnh (CLI)

Công cụ cung cấp giao diện dòng lệnh trực quan giúp lượng tử hóa mô hình nhanh chóng. Ví dụ dưới đây展示了 cách lượng tử hóa mô hình Qwen3-0.6B với cấu hình W4A16:

auto-round \
  --model Qwen/Qwen3-0.6B \
  --scheme "W4A16" \
  --format "auto_round" \
  --output_dir ./tmp_autoround

Sử dụng API Python

Đối với các nhà phát triển muốn tích hợp sâu vào quy trình pipelines, AutoRound cung cấp API linh hoạt:

from auto_round import AutoRound

model_name_or_path = "Qwen/Qwen3-0.6B"
# Khởi tạo với cấu hình lượng tử hóa W4A16
ar = AutoRound(model_name_or_path, scheme="W4A16")

# Thực hiện lượng tử hóa và lưu mô hình
ar.quantize_and_save(output_dir="./qmodel", format="auto_round")

Các tính năng nâng cao

AutoRound không chỉ dừng lại ở việc lượng tử hóa trọng số (weight-only). Nó còn mở rộng hỗ trợ cho các kiểu dữ liệu mới như MXFP, NVFP, W8A8 và nhiều định dạng hỗn hợp khác.

Hỗ trợ VLM: Công cụ cung cấp khả năng lượng tử hóa out-of-the-box cho hơn 10 mô hình ngôn ngữ-thị giác.
AutoScheme: Tính năng (thử nghiệm) cho phép tạo công thức lượng tử hóa bits/dtype hỗn hợp tự động, giúp cân bằng giữa tốc độ và độ chính xác một cách thông minh.
Đa định dạng xuất: Hỗ trợ xuất sang GGUF (đồ họa phổ biến cho các ứng dụng local), AutoAWQ, và AutoGPTQ.

Release Badge

Kết luận

Với sự phát triển không ngừng và tích hợp sâu vào các hệ sinh thái AI lớn, AutoRound đang trở thành một công cụ hữu ích cho các kỹ sư và nhà nghiên cứu muốn tối ưu hóa mô hình LLM của mình. Việc giảm dung lượng mô hình mà vẫn giữ được hiệu suất cao là chìa khóa để đưa AI tiếp cận được với nhiều người dùng hơn trên các thiết bị đa dạng.