EDEN 2021: Thuật toán lượng tử hóa "lão làng" vượt trội so với TurboQuant 2026 nhờ một tham số quy mô

Mặc dù TurboQuant gây tiếng vang lớn tại ICLR 2026, nghiên cứu mới chỉ ra rằng thuật toán EDEN ra mắt năm 2021 lại hoạt động hiệu quả hơn nhờ tối ưu hóa hệ số quy mô. EDEN không chỉ giảm thiểu sai số mà còn giúp tiết kiệm đáng kể băng thông trong các ứng dụng AI và LLM.

Tại hội nghị ICLR 2026, TurboQuant — một phương pháp lượng tử hóa vector trực tuyến — đã thu hút sự chú ý rộng rãi của cộng đồng kỹ thuật. Tuy nhiên, đối với những người am hiểu lịch sử của lĩnh vực này, thuật toán mới toanh đó lại trông rất quen thuộc. Thực tế, TurboQuant trùng lặp rất nhiều với EDEN, một phương pháp lượng tử hóa được giới thiệu lần đầu dưới tên DRIVE tại NeurIPS 2021 và được tổng quát hóa cho các độ rộng bit tùy ý tại ICML 2022.

Trong một bài so sánh chi tiết mới đây, chúng tôi đã chỉ ra rằng biến thể TurboQuant-mse thực chất là một trường hợp suy biến của EDEN. Hơn nữa, các biến thể của EDEN liên tục vượt trội hơn so với các đối tác tương ứng của TurboQuant về hiệu suất.

Cơ chế lượng tử hóa vector của EDEN

Giả sử bạn cần nén một vector xx dd chiều (ví dụ như một cập nhật gradient, một embedding, hoặc một mục KV-cache) xuống chỉ còn vài bit cho mỗi tọa độ. EDEN thực hiện quy trình này qua bốn bước:

Xoay ngẫu nhiên (Random rotation): Nhân vector với một ma trận trực giao ngẫu nhiên Π\Pi. Sau khi xoay, các tọa độ sẽ có phân phối giống hệt nhau và với dd đủ lớn, chúng xấp xỉ phân phối Gauss.
Lượng tử hóa vô hướng (Scalar quantization): Làm tròn mỗi tọa độ đã xoay thành một trong 2b2^b mức từ một bộ mã Lloyd–Max được huấn luyện trên phân phối tọa độ đã biết (bb là số bit mục tiêu cho mỗi tọa độ).
Quy mô (Scale): Nhân với một hệ số quy mô SS.
Xoay ngược (Inverse rotation): Áp dụng Π⊤\Pi^\top để khôi phục sự xấp xỉ x^\hat{x} của vector ban đầu.

Trong khi các công trình trước đây chủ yếu sử dụng phép xoay để thu hẹp dải động của các tọa độ, EDEN là sơ đồ lượng tử hóa đầu tiên khai thác một tính chất mạnh mẽ hơn của phép xoay ngẫu nhiên: các tọa độ sau khi xoay tuân theo một phân phối đã biết. Điều này cho phép sử dụng bộ lượng tử hóa xác định đi kèm với một hệ số quy mô dạng đóng, giúp giảm thiểu MSE hoặc tạo ra ước tính không thiên lệch tùy thuộc vào ứng dụng.

So sánh mã giả của EDEN và TurboQuant

Hình ảnh trên cho thấy mã giả của EDEN-biased, EDEN-unbiased và TurboQuant-mse. Ba thuật toán này gần như giống hệt nhau, ngoại trừ ở bước 5: sự lựa chọn của hệ số SS.

Tại sao hệ số quy mô tối ưu lại quan trọng

Giá trị của việc áp dụng hệ số quy mô SS phù hợp tăng lên theo độ rộng bit. Tại b=1b = 1 bit, sự chênh lệch là không đáng kể. Tuy nhiên, ở d=128d = 128 và b=4b = 4 bits — các thông số mà các kỹ sư thực tế thường sử dụng cho embedding và KV cache — EDEN-biased giảm thiểu MSE tốt hơn TurboQuant-mse tới 2,25%.

Trên các chiều từ 16 đến 4096 và tất cả các độ rộng bit được kiểm tra, vNMSE (MSE chuẩn hóa vector) của EDEN-biased luôn thấp hơn của TurboQuant-mse. Khi chiều dữ liệu tăng rất lớn, hệ số SS tối ưu tiệm cận 1 và hai thuật toán này hội tụ, nhưng ở các chiều thực tế (128–1024), khoảng cách hiệu suất vẫn tồn tại rõ rệt.

Nén không thiên lệch: Tiết kiệm hơn một bit đầy đủ

Các kết quả trên liên quan đến các biến thể có thiên lệch (tối thiểu hóa MSE). Bây giờ hãy xem xét trường hợp không thiên lệch, nơi các ứng dụng như huấn luyện phân tán, attention xấp xỉ hoặc truy xuất tích vô hướng cần 𝔼[x^]=x\mathbb{E}[\hat{x}] = x vì chúng trung bình cộng nhiều vector đã lượng tử hóa.

EDEN-unbiased sử dụng cùng một thuật toán một lượt như EDEN-biased, chỉ khác là SS được chọn để hiệu chỉnh thiên lệch. Trong khi đó, biến thể không thiên lệch của TurboQuant là TurboQuant-prod lại đi một hướng khác: nó dùng (b−1)(b-1) bit cho bước TurboQuant-mse có thiên lệch và dành 1 bit để hiệu chỉnh phần dư bằng QJL (Quantized Johnson–Lindenstrauss).

EDEN-unbiased vượt trội hơn TurboQuant-prod trong mọi cấu hình được kiểm tra với biên độ lớn. Khoảng cách này xuất phát từ ba lợi thế cấu trúc của thiết kế một lượt của EDEN:

EDEN tối ưu hóa hệ số quy mô.
Cấu trúc 1-bit của EDEN có phương sai thấp hơn QJL.
EDEN sử dụng toàn bộ ngân sách bit cho một bộ lượng tử hóa không thiên lệch duy nhất, thay vì chia nhỏ như TurboQuant-prod.

Kết quả là EDEN-unbiased với 1-bit, 2-bit và 3-bit chính xác hơn lần lượt so với TurboQuant-prod với 2-bit, 3-bit và 4-bit. Bằng cách chuyển sang EDEN, bạn có thể giảm một bit cho mỗi tọa độ và vẫn duy trì độ chính xác của TurboQuant-prod.

So sánh vNMSE giữa EDEN-unbiased và TurboQuant-prod

Kiểm tra trên các benchmark tiêu chuẩn

Cùng một kết quả cũng được thấy trên các benchmark ANN tiêu chuẩn mà TurboQuant đánh giá, bao gồm các vector từ GloVe của Stanford và các embedding OpenAI3 của Qdrant. EDEN-biased đạt MSE thấp hơn TurboQuant-mse, EDEN-unbiased đạt sai số tích vô hướng thấp hơn đáng kể so với TurboQuant-prod, và khả năng truy xuất láng giềng gần nhất (nearest-neighbor recall) trên cả hai bộ dữ liệu đều nghiêng về phía EDEN.

So sánh khả năng truy xuất (Recall) trên các tập dữ liệu thực tế

Kết luận: Hãy sử dụng EDEN và tối ưu hóa hệ số quy mô

Hệ số quy mô của EDEN kết nối phân phối sau khi xoay đã biết với một bộ lượng tử hóa tối ưu về mặt phân tích. TurboQuant-mse giữ lại phép xoay và bộ mã của EDEN nhưng cố định S=1S=1, điều này biến nó thành một trường hợp đặc biệt yếu hơn. Đối với nén hướng tới mục tiêu MSE (lượng tử hóa trọng số mô hình, tìm kiếm láng giềng gần nhất, KV cache): EDEN-biased tính toán hệ số quy mô tối ưu SS và luôn đánh bại TurboQuant-mse.

Đối với ước tính không thiên lệch (ước tính trung bình phân tán, attention xấp xỉ, truy xuất tích vô hướng): EDEN-unbiased vượt trội đáng kể so với chiến lược chia bit của TurboQuant-prod, với biên độ cải thiện đáng giá hơn một bit đầy đủ cho mỗi tọa độ.

EDEN ban đầu được phát triển cho ước tính trung bình phân tán trong huấn luyện liên kết và phân tán. Các công trình sau này đã áp dụng nó cho nén embedding, huấn luyện LLM NVFP4, và tổng quát hóa cho lượng tử hóa vector không cần dữ liệu cho trọng số LLM. Các triển khai của EDEN hiện có sẵn trong PyTorch và TensorFlow, cũng như trong các thư viện của Intel và Google.