Google ra mắt MTP Drafters: Tăng tốc độ suy luận Gemma 4 lên gấp 3 lần mà không giảm chất lượng

Google vừa công bố các mô hình "drafter" dự đoán đa token (MTP) cho dòng Gemma 4, giúp tăng tốc độ suy luận lên tới 3 lần nhờ kỹ thuật giải mã suy diễn (speculative decoding). Động thái này giúp các nhà phát triển giảm độ trễ đáng kể mà không làm giảm chất lượng đầu ra, mang lại hiệu suất vượt trội trên cả thiết bị biên lẫn máy trạm cá nhân.

Chỉ vài tuần sau khi ra mắt Gemma 4 — dòng mô hình mở mạnh mẽ nhất của Google đến nay với hơn 60 triệu lượt tải xuống — công ty này tiếp tục đẩy mạnh hiệu suất bằng cách giới thiệu các mô hình "drafter" dự đoán đa token (Multi-Token Prediction - MTP). Bằng cách sử dụng kiến trúc giải mã suy diễn (speculative decoding) chuyên biệt, các drafter mới này giúp tăng tốc độ xử lý lên tới 3 lần mà không làm giảm chất lượng đầu ra hay logic suy luận.

Biểu đồ so sánh tốc độ suy luận

Tại sao cần giải mã suy diễn?

Thực tế kỹ thuật cho thấy suy luận tiêu chuẩn của các Mô hình Ngôn ngữ Lớn (LLM) thường bị giới hạn bởi băng thông bộ nhớ (memory-bandwidth bound), tạo ra nút thắt lớn về độ trễ. Bộ xử lý dành phần lớn thời gian để di chuyển hàng tỷ tham số từ VRAM sang các đơn vị tính toán chỉ để tạo ra một token duy nhất. Điều này dẫn đến việc tài nguyên tính toán bị sử dụng kém hiệu quả và độ trễ cao, đặc biệt là trên phần cứng dành cho người tiêu dùng.

Kỹ thuật giải mã suy diễn giúp tách biệt quá trình tạo token khỏi bước xác minh. Bằng cách kết hợp một mô hình mục tiêu (target model) nặng nề (ví dụ: Gemma 4 31B) với một mô hình dự thảo (drafter) nhẹ nhàng (mô hình MTP), chúng ta có thể tận dụng tài nguyên tính toán nhàn rỗi để "dự đoán" nhiều token tương lai cùng lúc. Mô hình drafter thực hiện việc này nhanh hơn thời gian mà mô hình mục tiêu cần để xử lý chỉ một token. Sau đó, mô hình mục tiêu sẽ xác minh song song tất cả các token được đề xuất này.

Cơ chế hoạt động của Multi-Token Prediction

Các mô hình ngôn ngữ lớn tiêu chuẩn tạo văn bản theo phương pháp tự hồi quy (autoregressively), sản xuất chính xác một token tại một thời điểm. Mặc dù hiệu quả, quá trình này dành cùng một lượng tính toán để dự đoán một sự tiếp nối hiển nhiên (như dự đoán từ "words" sau cụm "Actions speak louder than...") như khi giải một câu đố logic phức tạp.

MTP giúp giảm thiểu sự kém hiệu quả này thông qua giải mã suy diễn — một kỹ thuật do các nhà nghiên cứu Google giới thiệu. Nếu mô hình mục tiêu đồng ý với bản dự thảo, nó sẽ chấp nhận toàn bộ chuỗi đó chỉ trong một lần chuyển tiếp tiến (forward pass) duy nhất — và thậm chí tạo ra thêm một token của chính nó trong quá trình này. Điều này có nghĩa là ứng dụng của bạn có thể xuất ra chuỗi đã dự thảo đầy đủ cộng thêm một token trong khoảng thời gian mà bình thường chỉ đủ để tạo ra một token duy nhất.

Tăng tốc AI từ thiết bị biên đến máy trạm

Đối với các nhà phát triển, tốc độ suy luận thường là nút thắt chính khi triển khai sản xuất thực tế. Dù bạn đang xây dựng trợ lý lập trình, tác nhân tự chủ cần lập kế hoạch đa bước nhanh chóng, hay ứng dụng di động phản hồi nhanh chạy hoàn toàn trên thiết bị, mỗi mili-giây đều quan trọng.

Bằng cách kết hợp mô hình Gemma 4 với drafter tương ứng, các nhà phát triển có thể đạt được:

Tăng khả năng phản hồi: Giảm đáng kể độ trễ cho các cuộc trò chuyện thời gian thực, ứng dụng giọng nói nhập vai và quy trình làm việc của tác nhân.
Phát triển cục bộ siêu tốc: Chạy các mô hình Gemma 4 26B MoE và 31B Dense trên máy tính cá nhân và GPU dành cho người tiêu dùng với tốc độ chưa từng có, hỗ trợ lập trình và quy trình tác nhân phức tạp mà không cần kết nối mạng.
Hiệu suất trên thiết bị được tối ưu hóa: Tối đa hóa khả năng sử dụng của các mô hình E2B và E4B trên thiết bị biên bằng cách tạo đầu ra nhanh hơn, từ đó giúp tiết kiệm pin quý giá.
Không làm giảm chất lượng: Vì mô hình Gemma 4 chính vẫn giữ lại bước xác minh cuối cùng, bạn sẽ có được khả năng suy luận và độ chính xác ở cấp độ tiên tiến, nhưng được truyền tải nhanh hơn nhiều.

Gemma 4 26B trên NVIDIA RTX PRO 6000

Đi sâu vào chi tiết kỹ thuật của MTP Drafters

Để đảm bảo các drafter MTP này hoạt động cực nhanh và chính xác, Google đã giới thiệu một số cải tiến kiến trúc bên dưới. Các mô hình dự thảo sử dụng liền mạch các hoạt hóa (activations) của mô hình mục tiêu và chia sẻ bộ nhớ đệm KV (KV cache) của nó, nghĩa là chúng không lãng phí thời gian tính toán lại bối cảnh mà mô hình lớn hơn đã từng xác định.

Đối với các mô hình biên E2B và E4B, nơi việc tính toán logit cuối cùng trở thành nút thắt lớn, Google thậm chí đã triển khai một kỹ thuật phân cụm (clustering) hiệu quả trong bộ nhúng (embedder) để tăng tốc thêm việc tạo văn bản.

Google cũng đã phân tích kỹ lưỡng các tối ưu hóa dành cho phần cứng cụ thể. Ví dụ, trong khi mô hình hỗn hợp chuyên gia (mixture-of-experts) 26B đặt ra những thách thức định tuyến duy nhất ở kích thước lô (batch size) là 1 trên Apple Silicon, việc xử lý nhiều yêu cầu đồng thời (ví dụ: kích thước lô từ 4 đến 8) giúp mở khóa tốc độ tăng lên tới ~2,2 lần tại chỗ. Tăng tốc tương tự cũng được thấy với Nvidia A100 khi tăng kích thước lô.

Cách bắt đầu

Các drafter MTP cho dòng Gemma 4 hiện đã có sẵn dưới cùng giấy phép nguồn mở Apache 2.0 như Gemma 4. Bạn có thể đọc tài liệu để tìm hiểu cách sử dụng MTP với Gemma 4. Các trọng số mô hình hiện có thể tải xuống trên Hugging Face và Kaggle, cho phép bạn bắt đầu thử nghiệm tốc độ suy luận nhanh hơn với transformers, MLX, VLLM, SGLang và Ollama. Bạn cũng có thể thử nghiệm trực tiếp trên Google AI Edge Gallery cho Android hoặc iOS.

Google ra mắt MTP Drafters: Tăng tốc độ suy luận Gemma 4 lên gấp 3 lần mà không giảm chất lượng

Tại sao cần giải mã suy diễn?

Cơ chế hoạt động của Multi-Token Prediction

Tăng tốc AI từ thiết bị biên đến máy trạm

Đi sâu vào chi tiết kỹ thuật của MTP Drafters

Cách bắt đầu

Bài viết liên quan