Gemma 4 áp dụng Multi-Token Prediction, tăng tốc độ suy luận lên tới 3 lần

Google vừa công bố kỹ thuật Multi-Token Prediction (MTP) cho mô hình Gemma 4, sử dụng giải mã suy diễn để tạo ra nhiều token song song. Động thái này giúp tăng tốc độ xử lý lên khoảng 3 lần mà vẫn giữ nguyên chất lượng đầu ra, giải quyết hiệu quả vấn đề nghẽn băng thông bộ nhớ trên phần cứng người dùng.

Google vừa công bố một bước tiến quan trọng cho dòng mô hình Gemma 4 với việc giới thiệu kỹ thuật Multi-Token Prediction (MTP). Bằng cách kết hợp với các trình dự báo MTP sử dụng giải mã suy diễn (speculative decoding), Gemma 4 có khả năng tạo ra nhiều token song song và xác thực chúng trong một lần duy nhất, giúp tăng tốc độ suy luận lên tới khoảng 3 lần mà không làm giảm chất lượng đầu ra.

Giải quyết nút thắt băng thông bộ nhớ

Các trình dự báo dự đoán nhiều token là những mô hình phụ trợ nhẹ nhàng, hoạt động song song với Gemma 4 nhằm giải quyết vấn đề nghẽn băng thông bộ nhớ (memory-bandwidth bottleneck) thường gặp ở các Mô hình Ngôn ngữ Lớn (LLM). Theo các kỹ sư của Google, trong quá trình suy luận, bộ vi xử lý dành phần lớn thời gian để di chuyển hàng tỷ tham số từ VRAM sang các đơn vị tính toán cho từng token riêng lẻ.

Việc di chuyển dữ liệu liên tục này làm tăng độ trễ và để lãng phí tài nguyên tính toán, đặc biệt là trên phần cứng máy tính cá nhân. Hơn nữa, LLM thường tốn cùng một lượng tài nguyên tính toán để dự đoán những kết quả "hiển nhiên" như khi giải một "bài toán logic phức tạp", và đây chính là nơi MTP phát huy tác dụng.

Cơ chế hoạt động: Mô hình dự thảo và xác thực song song

Bằng cách kết hợp một mô hình mục tiêu nặng nề (ví dụ: Gemma 4 31B) với một mô hình dự thảo nhẹ nhàng (mô hình MTP), hệ thống có thể tận dụng tài nguyên tính toán nhàn rỗi để "dự đoán" nhiều token tương lai cùng lúc. Thời gian để mô hình dự thảo thực hiện việc này ngắn hơn thời gian mô hình mục tiêu xử lý chỉ một token.

Sau đó, mô hình mục tiêu sẽ xác thực song song tất cả các token được đề xuất này. Google khẳng định rằng việc sử dụng các trình dự báo MTP giúp cải thiện khả năng phản hồi và tăng tốc độ suy luận trên nhiều thiết bị, từ máy tính cá nhân, GPU người dùng chạy các mô hình Gemma 26B MoE và 31B dense, cho đến các thiết bị di động sử dụng biến thể E2B và E4B.

Vì mô hình Gemma 4 chính vẫn giữ lại bước xác thực cuối cùng, người dùng sẽ nhận được khả năng lập luận và độ chính xác ở cấp độ tiên tiến, nhưng được truyền tải nhanh hơn đáng kể.

Đánh giá từ cộng đồng kỹ thuật

Cộng đồng kỹ thuật đã có những phản ứng tích cực nhưng cũng thận trọng trước công nghệ mới. Một người dùng trên Reddit nhận định Gemma 4 MTP là "một thứ khá ấn tượng", nhưng cảnh báo rằng các mô hình cục bộ vẫn mắc quá nhiều lỗi, lợi ích thực sự sẽ đến khi những mô hình này tiệm cận hơn với các mô hình hàng đầu.

Tuy nhiên, một điểm yếu lớn của kỹ thuật MTP đối với việc triển khai cục bộ là cần phải tải hai mô hình vào bộ nhớ. Người dùng Gohab2001 lưu ý rằng bước tiến thực sự trong việc triển khai MTP của Gemma 4 nằm ở chỗ chúng chia sẻ bộ nhớ đệm kV (shared kV cache) với mô hình mục tiêu, giúp giảm thiểu đáng kể chi phí overhead của kỹ thuật này.

Trên Hacker News, nhiều ý kiến cho rằng MTP chủ yếu hữu ích khi có một hoặc vài người dùng (tài nguyên tính toán dồi dào), như trong các kịch bản di động hoặc biên (edge), thay vì mang lại lợi ích lớn cho các nhà cung cấp API quy mô lớn.

Các biến thể Gemma 4 hỗ trợ MTP hiện đã có sẵn trên nhiều nền tảng phổ biến như Hugging Face, Kaggle, Ollama và các nền tảng khác.

Gemma 4 áp dụng Multi-Token Prediction, tăng tốc độ suy luận lên tới 3 lần

Giải quyết nút thắt băng thông bộ nhớ

Cơ chế hoạt động: Mô hình dự thảo và xác thực song song

Đánh giá từ cộng đồng kỹ thuật

Bài viết liên quan