Google ra mắt LiteRT-LM: Tăng tốc suy luận cục bộ lên tới 2.2 lần nhờ Gemma 4 MTP

Google giới thiệu LiteRT-LM, framework mới mang lại hỗ trợ gốc cho Gemma 4 Multi-Token Prediction (MTP), giúp tăng tốc độ suy luận cục bộ lên tới 2.2 lần. Công cụ này mở rộng hỗ trợ ngôn ngữ sang Swift và JavaScript, bên cạnh Kotlin và C++ hiện có, nhằm tối ưu hóa việc chạy các mô hình ngôn ngữ lớn (LLM) ngay trên thiết bị người dùng.

LiteRT-LM là một lớp điều phối chuyên biệt được xây dựng dựa trên LiteRT (trước đây là TensorFlow Lite), được thiết kế đặc biệt để xử lý các mô hình ngôn ngữ lớn (LLM). Theo Google, đây là môi trường runtime đã được chứng minh trong sản xuất và tối ưu hóa cao để chạy Gemma 4 trên thiết bị (on-device) trên nhiều nền tảng như Android, iOS và web.

Tăng tốc độ với Multi-Token Prediction

Điểm nổi bật nhất của LiteRT-LM là hỗ trợ gốc cho Gemma 4 Multi-Token Prediction (MTP). Công nghệ này sử dụng kỹ thuật giải mã suy đoán (speculative decoding) để tạo ra nhiều token song song thay vì từng token một.

Để đạt được hiệu suất này, LiteRT-LM thực thi cả mô hình dự đoán MTP nhẹ và mô hình chính trên cùng một phần cứng (ví dụ: GPU). Việc quản lý bộ nhớ đệm KV và các trạng thái kích hoạt trong bộ nhớ cục bộ giúp loại bỏ độ trễ do đồng bộ hóa và truyền dữ liệu giữa các thành phần phần cứng.

Theo các điểm chuẩn của Google, tốc độ giải mã MTP nhanh hơn 1.6 lần đối với Gemma 4 E2B và 2.2 lần đối với Gemma 4 E4B. Công ty cũng báo cáo rằng hiệu suất prefill và decode nhanh hơn từ 1.8 đến 3.7 lần so với các framework cạnh tranh như llama.cpp, MLX, Cactus và ONNX.

Quản lý bộ nhớ và phiên làm việc hiệu quả

LiteRT-LM coi quản lý phiên làm việc là một tính năng hạng nhất. Nó có thể lưu và khôi phục trạng thái bộ nhớ đệm KV, cho phép tiếp tục các tương tác dài một cách liền mạch mà không cần tính toán lại tốn kém.

Về hiệu quả bộ nhớ, framework này giảm thiểu dung lượng sử dụng bằng cách giữ các embedding từng lớp ngoài bộ nhớ và chỉ tải động bộ mã hóa hình ảnh và âm thanh khi cần thiết. Kết quả là runtime rất nhẹ nhàng; ví dụ, mô hình Gemma 4 E2B khoảng 2.58GB chỉ chiếm 607MB trên CPU di động của Apple.

Hỗ trợ đa nền tảng và khả năng Agent

Ban đầu hỗ trợ Kotlin và C++, LiteRT-LM hiện đã mở rộng sang các API Swift và JavaScript mới, giúp các nhà phát triển dễ dàng tích hợp vào các ứng dụng iOS và web.

Hệ thống cũng nhấn mạnh các khả năng của AI Agent thông qua hỗ trợ gốc cho "Thinking Mode" của Gemma 4, giải mã bị ràng buộc cho đầu ra có cấu trúc và function-calling (gọi hàm). Các tính năng này cho phép AI tạm dừng thực thi, trả về các yêu cầu gọi công cụ có cấu trúc và sau đó tiếp tục.

LiteRT-LM hiện đã có sẵn trên GitHub, bao gồm CLI để thử nghiệm trên máy tính để bàn và ứng dụng di động để sử dụng trên thiết bị.

Google ra mắt LiteRT-LM: Tăng tốc suy luận cục bộ lên tới 2.2 lần nhờ Gemma 4 MTP

Tăng tốc độ với Multi-Token Prediction

Quản lý bộ nhớ và phiên làm việc hiệu quả

Hỗ trợ đa nền tảng và khả năng Agent

Bài viết liên quan