DiffusionGemma: Mô hình AI tạo văn bản nhanh hơn 4 lần nhờ kỹ thuật Diffusion

Google giới thiệu DiffusionGemma, mô hình AI thử nghiệm sử dụng kỹ thuật diffusion để tạo văn bản song song, giúp tăng tốc độ suy luận lên tới 4 lần so với các mô hình tự hồi quy truyền thống. Được xây dựng dựa trên nền tảng Gemma 4, mô hình này hướng tới các nhà phát triển cần tốc độ xử lý cao trên GPU cục bộ, dù đánh đổi một chút về chất lượng đầu ra.

Hôm nay, Google đã công bố DiffusionGemma, một mô hình ngôn ngữ mở (open model) thử nghiệm mới, khám phá khả năng tạo văn bản thông qua kỹ thuật diffusion - một phương pháp tiếp cận mang lại tốc độ xử lý vượt trội. Được phát hành theo giấy phép Apache 2.0, mô hình này là một phiên bản Mixture of Experts (MoE) với 26 tỷ tham số, phá vỡ giới hạn của việc xử lý tuần tự từng token (token-by-token) vốn đặc trưng của các Mô hình Ngôn ngữ Lớn (LLM) tự hồi quy thông thường. Thay vào đó, DiffusionGemma tạo ra các khối văn bản hoàn chỉnh cùng một lúc, mang lại tốc độ tạo văn bản nhanh hơn gấp 4 lần trên các GPU chuyên dụng.

Biểu đồ hiệu suất của DiffusionGemma

DiffusionGemma được xây dựng dựa trên nền tảng trí tuệ nhân tạo dẫn đầu ngành của dòng Gemma 4 và các nghiên cứu tiên tiến về Gemini Diffusion. Mô hình tích hợp một "diffusion head" mới được thiết kế để tối đa hóa tốc độ tạo. Trong khi các mô hình Gemma 4 tự hồi quy vẫn là tiêu chuẩn vàng cho các đầu ra chất lượng cao trong môi trường sản xuất, DiffusionGemma dành riêng cho các nhà nghiên cứu và nhà phát triển đang khám phá các quy trình làm việc cục bộ tương tác, đòi hỏi tốc độ cao như chỉnh sửa văn bản trực tiếp (in-line editing), lặp lại nhanh chóng và tạo cấu trúc văn bản phi tuyến tính.

Mở ra giá trị mới cho nhà phát triển

Các nhà phát triển xây dựng ứng dụng AI tương tác thời gian thực thường gặp khó khăn với các nút thắt về độ trễ (latency) khi suy luận cục bộ. DiffusionGemma giải quyết trực tiếp các thách thức này với một số sự đánh đổi và lợi ích chính:

Tốc độ suy luận cực nhanh: Bằng cách chuyển nút thắt giải mã (decode bottleneck) từ băng thông bộ nhớ sang sức mạnh tính toán, DiffusionGemma tạo ra đầu ra token nhanh hơn gấp 4 lần trên các GPU chuyên dụng. Mô hình có thể đạt tốc độ hơn 1000 token mỗi giây trên một NVIDIA H100 và hơn 700 token mỗi giây trên NVIDIA GeForce RTX 5090.
Dung lượng phần cứng dễ tiếp cận: Hoạt động như một mô hình MoE tổng cộng 26B tham số nhưng chỉ kích hoạt 3.8B tham số trong quá trình suy luận, DiffusionGemma có thể hoạt động thoải mái trong giới hạn 18GB VRAM của các GPU tiêu dùng cao cấp khi được định lượng (quantized).
Cơ chế chú ý hai chiều (Bi-directional attention): Việc tạo ra 256 token song song trong mỗi lần chuyển tiếp cho phép mọi token có thể "chú ý" đến tất cả các token khác. Điều này mang lại lợi thế lớn cho các lĩnh vực phi tuyến tính như chỉnh sửa văn bản, điền mã nguồn (code infilling), chuỗi axit amin hoặc đồ thị toán học.
Tự sửa lỗi thông minh: Mô hình tinh chỉnh đầu ra của chính mình theo cách lặp đi lặp lại, cho phép nó đánh giá toàn bộ khối văn bản cùng lúc để sửa lỗi theo thời gian thực.

DiffusionGemma giải quyết câu đố Sudoku

Tại sao lại sử dụng Diffusion cho văn bản?

Trong khi cộng đồng nghiên cứu AI đã khám phá việc tạo văn bản dựa trên diffusion trong nhiều năm, việc áp dụng nó cho các mô hình lớn vẫn là một thách thức. DiffusionGemma thay đổi điều này bằng cách thay đổi cách mô hình sử dụng phần cứng.

Hầu hết các mô hình ngôn ngữ hoạt động giống như một chiếc máy đánh chữ, tạo ra một token tại một thời điểm từ trái sang phải. Trên đám mây (cloud), điều này hiệu quả vì máy chủ có thể gộp hàng nghìn yêu cầu của người dùng lại với nhau để chia sẻ tải phần cứng. Tuy nhiên, khi chạy cục bộ cho một người dùng duy nhất, quy trình từng từ một này khiến GPU hoặc TPU chuyên dụng của bạn bị sử dụng kém hiệu quả - nó dành phần lớn thời gian chỉ để chờ "phím gõ" tiếp theo.

DiffusionGemma đảo ngược sự kém hiệu quả này. Thay vì dự đoán các từ một cách tuần tự, nó soạn thảo cả một đoạn văn 256 token cùng một lúc. Bằng cách cung cấp cho bộ xử lý một khối công việc lớn hơn cùng lúc, DiffusionGemma tận dụng tối đa phần cứng của bạn. Nó nâng cấp suy luận mô hình của bạn từ một chiếc máy đánh chữ tuần tự đơn lẻ thành một máy in khổng lồ đóng dấu toàn bộ khối văn bản cùng lúc.

Sơ đồ so sánh Trí tuệ và Độ trễ

Điều này có nghĩa là việc tăng tốc của DiffusionGemma được thiết kế cho suy luận cục bộ và có độ đồng thời thấp. Trong việc phục vụ đám mây với QPS cao (truy vấn mỗi giây), các mô hình tự hồi quy có thể được triển khai để bão hòa tính toán hiệu quả, do đó giải mã song song của DiffusionGemma mang lại lợi ích giảm dần và có thể dẫn đến chi phí phục vụ cao hơn. Lợi thế về thông lượng (throughput) mạnh nhất ở kích thước lô thấp đến trung bình trên một bộ tăng tốc duy nhất.

Cơ chế hoạt động của Text Diffusion

Tương tự như các trình tạo hình ảnh AI bắt đầu bằng nhiễu thị giác và tinh chỉnh nó lặp đi lặp lại thành một bức tranh rõ ràng, DiffusionGemma áp dụng nguyên tắc này cho văn bản:

Khung nền (The canvas): Mô hình bắt đầu bằng một khung nền gồm các token giữ chỗ ngẫu nhiên.
Tinh chỉnh lặp lại (Iterative refinement): Mô hình thực hiện nhiều lần chuyển tiếp, khóa các token đúng và sử dụng chúng làm manh mối ngữ cảnh để tinh chỉnh phần còn lại.
Hoàn thiện (Final polish): Văn bản hội tụ thành đầu ra chất lượng cao.

Vì mô hình có thể xử lý toàn bộ đoạn văn trong khi tạo, nó mở ra các mô hình hành vi mới của mô hình, như đóng hoàn hảo định dạng markdown phức tạp hoặc tạo và hiển thị mã gần như thời gian thực.

Trạng thái thử nghiệm và khuyến nghị sản xuất

Vì ưu tiên tốc độ và tạo bố cục song song, chất lượng đầu ra tổng thể của DiffusionGemma thấp hơn Gemma 4 tiêu chuẩn. Đối với các ứng dụng yêu cầu chất lượng tối đa, Google khuyến nghị triển khai Gemma 4 tiêu chuẩn. Tuy nhiên, bạn có thể cải thiện hiệu suất của DiffusionGemma trên các tác vụ cụ thể thông qua tinh chỉnh (fine-tuning).

Ví dụ, Unsloth đã tinh chỉnh DiffusionGemma để chơi Sudoku - một nhiệm vụ mà các mô hình tự hồi quy thường gặp khó khăn vì mỗi token phụ thuộc vào các token trong tương lai. Cơ chế chú ý hai chiều của DiffusionGemma làm cho việc này trở nên dễ dàng hơn nhiều.

Bắt đầu ngay hôm nay

Tải trọng số (weights): Truy cập các trọng số mô hình thử nghiệm (phát hành theo giấy phép Apache 2.0 dễ chịu) ngay bây giờ trên Hugging Face.
Tích hợp và học hỏi: Tìm hiểu thêm trong Hướng dẫn dành cho nhà phát triển DiffusionGemma hoặc tìm hiểu sâu về "A Visual Guide to DiffusionGemma" để hiểu rõ cơ chế hoạt động bên trong.
Sử dụng các công cụ phát triển yêu thích: Phục vụ mô hình hiệu quả bằng cách sử dụng MLX, vLLM (với sự hỗ trợ tích hợp từ Red Hat) và Hugging Face Transformers. Để thử nghiệm nhanh, Google đang phát hành hướng dẫn tinh chỉnh sử dụng Hackable Diffusion. Hỗ trợ chính thức cho llama.cpp sẽ sớm có mặt.

Google đã hợp tác với NVIDIA để tối ưu hóa trên toàn bộ ngăn xếp phần cứng của họ, đảm bảo tính tương thích với các thiết lập tiêu dùng (định lượng cho GPU GeForce RTX 5090 và 4090) cùng với hiệu suất cao trên các hệ thống doanh nghiệp (Hopper và Blackwell sử dụng nhân NVFP4 tiên tiến).