Gemma 4 12B: Mô hình AI đa phương thức chạy trực tiếp trên laptop với kiến trúc Encoder-free
Google giới thiệu Gemma 4 12B, mang trí tuệ đa phương thức và khả năng tác nhân lên máy tính cá nhân. Mô hình sử dụng kiến trúc không cần bộ mã hóa riêng biệt, giúp giảm độ trễ và tối ưu hóa bộ nhớ khi xử lý hình ảnh và âm thanh.

Gemma 4 12B: Mô hình AI đa phương thức chạy trực tiếp trên laptop với kiến trúc Encoder-free
Google khẳng định Gemma 4 12B được "thiết kế để mang trí tuệ đa phương thức và khả năng tác nhân trực tiếp đến laptop của bạn". Mô hình mới này có thể kết hợp với Google AI Edge để "xây dựng và thử nghiệm cục bộ trên các máy tính thông thường". Sự tích hợp này mở ra nhiều khả năng, từ xử lý dữ liệu tự động, tạo ra thông tin thị giác cho đến xây dựng trang web hoặc thực thi các công cụ.
Kiến trúc Gemma 4 12B
Kiến trúc Encoder-free đột phá
Về mặt kiến trúc, Gemma 4 12B sử dụng một kiến trúc đa phương thức thống nhất và không sử dụng bộ mã hóa (encoder-free). Điều này giúp loại bỏ nhu cầu về các bộ mã hóa hình ảnh và âm thanh riêng biệt ở nhiều giai đoạn bằng cách đưa dữ liệu đa phương thức trực tiếp vào Mô hình Ngôn ngữ Lớn (LLM).
Thiết kế này giải quyết một vấn đề thường gặp ở các mô hình đa phương thức truyền thống, vốn phụ thuộc vào các bộ mã hóa video và âm thanh riêng biệt làm bước xử lý sơ bộ. Cách tiếp cận cũ thường dẫn đến độ trễ tăng lên và phân mảnh bộ nhớ.
Gemma 4 12B giải quyết các vấn đề này bằng cách sử dụng một bộ biến đổi (transformer) chỉ dùng giải mã (decoder-only) duy nhất, chứa cấu trúc giải mã tiên tiến tương tự như mô hình Gemma 4 31B Dense.
Tối ưu hóa xử lý hình ảnh và âm thanh
Bộ nhúng hình ảnh (vision embedder) với 35 triệu tham số thay thế cho bộ biến đổi hình ảnh 27 lớp được sử dụng trong các mô hình Gemma 4 tầm trung khác. Nó chiếu các bản vá (patch) pixel thô 48×48 trực tiếp vào không gian ẩn của LLM chỉ bằng một phép nhân ma trận. Đồng thời, tra cứu tọa độ X–Y được phân tách sẽ đưa thông tin vị trí không gian vào trong giai đoạn đầu vào.
Dự tích sóng âm thanh (audio wave projection) loại bỏ nhu cầu về một bộ mã hóa âm thanh riêng biệt. Thay vào đó, nó trực tiếp cắt âm thanh 16 kHz thành các khung (frame) 40 ms (640 mẫu) và chiếu chúng tuyến tính vào không gian đầu vào của LLM.
Hơn nữa, việc sử dụng cùng một trọng số cho các đầu vào đa phương thức giúp đơn giản hóa quá trình tinh chỉnh (fine-tuning). Nó cho phép các bộ chuyển đổi (như LoRA) hoặc tinh chỉnh đầy đủ cập nhật toàn bộ vòng lặp đa phương thức chỉ trong một lần duy nhất.
Ứng dụng và hiệu năng
Gemma 4 12B có thể được truy cập thông qua ứng dụng trưng bày Google AI Edge Gallery, ứng dụng chèn giọng nói trên thiết bị Google AI Edge Eloquent và LiteRT-LM.
Với ứng dụng Google AI Edge Gallery, các nhà phát triển có thể "tạo và thực thi tập lệnh ngay lập tức" và biến các hướng dẫn bằng ngôn ngữ tự nhiên thành mã hoạt động. Ví dụ, Google đã chứng minh khả năng của mô hình trong việc tạo một chương trình Python để hiển thị biểu đồ PNG so sánh 10 cái tên con gái phổ biến nhất sinh năm 2024 so với năm 2025.
Cuối cùng, Gemma 4 12B có thể được sử dụng với các công cụ hiện có như OpenCode thông qua LiteRT-LM, có thể khởi chạy máy chủ tương thích OpenAI bằng lệnh litert-lm serve, hoặc llama.cpp. Mô hình hiện có sẵn trên Hugging Face, Ollama, LM Studio, Google Cloud và các nền tảng khác.
Đánh giá từ cộng đồng
Trên Reddit, người dùng LoveMind_AI nhận định rằng "đây có thể là một trong những mô hình thú vị nhất mà tôi từng nghe thấy trong một thời gian dài. Mô hình không dùng encoder thì... thật tuyệt vời. Âm thanh gốc trên mô hình 12B rất thú vị".
Tương tự, Wrong_Mushroom giải thích rằng lợi ích của việc không dùng encoder là "nó cho phép bạn chia sẻ hình ảnh và âm thanh mà không cần một tệp tin bổ sung. Điều này cũng có nghĩa là tập dữ liệu của mô hình được đào tạo với những thứ đó trong tâm trí. Về lý thuyết, nó sẽ chính xác hơn".
Về khả năng lập trình, trong khi một số người bình luận nghi ngờ về hiệu quả của nó, một số người khác cho biết họ đã dùng nó "để xây dựng một ứng dụng python với cả phía máy chủ và máy khách. Tôi thực sự bị thổi bay bởi cách nó hoạt động tốt. Ngữ cảnh thì hoang dã (theo hướng tích cực). Nó xử lý rất nhiều việc chỉ trong một lần mà không mắc lỗi".
Tuy nhiên, triynizzles nhận định rằng "nó sẽ ổn cho các tác vụ đơn giản nhưng không phải là sự thay thế cho qwen 3.6", giải thích rằng người này đã sử dụng nó thành công để giải thích một đường dẫn mã nhất định hoặc sửa lỗi logic, nhưng có lẽ với "bất cứ thứ gì mơ hồ hơn, nó sẽ bắt đầu gặp rắc rối".
