Gemma 4 12B: Mô hình AI đa phương thức chạy trực tiếp trên laptop với kiến trúc Encoder-free

Google giới thiệu Gemma 4 12B, mang trí tuệ đa phương thức và khả năng tác nhân lên máy tính cá nhân. Mô hình sử dụng kiến trúc không bộ mã hóa (encoder-free) giúp xử lý hình ảnh và âm thanh trực tiếp, giảm độ trễ và tối ưu hóa bộ nhớ.

Google vừa công bố Gemma 4 12B, một mô hình ngôn ngữ lớn (LLM) được thiết kế để mang trí tuệ đa phương thức và khả năng tác nhân (agentic) trực tiếp lên laptop của người dùng. Khi kết hợp với Google AI Edge, mô hình mới này cho phép các nhà phát triển xây dựng và thử nghiệm ngay trên các máy tính thông thường mà không cần phụ thuộc vào đám mây. Sự tích hợp này mở ra khả năng tự động xử lý dữ liệu, tạo ra thông tin thị giác trực quan, xây dựng trang web và thực thi các công cụ khác ngay tại thiết bị cục bộ.

Gemma 4 12B đang chạy trên thiết bị cục bộ

Kiến trúc Encoder-free đột phá

Về mặt kiến trúc, Gemma 4 12B sử dụng thiết kế đa phương thức thống nhất và không sử dụng bộ mã hóa (encoder-free). Điều này giúp mô hình bỏ qua nhu cầu về các bộ mã hóa hình ảnh và âm thanh riêng biệt ở nhiều giai đoạn, thay vào đó đưa dữ liệu đa phương thức trực tiếp vào LLM.

Thiết kế này giải quyết một vấn đề hiệu suất thường gặp ở các mô hình đa phương thức truyền thống. Các mô hình cũ thường dựa vào các bộ mã hóa video và âm thanh riêng biệt làm bước xử lý sơ bộ, dẫn đến độ trễ tăng lên và dấu chân bộ nhớ bị phân mảnh.

Tối ưu hóa xử lý hình ảnh và âm thanh

Gemma 4 12B giải quyết các vấn đề này bằng cách sử dụng một bộ biến đổi chỉ có bộ giải mã duy nhất (decoder-only transformer), chứa cấu trúc bộ giải mã tiên tiến tương tự như mô hình Gemma 4 31B Dense.

Cụ thể, bộ nhúng hình ảnh (vision embedder) với 35 triệu tham số đã thay thế bộ biến đổi hình ảnh (vision transformer) 27 lớp được sử dụng trong các mô hình Gemma 4 tầm trung khác. Nó chiếu trực tiếp các bản vá hình ảnh thô 48×48 pixel vào không gian ẩn của LLM bằng một phép nhân ma trận duy nhất. Đồng thời, tra cứu tọa độ X–Y được phân tích sẽ đưa thông tin vị trí không gian vào trong giai đoạn đầu vào.

Đối với âm thanh, phép chiếu sóng âm thanh (audio wave projection) loại bỏ nhu cầu về bộ mã hóa âm thanh riêng biệt. Thay vào đó, nó trực tiếp cắt âm thanh 16 kHz thành các khung 40 ms (640 mẫu) và chiếu chúng tuyến tính vào không gian đầu vào của LLM.

Việc sử dụng cùng một trọng số cho các đầu vào đa phương thức cũng giúp đơn giản hóa quá trình tinh chỉnh (fine-tuning), cho phép các bộ chuyển đổi (như LoRA) hoặc tinh chỉnh đầy đủ cập nhật toàn bộ vòng lặp đa phương thức chỉ trong một lần duy nhất.

Ứng dụng thực tế và khả năng lập trình

Người dùng có thể truy cập Gemma 4 12B thông qua ứng dụng trưng bày Google AI Edge Gallery, ứng dụng chèn giọng nói trên thiết bị Eloquent của Google AI Edge và LiteRT-LM.

Với ứng dụng Google AI Edge Gallery, các nhà phát triển có thể "tạo và thực thi tập lệnh ngay lập tức" và biến hướng dẫn ngôn ngữ tự nhiên thành mã hoạt động. Ví dụ, Google đã chứng minh khả năng của mô hình trong việc tạo một chương trình Python để hiển thị biểu đồ PNG so sánh 10 cái tên con gái phổ biến nhất sinh ra năm 2024 so với năm 2025.

Gemma 4 12B cũng có thể được sử dụng với các hệ thống hiện có như OpenCode thông qua LiteRT-LM, có thể khởi chạy máy chủ tương thích OpenAI bằng lệnh litert-lm serve, hoặc llama.cpp. Mô hình hiện có sẵn trên Hugging Face, Ollama, LM Studio, Google Cloud và các nền tảng khác.

Đánh giá từ cộng đồng công nghệ

Trên Reddit, người dùng LoveMind_AI nhận định rằng "đây có thể là một trong những mô hình thú vị nhất mà tôi đã nghe thấy trong một thời gian dài. Mô hình không bộ mã hóa thì... cực kỳ ngầu. Âm thanh gốc trên mô hình 12B rất thú vị".

Tương tự, Wrong_Mushroom giải thích rằng lợi ích của việc không có bộ mã hóa là "nó cho phép bạn chia sẻ hình ảnh và âm thanh mà không cần một tệp tin bổ sung. Điều này cũng có nghĩa là tập dữ liệu của mô hình được đào tạo với những thứ đó trong tâm trí. Về lý thuyết, nó sẽ chính xác hơn".

Về khả năng lập trình của mô hình, trong khi một số người bình luận thể hiện sự nghi ngờ về hiệu quả của nó, một số người dùng khác chia sẻ họ đã dùng nó "để xây dựng một ứng dụng python với cả phía máy chủ và máy khách. Tôi thực sự bị thổi bay bởi cách nó hoạt động tốt. Ngữ cảnh thì hoang dã (theo hướng tích cực). Nó xử lý rất nhiều việc chỉ trong một lần mà không mắc lỗi".

Tuy nhiên, triynizzles nhận định rằng "nó sẽ ổn cho các tác vụ đơn giản nhưng không phải là sự thay thế cho qwen 3.6", giải thích rằng người này đã sử dụng nó thành công để giải thích một đường dẫn mã nhất định hoặc sửa lỗi logic, nhưng có khả năng "với bất kỳ điều gì mơ hồ hơn, nó sẽ bắt đầu gặp khó khăn".