Google tung ra Gemma 4 với giấy phép Apache 2.0: Thay đổi giấy phép quan trọng hơn cả hiệu năng

Google DeepMind vừa phát hành dòng mô hình Gemma 4 với giấy phép Apache 2.0 phổ biến, loại bỏ các rào cản pháp lý của bản cũ. Gia đình mô hình mới bao gồm 4 phiên bản từ máy workstation đến thiết bị di động, tích hợp đa phương thức (hình ảnh, âm thanh) và gọi hàm cốt lõi. Mô hình sử dụng kiến trúc Mixture-of-Experts (MoE) hiệu quả, mang lại hiệu năng mạnh mẽ nhưng chi phí tính toán thấp hơn.

Trong hai năm qua, các doanh nghiệp khi đánh giá các mô hình có trọng số mở (open-weight) đã phải đối mặt với một sự đánh đổi khó khăn. Dòng mô hình Gemma của Google luôn cho hiệu năng xuất sắc, nhưng giấy phép tùy chỉnh của nó — với các hạn chế sử dụng và các điều khoản Google có thể thay đổi theo ý muốn — đã đẩy nhiều đội nhóm sang hướng các lựa chọn như Mistral hoặc Qwen của Alibaba. Việc xem xét pháp lý thêm sự cản trở, các đội ngũ tuân thủ chỉ ra các trường hợp ngoại lệ, và dù Gemma 3 có khả năng đến đâu thì "mở" với dấu sao cũng không giống như mở hoàn toàn.

Gemma 4 loại bỏ hoàn toàn sự khó chịu đó. Gia đình mô hình mở mới nhất từ Google DeepMind được phát hành dưới giấy phép Apache 2.0 tiêu chuẩn — những điều khoản linh hoạt được sử dụng bởi Qwen, Mistral, Arcee và phần lớn hệ sinh thái trọng số mở. Không có điều khoản tùy chỉnh, không có các ngoại lệ "Sử dụng độc hại" đòi hỏi giải thích pháp lý, không có hạn chế về việc phân phối lại hoặc triển khai thương mại. Với các đội nhóm doanh nghiệp đã chờ đợi Google chơi theo các điều khoản cấp phép tương tự như phần còn lại của thị trường, thời gian chờ đã kết thúc.

Sự lựa chọn thời điểm này rất đáng chú ý. Trong khi một số phòng thí nghiệm AI Trung Quốc (đáng chú ý nhất là các mô hình Qwen mới nhất của Alibaba, Qwen3.5 Omni và Qwen 3.6 Plus) có xu hướng thu hẹp việc phát hành hoàn toàn cho các mô hình mới nhất của họ, thì Google lại đi ngược lại hướng đó — mở rộng khả năng nhất của Gemma trong khi tuyên bố rõ ràng kiến trúc của nó được lấy từ nghiên cứu thương mại Gemini 3.

Bốn mô hình, hai phân khúc: Từ thiết bị biên đến máy workstation trong một gia đình

Gemma 4 đến với tư cách là bốn mô hình riêng biệt được tổ chức thành hai phân khúc triển khai. Phân khúc "workstation" bao gồm mô hình dày 31B tham số và mô hình 26B A4B Mixture-of-Experts — cả hai đều hỗ trợ đầu vào văn bản và hình ảnh với cửa sổ ngữ cảnh 256K token. Phân khúc "edge" bao gồm E2B và E4B, các mô hình nhỏ gọn được thiết kế cho điện thoại, thiết bị nhúng và laptop, hỗ trợ văn bản, hình ảnh và âm thanh với cửa sổ ngữ cảnh 128K token.

Quy ước đặt tên cần một chút giải thích. Tiền tố "E" chỉ tham số hiệu quả (effective) — E2B có 2,3 tỷ tham số hiệu quả nhưng 5,1 tỷ tổng cộng, vì mỗi lớp giải mã mang theo một bảng nhúng nhỏ riêng thông qua kỹ thuật Google gọi là Per-Layer Embeddings (PLE). Các bảng này lớn trên đĩa nhưng tính toán rẻ, đây là lý do tại sao mô hình chạy giống như một mô hình 2B về mặt tính toán dù về mặt kỹ thuật nặng hơn. Tiền tố "A" trong 26B A4B đại diện cho tham số hoạt động (active) — chỉ 3,8 tỷ trong tổng số 25,2 tỷ tham số của mô hình MoE được kích hoạt trong suy luận, nghĩa là nó cung cấp trí tuệ tương đương khoảng 26B nhưng chi phí tính toán tương đương một mô hình 4B.

Đối với các nhà lãnh đạo IT đánh giá nhu cầu GPU, điều này chuyển trực tiếp sang sự linh hoạt triển khai. Mô hình MoE có thể chạy trên GPU cấp tiêu dùng và sẽ xuất hiện nhanh chóng trong các công cụ như Ollama và LM Studio. Mô hình dày 31B yêu cầu nhiều dung lượng hơn — hãy tưởng tượng một NVIDIA H100 hoặc RTX 6000 Pro cho suy luận không được lượng tử hóa — nhưng Google cũng đang phát hành các điểm kiểm tra Quantization-Aware Training (QAT) để duy trì chất lượng ở độ chính xác thấp hơn. Trên Google Cloud, cả hai mô hình workstation đều có thể chạy trong cấu hình hoàn toàn serverless thông qua Cloud Run với NVIDIA RTX Pro 6000 GPUs, tắt điện khi không sử dụng.

Đặt cược vào MoE: 128 chuyên gia nhỏ để tiết kiệm chi phí suy luận

Các lựa chọn kiến trúc bên trong mô hình 26B A4B đáng được quan tâm đặc biệt đối với các đội nhóm đánh giá kinh tế suy luận. Thay vì theo xu hướng của các mô hình MoE lớn gần đây sử dụng vài chuyên gia lớn, Google đã chọn 128 chuyên gia nhỏ, kích hoạt tám chuyên gia cho mỗi token cộng với một chuyên gia chia sẻ luôn luôn bật. Kết quả là một mô hình đạt hiệu năng cạnh tranh với các mô hình dày trong phạm vi 27B–31B trong khi chạy ở tốc độ khoảng mô hình 4B trong suy luận.

Điều này không chỉ là một sự tò mò về chỉ số hiệu năng — nó ảnh hưởng trực tiếp đến chi phí phục vụ. Một mô hình cung cấp trí tuệ cấp 27B ở tốc độ throughput cấp 4B có nghĩa là ít GPU hơn, độ trễ thấp hơn và chi phí tính toán mỗi token rẻ hơn trong sản xuất. Đối với các tổ chức chạy trợ lý lập trình, quy trình xử lý tài liệu hoặc các luồng tác nhân đa vòng, biến thể MoE có thể là lựa chọn thực tế nhất trong gia đình.

Cả hai mô hình workstation đều sử dụng cơ chế chú ý lai, nơi chúng xen kẽ chú ý cửa sổ trượt cục bộ với chú ý toàn cầu, với lớp cuối cùng luôn là toàn cầu. Thiết kế này cho phép cửa sổ ngữ cảnh 256K đồng thời giữ mức tiêu thụ bộ nhớ ở mức kiểm soát — một yếu tố quan trọng đối với các đội nhóm xử lý tài liệu dài, cơ sở mã hoặc cuộc hội thoại tác nhân đa vòng.

Đa phương thức nguyên bản: Hình ảnh, âm thanh và gọi hàm được tích hợp từ gốc

Các thế hệ mô hình mở trước đây thường xem xét đa phương thức như một tính năng bổ sung. Bộ mã hóa hình ảnh được gắn cứng vào xương sống văn bản. Âm thanh yêu cầu một quy trình ASR bên ngoài như Whisper. Gọi hàm phụ thuộc vào kỹ thuật lập trình prompt và hy vọng mô hình hợp tác. Gemma 4 tích hợp tất cả các khả năng này ở mức kiến trúc.

Bốn mô hình đều xử lý đầu vào hình ảnh tỷ lệ khung hình biến thiên với ngân sách token thị giác có thể cấu hình — một cải tiến đáng kể so với bộ mã hóa thị giác cũ của Gemma 3n, vốn gặp khó khăn trong OCR và hiểu tài liệu. Bộ mã hóa mới hỗ trợ ngân sách từ 70 đến 1.120 token cho mỗi hình ảnh, cho phép các nhà phát triển đánh đổi chi tiết với tính toán tùy thuộc vào tác vụ. Ngân sách thấp hoạt động cho phân loại và chú thích; ngân sách cao xử lý OCR, phân tích tài liệu và phân tích thị giác chi tiết. Đầu vào đa hình ảnh và video (xử lý dưới dạng chuỗi khung) được hỗ trợ nguyên bản, cho phép suy luận thị giác qua nhiều tài liệu hoặc ảnh chụp màn hình.

Hai mô hình edge thêm xử lý âm thanh nguyên bản — nhận dạng giọng nói và chuyển đổi giọng nói sang văn bản đã dịch, tất cả trên thiết bị. Bộ mã hóa âm thanh đã được nén xuống 305 triệu tham số, giảm so với 681 triệu trong Gemma 3n, trong khi thời gian khung đã giảm từ 160ms xuống 40ms để chuyển đổi giọng nói phản hồi hơn. Đối với các đội nhóm xây dựng ứng dụng ưu tiên giọng nói cần giữ dữ liệu cục bộ — hãy nghĩ về chăm sóc sức khỏe, dịch vụ tại hiện trường hoặc tương tác khách hàng đa ngôn ngữ — việc chạy ASR, dịch, suy luận và gọi hàm trong một mô hình duy nhất trên điện thoại hoặc thiết bị edge là một sự đơn giản hóa kiến trúc thực sự.

Gọi hàm (function calling) cũng được tích hợp nguyên bản trên tất cả bốn mô hình, dựa trên nghiên cứu từ bản phát hành FunctionGemma của Google vào cuối năm ngoái. Khác với các phương pháp trước đây dựa trên việc tuân thủ hướng dẫn để ép mô hình sử dụng công cụ có cấu trúc, gọi hàm của Gemma 4 đã được đào tạo từ gốc vào mô hình — tối ưu hóa cho các luồng tác nhân đa công cụ nhiều vòng. Điều này xuất hiện trong các chỉ số tác nhân, nhưng quan trọng hơn, nó giảm bớt gánh nặng lập trình prompt mà các đội nhóm doanh nghiệp thường đầu tư khi xây dựng các tác nhân sử dụng công cụ.

Chỉ số hiệu năng trong bối cảnh: Gemma 4 nằm ở đâu trong thị trường cạnh tranh

Các con số chỉ số hiệu năng kể một câu chuyện rõ ràng về sự cải thiện thế hệ. Mô hình dày 31B đạt 89,2% trên AIME 2026 (một bài kiểm tra suy luận toán học nghiêm ngặt), 80,0% trên LiveCodeBench v6, và đạt ELO Codeforces 2,150 — các con số này sẽ là đỉnh cao từ các mô hình thương mại không lâu trước đây. Về thị giác, MMMU Pro đạt 76,9% và MATH-Vision đạt 85,6%.

Để so sánh, Gemma 3 27B đạt 20,8% trên AIME và 29,1% trên LiveCodeBench mà không có chế độ suy nghĩ.

Mô hình MoE theo dõi sát: 88,3% trên AIME 2026, 77,1% trên LiveCodeBench và 82,3% trên GPQA Diamond — một bài kiểm tra suy luận khoa học cấp sau đại học. Khoảng cách hiệu năng giữa biến thể MoE và dày là nhỏ so với lợi thế chi phí suy luận đáng kể của kiến trúc MoE.

Các mô hình edge hoạt động vượt trội so với trọng lượng lớp của chúng. E4B đạt 42,5% trên AIME 2026 và 52,0% trên LiveCodeBench — mạnh mẽ cho một mô hình chạy trên GPU T4. E2B, nhỏ hơn nữa, đạt 37,5% và 44,0% tương ứng. Cả hai đều vượt trội đáng kể so với Gemma 3 27B (không có chế độ suy nghĩ) trên hầu hết các chỉ số hiệu năng dù chỉ là một phần nhỏ kích thước, nhờ vào khả năng suy luận tích hợp sẵn.

Những con số này cần được đọc trong bối cảnh thị trường trọng số mở ngày càng cạnh tranh. Qwen 3.5, GLM-5 và Kimi K2.5 đều cạnh tranh gay gắt trong phạm vi tham số này, và thị trường chuyển động nhanh. Điều phân biệt Gemma 4 ít là bất kỳ chỉ số đơn lẻ và nhiều hơn là sự kết hợp: trí tuệ mạnh mẽ, đa phương thức nguyên bản bao gồm văn bản, thị giác và âm thanh, gọi hàm, cửa sổ ngữ cảnh 256K và một giấy phép thực sự linh hoạt — tất cả trong một gia đình mô hình với các tùy chọn triển khai từ thiết bị edge đến serverless đám mây.

Những gì các đội nhóm doanh nghiệp nên quan sát tiếp theo

Google đang phát hành cả các mô hình cơ sở đã được huấn luyện trước và các biến thể đã được huấn luyện theo hướng dẫn, điều này quan trọng đối với các tổ chức có kế hoạch tinh chỉnh cho các lĩnh vực cụ thể. Các mô hình cơ sở Gemma đã có lịch sử là nền tảng mạnh mẽ cho đào tạo tùy chỉnh, và giấy phép Apache 2.0 hiện đã loại bỏ mọi sự mơ hồ về việc liệu các đạo cụ tinh chỉnh có thể được triển khai thương mại hay không.

Tùy chọn triển khai serverless thông qua Cloud Run với hỗ trợ GPU đáng được quan tâm đối với các đội nhóm cần dung lượng suy luận mở rộng về zero. Chỉ trả tiền cho tính toán thực tế trong suy luận — thay vì duy trì các phiên GPU luôn bật — có thể thay đổi đáng kể kinh tế của việc triển khai các mô hình mở trong sản xuất, đặc biệt là cho các công cụ nội bộ và ứng dụng lưu lượng thấp.

Google đã gợi ý rằng điều này có thể không phải là toàn bộ gia đình Gemma 4, với các kích cỡ mô hình bổ sung có thể theo sau. Nhưng sự kết hợp có sẵn hôm nay — các mô hình suy luận cấp workstation và các mô hình đa phương thức cấp edge, tất cả dưới giấy phép Apache 2.0, tất cả được lấy từ nghiên cứu Gemini 3 — đại diện cho bản phát hành mô hình mở hoàn chỉnh nhất mà Google đã phát hành. Đối với các đội nhóm doanh nghiệp đã chờ đợi các mô hình mở của Google cạnh tranh về các điều khoản cấp phép cũng như hiệu năng, việc đánh giá có thể bắt đầu cuối cùng mà không cần gọi đến pháp lý trước tiên.