Gemma Gem: Trợ lý AI chạy cục bộ trên trình duyệt Chrome với WebGPU
Gemma Gem là tiện ích mở rộng Chrome tích hợp mô hình Gemma 4 của Google, cho phép chạy AI hoàn toàn ngoại tuyến mà không cần API key hay kết nối đám mây. Tiện ích này cung cấp khả năng đọc trang, chụp màn hình, thao tác DOM và chạy JavaScript trực tiếp trong trình duyệt, đảm bảo dữ liệu không bao giờ rời khỏi máy tính của bạn.

Gemma Gem là một tiện ích mở rộng trình duyệt mới nổi, mang đến trải nghiệm của một trợ lý AI cá nhân hoạt động ngay trên thiết bị của người dùng. Thông qua việc sử dụng công nghệ WebGPU, tiện ích này tải và chạy mô hình Gemma 4 (phiên bản 2B tham số) trực tiếp trong trình duyệt, loại bỏ hoàn toàn sự phụ thuộc vào các máy chủ từ xa hay API keys đắt đỏ. Điều này không chỉ giúp tăng tốc độ phản hồi mà còn đảm bảo tính bảo mật tối đa vì dữ liệu của bạn không bao giờ được gửi lên đám mây.
Giao diện Gemma Gem trên trình duyệt
Sau khi được cài đặt, Gemma Gem hiển thị một lớp phủ trò chuyện (chat overlay) nhỏ ở góc dưới bên phải của mọi trang web. Điểm nổi bật của dự án này là khả năng cung cấp cho mô hình AI các công cụ để tương tác trực tiếp với trang web hiện tại. Người dùng có thể yêu cầu AI đọc nội dung, chụp ảnh màn hình, nhấp vào các nút bấm, điền vào biểu mẫu, nhập văn bản, cuộn trang hoặc thậm chí thực thi các đoạn mã JavaScript.
Về kiến trúc kỹ thuật, Gemma Gem hoạt động dựa trên ba thành phần chính phối hợp chặt chẽ với nhau. Tài liệu ngoài màn hình (Offscreen Document) đóng vai trò là nơi lưu trữ mô hình AI và chạy vòng lặp tác nhân (agent loop) thông qua thư viện @huggingface/transformers. Service Worker đóng vai trò là bộ định tuyến tin nhắn, xử lý các tác vụ như chụp màn hình và chạy JavaScript. Cuối cùng, Content Script chịu trách nhiệm chèn giao diện người dùng và thực thi các công cụ thao tác DOM như đọc nội dung, nhấp chuột hay nhập liệu.
Để sử dụng Gemma Gem, người dùng cần cài đặt trình duyệt Chrome có hỗ trợ WebGPU và chuẩn bị khoảng 500MB dung lượng đĩa để tải mô hình (dung lượng này sẽ được缓存 sau lần chạy đầu tiên). Tiện ích cũng cung cấp chế độ "Thinking" (Suy nghĩ), cho phép người dùng xem quy trình lập luận theo chuỗi (chain-of-thought) của mô hình khi nó thực hiện các tác vụ.
Mặc dù Gemma Gem hoạt động khá hiệu quả với các câu hỏi đơn giản về trang web và việc chạy JavaScript, nhà phát triển cũng thẳng thắn chỉ ra những hạn chế của nó. Với mô hình 2B, các chuỗi công cụ nhiều bước đôi khi có thể không đáng tin cậy và thỉnh thoảng mô hình phớt lờ các công cụ có sẵn. Tuy nhiên, một điểm cộng lớn là vòng lặp tác nhân trong dự án có độ phụ thuộc bằng zero, cho phép các nhà phát hành trích xuất nó thành một thư viện độc lập để phục vụ các mục đích thử nghiệm hoặc phát triển thêm.
Dự án sử dụng mô hình Gemma 4 E2B với định lượng q4f16 và độ dài ngữ cảnh 128K, được xây dựng trên nền tảng WXT framework. Đây là một bước đi thú vị trong xu hướng mang AI Edge vào trình duyệt, giúp người dùng tận dụng sức mạnh của trí tuệ nhân tạo một cách riêng tư và tiện lợi.



