Bản Demo Prompt-to-Excalidraw Chạy Trực Tiếp Trên Trình Duyệt Với Gemma 4 E2B

19 tháng 4, 2026·2 phút đọc

Một bản demo mới cho phép người dùng tạo sơ đồ Excalidraw trực tiếp trên trình duyệt chỉ bằng cách mô tả văn bản, sử dụng mô hình Gemma 4 E2B. Công nghệ này tận dụng thuật toán TurboQuant để nén bộ nhớ đệm KV và chạy trên GPU thông qua WebGPU, đạt tốc độ hơn 30 token/giây mà không cần máy chủ.

Bản Demo Prompt-to-Excalidraw Chạy Trực Tiếp Trên Trình Duyệt Với Gemma 4 E2B

Một bản demo mới cho phép người dùng tạo sơ đồ Excalidraw trực tiếp trên trình duyệt chỉ bằng cách mô tả văn bản, sử dụng mô hình Gemma 4 E2B. Công nghệ này tận dụng thuật toán TurboQuant để nén bộ nhớ đệm KV và chạy trên GPU thông qua WebGPU, đạt tốc độ hơn 30 token/giây mà không cần máy chủ.

Tối ưu hóa mô hình ngôn ngữ trên trình duyệt

Điểm nổi bật của dự án này là khả năng chạy mô hình ngôn ngữ lớn (LLM) hoàn toàn tại phía client. Thay vì gửi dữ liệu lên máy chủ, mọi xử lý diễn ra ngay trong trình duyệt của người dùng.

Để thực hiện được điều này, nhóm phát triển đã áp dụng các kỹ thuật tối ưu hóa tiên tiến:

  • Hiệu quả token: Thay vì xuất ra JSON thô của Excalidraw (tốn khoảng 5.000 token), mô hình Gemma 4 E2B được huấn luyện để xuất ra mã code compact (chỉ khoảng 50 token), giúp giảm đáng kể tải xử lý.
  • Nén bộ nhớ đệm: Thuật toán TurboQuant (kết hợp Polar và QJL) được sử dụng để nén KV cache với tỷ lệ khoảng 2,4 lần. Điều này cho phép các cuộc hội thoại dài hơn có thể vừa vặn với bộ nhớ GPU hạn chế của trình duyệt.

Yêu cầu kỹ thuật và hiệu suất

Bản demo hiện tại yêu cầu cấu hình phần cứng và phần mềm cụ thể để hoạt động trơn tru:

  • Trình duyệt: Chỉ hỗ trợ Chrome phiên bản 134 trở lên trên máy tính để bàn (Desktop).
  • Bộ nhớ: Cần khoảng 3GB RAM. Do các trình duyệt trên di động thường giới hạn mức phân bổ bộ nhớ thấp hơn nhiều, demo chưa khả dụng trên mobile.
  • Đồ họa: Yêu cầu hỗ trợ WebGPU subgroups. Hiện tại, Safari và iOS chưa hỗ trợ tính năng này nên không thể chạy demo.

Demo này tái hiện thuật toán TurboQuant bằng cách sử dụng WGSL compute shaders, cho phép chạy trên GPU với tốc độ hơn 30 token mỗi giây. Ngoài ra, nhóm phát triển cũng cung cấp gói npm turboquant-wasm dùng cho việc tìm kiếm vector trên CPU thông qua WASM+SIMD.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗