Bonsai Image 4B: Mô hình tạo ảnh AI 4B tham số chạy trực tiếp trên iPhone
PrismML vừa ra mắt Bonsai Image 4B, dòng mô hình tạo ảnh nhỏ gọn sử dụng kỹ thuật nén 1-bit để chạy hiệu quả trên thiết bị cục bộ như iPhone và Mac. Mô hình giảm đáng kể dung lượng bộ nhớ nhưng vẫn duy trì chất lượng hình ảnh cao, đánh dấu bước tiến lớn cho AI trên thiết bị di động.

Hôm nay, PrismML đã chính thức giới thiệu Bonsai Image 4B, một dòng mô hình tạo ảnh nhỏ gọn được thiết kế để chạy suy luận diffusion chất lượng cao ngay trên phần cứng cục bộ, từ laptop cho đến điện thoại. Đây được coi là bước đột phá mới trong việc triển khai các mô hình tạo ảnh, mang lại khả năng hoạt động mạnh mẽ với trọng số mở (open weights) và khả năng suy luận thực tế trên các thiết bị trước đây được coi là quá yếu đối với dòng mô hình này.
Minh họa kỹ thuật nén
Giải quyết bài toán bộ nhớ với kỹ thuật 1-Bit
Tạo ảnh cục bộ luôn gặp một rào cản lớn: mô hình phải nằm trong ngân sách bộ nhớ của thiết bị. Đối với mô hình ảnh lớp 4B, bộ biến đổi (transformer) trong diffusion là phần lớn nhất và được chạy lặp đi lặp lại trong quá trình tạo ảnh. Kích thước của bộ biến đổi này ảnh hưởng trực tiếp đến áp lực bộ nhớ, yêu cầu băng thông và tốc độ suy luận.
Bonsai Image 4B được xây dựng dựa trên FLUX.2 Klein 4B, giữ nguyên kiến trúc nhưng thay đổi cách biểu diễn các trọng số của bộ biến đổi. Bằng cách chuyển đổi các trọng số này sang dạng nhị phân (binary) và ternary, Bonsai đã giảm thiểu phần quan trọng nhất của quy trình xử lý ảnh đối với việc triển khai cục bộ.
Các lớp nhị phân cung cấp mức giảm khoảng 14 lần so với các trọng số bộ biến đổi độ chính xác đầy đủ. Một tập nhỏ các tensor hỗ trợ nhạy cảm về độ chính xác (khoảng 5%), được gọi là các lớp chiếu (projection layers), vẫn được giữ ở FP16. Kết quả là bộ biến đổi Bonsai Image 4B 1-bit chỉ còn 0,93 GB, giảm 8,3 lần so với 7,75 GB của FLUX.2 Klein 4B gốc.
Biến thể Ternary cũng có cấu trúc tương tự. Các lớp ternary của nó cung cấp mức giảm khoảng 10 lần và bộ biến đổi Ternary Bonsai Image 4B cuối cùng là 1,21 GB, giảm 6,4 lần so với bộ biến đổi độ chính xác đầy đủ. Mặc dù lớn hơn một chút so với mô hình 1-bit, nhưng trạng thái zero bổ sung giúp cải thiện chất lượng thị giác và độ trung thực với câu lệnh (prompt).
So sánh hiệu suất
Hiệu suất ấn tượng trên iPhone và Mac
Sự giảm thiểu dung lượng bộ nhớ này đã thay đổi hoàn toàn khả năng chạy mô hình trên các thiết bị di động. Trên Apple Silicon, gói triển khai cho Bonsai Image 4B 1-bit là 3,42 GB và 3,88 GB cho biến thể Ternary. Để so sánh, FLUX.2 Klein 4B độ chính xác đầy đủ yêu cầu tới 15,97 GB.
Khi tạo một hình ảnh 512x512, bộ nhớ hoạt động trung bình chỉ là 1,5 GB và 1,96 GB cho các mô hình nhị phân và ternary, so với 11,74 GB của FLUX.2 Klein 4B gốc (giảm lần lượt là 7,8 lần và 6,0 lần).
Trong thực tế, Bonsai Image 4B tạo ra một hình ảnh 512x512 trong 9,4 giây trên iPhone 17 Pro Max và khoảng 6 giây trên Mac M4 Pro. Trên Mac M4 Pro, Bonsai Image 4B nhanh hơn tới 5,6 lần so với quy trình MFLUX độ chính xác đầy đủ.
Chất lượng vẫn là ưu tiên hàng đầu
Việc nén chỉ có ý nghĩa khi mô hình vẫn hữu ích. PrismML đã đánh giá Bonsai Image 4B trên ba điểm chuẩn chính: GenEval (sự kết hợp đối tượng và liên kết thuộc tính), HPSv3 (sự ưu tiên của con người và chất lượng thẩm mỹ) và DPG-Bench (tuân thủ câu lệnh dày đặc và tính trung thực ngữ nghĩa).
- Bonsai Image 4B Ternary: Là biến thể hướng tới chất lượng. Với kích thước 1,21 GB, nó giữ lại 95% độ chính xác của FLUX.2 Klein 4B trên các điểm chuẩn, đồng thời giảm footprint của bộ biến đổi diffusion xuống 6,4 lần.
- Bonsai Image 4B 1-bit: Là biến thể hướng tới tối ưu hóa dung lượng. Nó đưa bộ biến đổi diffusion xuống dưới 1 GB (giảm 8,3 lần) nhưng vẫn mang lại điểm số mạnh mẽ trên cùng ba đánh giá (giữ lại 88% độ chính xác của FLUX.2 Klein 4B).
Tầm quan trọng của suy luận cục bộ
Tạo ảnh không chỉ là vấn đề về chất lượng mô hình, mà còn là vấn đề triển khai. Mặc dù các API đám mây vẫn là lựa chọn đúng đắn cho nhiều sản phẩm, nhưng việc tạo ảnh chỉ trên đám mây áp đặt các ràng buộc nhất định: mọi câu lệnh đều là yêu cầu từ xa, mọi lần lặp đều chi phí phục vụ và mọi tương tác đều thêm độ trễ lan truyền.
Điều này đặc biệt quan trọng vì tạo ảnh có tính chất lặp đi lặp lại. Người dùng hiếm khi dừng lại ở một hình ảnh; họ sửa đổi câu lệnh, so sánh kết quả, tạo biến thể và thử lại. Khi mỗi lần thử là một công việc phía máy chủ, vòng lặp sáng tạo trở thành thứ người dùng phải đo lường và chờ đợi. Suy luận cục bộ thay đổi điều đó. Khi mô hình vừa vặn với thiết bị, việc tạo ảnh có thể nằm ngay trong trải nghiệm sản phẩm, rẻ hơn, nhanh hơn và an toàn hơn về quyền riêng tư.
Cả hai biến thể Bonsai Image 4B (1-bit và Ternary) đều được phát hành với trọng số và mã nguồn mở theo giấy phép Apache 2.0. Cùng với việc ra mắt này, PrismML cũng giới thiệu Bonsai Studio, ứng dụng iOS để dùng thử Bonsai Image 4B trực tiếp trên iPhone.
Bài viết liên quan

Công nghệ
Microsoft giới thiệu Surface Pro 12 và Surface Laptop 8: Sức mạnh chip Intel, giá thành gây sốc
19 tháng 5, 2026

Phần mềm
Nvidia chính thức khai tử ứng dụng GeForce Control Panel sau 20 năm gắn bó
26 tháng 5, 2026

Công nghệ
Đánh giá Corsair Galleon 100 SD: Khi Stream Deck được tích hợp ngay trên bàn phím
27 tháng 5, 2026
