Lance: Mô hình AI đa phương thức 3B của ByteDance thống nhất tạo và hiểu hình ảnh, video
ByteDance vừa giới thiệu Lance, một mô hình đa phương thức thống nhất với 3 tỷ tham số. Lance có khả năng xử lý cả việc tạo sinh và hiểu nội dung hình ảnh, video trong một khung duy nhất, mang lại hiệu suất ấn tượng dù được huấn luyện với chi phí thấp.
ByteDance đã công bố Lance, một mô hình đa phương thức (multimodal) mới nổi bật với khả năng thống nhất việc tạo sinh và hiểu nội dung hình ảnh cũng như video trong một khung duy nhất. Với chỉ 3 tỷ tham số hoạt động (active parameters), Lance chứng minh rằng hiệu suất cao không nhất thiết phải đi kèm với quy mô mô hình khổng lồ.
Mô hình Lance trên Hugging Face
Điểm nổi bật của Lance
Lance được thiết kế như một giải pháp "tất cả trong một" cho các tác vụ thị giác máy tính và tạo sinh nội dung. Dưới đây là những tính năng chính:
- Khả năng đa nhiệm: Mô hình hỗ trợ Text-to-Image (tạo ảnh từ văn bản), Text-to-Video (tạo video từ văn bản), chỉnh sửa ảnh/video, và hiểu nội dung (Visual Question Answering - VQA) cho cả ảnh và video.
- Hiệu quả tối ưu: Mặc dù chỉ có 3 tỷ tham số, Lance đạt hiệu suất mạnh mẽ trên nhiều benchmark tiêu chuẩn về tạo ảnh, chỉnh sửa ảnh và tạo video.
- Huấn luyện từ đầu: Mô hình được xây dựng với quy trình đa giai đoạn và được huấn luyện hoàn toàn từ đầu (trừ các bộ mã hóa ViT và VAE), sử dụng ngân sách tính toán dưới 128 GPU A100.
Hiệu suất ấn tượng trên các Benchmark
Theo các bài kiểm tra độc lập, Lance 3B đã cho thấy khả năng cạnh tranh trực tiếp với các mô hình lớn hơn nhiều.
Kết quả Benchmark của Lance
Trên bộ tiêu chuẩn GenEval (đánh giá tạo ảnh), Lance đạt điểm tổng thể là 0.90, vượt qua các đối thủ nặng ký như SDXL (0.55), SD3-Medium (0.74) và thậm chí là FLUX.1-dev (0.82). Điều này cho thấy khả năng bám sát prompt và chi tiết hình ảnh xuất sắc.
Trong lĩnh vực tạo video (VBench), Lance đạt tổng điểm 85.11, xếp trên các mô hình chuyên dụng khác như CogVideoX (81.61) hay Hunyuan Video (83.43), khẳng định vị thế của mình như một mô hình đa phương thức hàng đầu hiện nay.
Trải nghiệm và Cài đặt
Lance hiện là một dự án nghiên cứu mã nguồn mở. Người dùng có thể truy cập mã nguồn, bài báo và trọng số mô hình thông qua GitHub và Hugging Face.
Để chạy được mô hình, yêu cầu phần cứng khá khắt khe:
- Phần cứng: GPU với ít nhất 40GB VRAM để suy luận (inference).
- Phần mềm: Python 3.10+ và CUDA 12.4+.
Demo Text-to-Video
Đội ngũ phát triển cũng cung cấp giao diện Gradio và các script lệnh để người dùng dễ dàng trải nghiệm các tính năng như tạo video, chỉnh sửa video, hoặc hỏi đáp về nội dung hình ảnh.
Kết luận
Sự ra đời của Lance đánh dấu một bước tiến quan trọng trong xu hướng xây dựng các mô hình AI nền tảng (foundation models) vừa nhẹ nhàng, vừa đa năng. Việc tích hợp khả năng hiểu và tạo nội dung trong một mô hình duy nhất sẽ mở ra nhiều khả năng ứng dụng mới trong tương lai, từ sáng tạo nội dung tự động đến các hệ thống trợ lý thông minh.
"Lance là một dự án nghiên cứu, không phải là một sản phẩm hoàn thiện," - đội ngũ ByteDance nhấn mạnh. Mọi đóng góp và phản hồi từ cộng đồng đều được chào đón để phát triển dự án này tốt hơn.
Bài viết liên quan

Phần mềm
Google tung ra Antigravity 2.0: Ứng dụng lập trình thế hệ mới với công cụ CLI và gói đăng ký AI Ultra
19 tháng 5, 2026

Phần mềm
Plugin Checkmarx Jenkins bị xâm phạm trong cuộc tấn công chuỗi cung ứng
11 tháng 5, 2026

Công nghệ
Substrate (YC S24) tuyển dụng Technical Success Manager cho nền tảng AI chuyên xử lý thanh toán y tế
13 tháng 5, 2026
