Microsoft VibeVoice: Bộ công cụ AI giọng nói mã nguồn mở thế hệ mới

Microsoft giới thiệu VibeVoice, bộ mô hình AI giọng nói mã nguồn mở với khả năng chuyển đổi văn bản thành giọng nói (TTS) và nhận dạng giọng nói (ASR) ấn tượng. Hệ thống hỗ trợ xử lý âm thanh dài, nhiều người nói và đa ngôn ngữ, tích hợp sẵn vào thư viện Hugging Face Transformers.

Microsoft VibeVoice là bộ khung nghiên cứu mã nguồn mở mới nhất dành cho cộng đồng AI giọng nói, bao gồm cả các mô hình Chuyển đổi Văn bản thành Giọng nói (TTS) và Nhận dạng Giọng nói Tự động (ASR). Dự án này nhằm thúc đẩy sự hợp tác và phát triển trong lĩnh vực tổng hợp và xử lý ngôn ngữ tự nhiên.

Hugging Face Collection

Điểm nổi bật của VibeVoice nằm ở việc sử dụng bộ mã hóa giọng nói liên tục (Acoustic và Semantic) hoạt động ở tốc độ khung hình siêu thấp là 7.5 Hz. Điều này giúp bảo toàn độ trung thực của âm thanh đồng thời tăng đáng kể hiệu quả tính toán khi xử lý các chuỗi dữ liệu dài. Hệ thống kết hợp giữa Mô hình Ngôn ngữ Lớn (LLM) để hiểu ngữ cảnh văn bản và luồng hội thoại, cùng với một cơ chế diffusion để tạo ra chi tiết âm thanh sắc nét.

Các mô hình chính trong hệ sinh thái VibeVoice

Hệ sinh thái VibeVoice bao gồm ba mô hình chính, mỗi mô hình phục vụ một mục đích cụ thể trong xử lý tín hiệu giọng nói:

1. VibeVoice-ASR: Nhận dạng giọng nói dạng dài

Đây là mô hình chuyển đổi giọng nói thành văn bản thống nhất, được thiết kế để xử lý các tệp âm thanh dài tới 60 phút trong một lần chạy duy nhất.

ArXiv Report

Xử lý một lần (Single-Pass): Khác với các mô hình ASR truyền thống thường cắt âm thanh thành các đoạn nhỏ (dễ làm mất ngữ cảnh toàn cục), VibeVoice ASR chấp nhận đầu vào âm thanh liên tục lên đến 60 phút trong giới hạn 64K token. Điều này đảm bảo theo dõi người nói nhất quán và tính mạch lạc về ngữ nghĩa trong suốt giờ ghi âm.
Bản chép có cấu trúc: Mô hình thực hiện đồng thời ASR, phân định người nói (diarization) và đánh dấu thời gian, tạo ra đầu kết cấu cho biết "Ai nói gì" và "Khi nào".
Hỗ trợ từ khóa tùy chỉnh: Người dùng có thể cung cấp các từ khóa nóng (ví dụ: tên riêng, thuật ngữ kỹ thuật) để hướng dẫn quá trình nhận dạng, giúp cải thiện độ chính xác cho các nội dung chuyên ngành.

2. VibeVoice-TTS: Tổng hợp giọng nói đa người nói dạng dài

Mô hình này lý tưởng cho việc tạo ra audio podcast, hội thoại hoặc nội dung âm thanh dài.

Tạo âm thanh dài 90 phút: Có khả năng tổng hợp giọng nói hội thoại hoặc đơn người nói lên đến 90 phút trong một lần chạy, duy trì sự nhất quán về người nói và ngữ nghĩa.
Hỗ trợ đa người nói: Cho phép tối đa 4 người nói khác nhau trong một cuộc hội thoại, với sự chuyển đổi lượt nói tự nhiên.
Đa ngôn ngữ và biểu cảm: Hỗ trợ tiếng Anh, tiếng Trung và các ngôn ngữ khác, đồng thời tạo ra giọng nói tự nhiên, bắt được sắc thái cảm xúc của cuộc hội thoại.

3. VibeVoice-Realtime: TTS thời gian thực

Đây là phiên bản mô hình nhẹ, hỗ trợ đầu vào văn bản dạng luồng (streaming) và tạo giọng nói thời gian thực.

Kích thước nhỏ gọn: 0.5B tham số, thuận lợi cho việc triển khai (deployment).
Độ trễ thấp: Thời gian trễ để nghe thấy âm thanh đầu tiên khoảng 300 mili-giây.
Khả năng tạo âm thanh dài bền bỉ: Hỗ trợ tạo giọng nói dạng dài khoảng 10 phút với độ ổn định cao.

Cập nhật và Tích hợp

Gần đây, Microsoft đã thông báo rằng VibeVoice ASR hiện đã là một phần của bản phát hành Transformers. Điều này cho phép các nhà phát triển sử dụng trực tiếp mô hình nhận dạng giọng nói này thông qua thư viện Hugging Face Transformers, giúp việc tích hợp vào các dự án trở nên mượt mà hơn bao giờ hết.

Ngoài ra, mã nguồn tinh chỉnh (finetuning) cho VibeVoice-ASR và hỗ trợ suy luận (inference) qua vLLM cũng đã được phát hành để tăng tốc độ xử lý.

GitHub Project Page

Cảnh báo về rủi ro và Giới hạn

Microsoft nhấn mạnh rằng mặc dù đã được tối ưu hóa, VibeVoice vẫn có thể tạo ra các đầu ra không mong muốn, thiên kiến hoặc không chính xác. Mô hình kế thừa các thiên vị từ mô hình cơ sở (Qwen2.5 1.5b).

Một rủi ro lớn là tiềm năng tạo ra Deepfake và tin giả. Giọng nói tổng hợp chất lượng cao có thể bị lạm dụng để tạo nội dung âm thanh giả mạo lừa đảo. Người dùng được khuyến cáo kiểm tra độ chính xác của nội dung, tuân thủ pháp luật và công bố việc sử dụng AI khi chia sẻ nội dung được tạo ra.

Hiện tại, Microsoft không khuyến nghị sử dụng VibeVoice trong các ứng dụng thương mại hoặc thực tế mà chưa có thêm thử nghiệm và phát triển. Bộ công cụ này chủ yếu dành cho mục đích nghiên cứu và phát triển (R&D).