Google ra mắt Gemini 3.1 Flash Live: Bước tiến mới cho AI âm thanh tự nhiên
Gemini 3.1 Flash Live là mô hình âm thanh chất lượng cao nhất của Google, được thiết kế cho hội thoại thời gian thực tự nhiên và đáng tin cậy. Mô hình này cải thiện độ trễ, khả năng suy luận và hiện đã được mở rộng sang hơn 200 quốc gia.

Hôm nay, Google đã công bố sự ra mắt của Gemini 3.1 Flash Live, mô hình âm thanh và giọng nói chất lượng cao nhất tính đến hiện nay. Với độ trễ thấp và khả năng xử lý thông tin chính xác hơn, mô hình này hứa hẹn mang lại trải nghiệm hội thoại thời gian thực mượt mà và trực quan cho người dùng, nhà phát triển cũng như các doanh nghiệp.
Gemini 3.1 Flash Live
Gemini 3.1 Flash Live hiện đã có mặt trên các sản phẩm của Google, bao gồm bản dùng thử cho nhà phát triển thông qua Gemini Live API trong Google AI Studio, phiên bản dành cho doanh nghiệp trong Gemini Enterprise, và trải nghiệm cho mọi người qua Search Live và Gemini Live.
Nâng cao hiệu suất cho nhà phát triển và doanh nghiệp
Google đã cải thiện tổng thể chất lượng của 3.1 Flash Live, giúp mô hình trở nên đáng tin cậy hơn cho các nhà phát triển và doanh nghiệp trong việc xây dựng các tác nhân ảo (voice agents) có khả năng thực hiện các tác vụ phức tạp quy mô lớn.
Biểu đồ hiệu năng Gemini 3.1 Flash Live
Trên tiêu chuẩn ComplexFuncBench Audio — bài kiểm tra đo lường khả năng gọi hàm đa bước với nhiều ràng buộc khác nhau — 3.1 Flash Live đạt điểm ấn tượng là 90,8%, vượt trội so với mô hình trước đó.
Đồng thời, trên bài kiểm tra Audio MultiChallenge của Scale AI, mô hình này cũng dẫn đầu với điểm số 36,1% khi bật chế độ "suy nghĩ". Bài kiểm tra này đặc biệt đánh giá khả năng tuân thủ chỉ dẫn phức tạp và khả năng lý luận dài hạn trong bối cảnh có sự gián đoạn và ngập ngừng đặc trưng của âm thanh thực tế.
Một cải tiến đáng chú ý khác là khả năng hiểu về sắc thái ngữ điệu. 3.1 Flash Live hiệu quả hơn trong việc nhận diện các sắc thái thính giác như cao độ và nhịp độ, từ đó điều chỉnh phản hồi linh hoạt dựa trên cảm xúc của người dùng, dù là sự thất vọng hay bối rối. Điều này giúp các tác nhân ảo có thể xử lý các tác vụ phức tạp ngay cả trong môi trường ồn ào.
Ứng dụng trong doanh nghiệp
Các công ty lớn như Verizon, LiveKit và The Home Depot đã đưa ra phản hồi tích cực về tính năng hội thoại tự nhiên được cải thiện trong quy trình làm việc của họ.
Trải nghiệm người dùng tự nhiên và trực quan hơn
Với người dùng phổ thông, 3.1 Flash Live mang lại những phản hồi hữu ích và tự nhiên hơn trên cả Gemini Live và Search Live.
Nhờ sức mạnh từ mô hình mới, Gemini Live cung cấp phản hồi nhanh hơn so với phiên bản trước và có khả năng theo dõi mạch hội thoại trong thời gian gấp đôi, giúp người dùng duy trì tư duy trong các phiên động não kéo dài. Ngoài ra, tính năng đa ngôn ngữ vốn có của 3.1 Flash Live đã giúp Google mở rộng tính năng Search Live sang hơn 200 quốc gia và vùng lãnh thổ. Người dùng hiện nay có thể hội thoại thời gian thực theo chế độ đa phương thức với công cụ tìm kiếm bằng ngôn ngữ mẹ đẻ của họ.
Tìm kiếm trực tiếp với Gemini
An toàn và Chịu trách nhiệm
Tất cả âm thanh được tạo ra bởi 3.1 Flash Live đều được đóng dấu vô hình bằng công nghệ SynthID. Dấu watermark này được dệt trực tiếp vào đầu ra âm thanh, cho phép phát hiện đáng tin cậy nội dung do AI tạo ra, giúp ngăn chặn sự lan truyền thông tin sai lệch. Để biết thêm thông tin chi tiết về cách tiếp cận an toàn và trách nhiệm của Google, bạn có thể xem thẻ thông số của mô hình (model card).
Hiện tại, người dùng đã có thể trải nghiệm sự tự nhiên và độ tin cậy của 3.1 Flash Live ngay hôm nay.



