DeepL ra mắt bộ công cụ dịch giọng nói thời gian thực, tích hợp Zoom và Teams

16 tháng 4, 2026·4 phút đọc

DeepL, công ty nổi tiếng với công cụ dịch văn bản, vừa tung ra bộ giải pháp dịch giọng nói thời gian thực cho các cuộc họp và hội thoại. Công nghệ này sẽ được tích hợp vào Zoom, Microsoft Teams và cung cấp API cho các nhà phát triển, nhằm giải quyết bài toán cân bằng giữa độ trễ thấp và độ chính xác cao.

DeepL ra mắt bộ công cụ dịch giọng nói thời gian thực, tích hợp Zoom và Teams

DeepL, một công ty dịch thuật nổi tiếng với các công cụ xử lý văn bản, hôm nay đã phát hành bộ giải pháp dịch giọng nói (voice-to-voice) bao gồm các trường hợp sử dụng như họp hành, hội thoại qua di động/web và hội thoại nhóm cho nhân viên tuyến đầu thông qua các ứng dụng tùy chỉnh. Công ty cũng phát hành API cho phép các nhà phát triển và doanh nghiệp bên ngoài xây dựng dựa trên công nghệ của DeepL cho các trường hợp sử dụng tùy chỉnh, chẳng hạn như trung tâm cuộc gọi.

"Sau nhiều năm dành cho dịch thuật văn bản, giọng nói là một bước phát triển tự nhiên đối với chúng tôi," CEO của DeepL, Jarek Kutylowski, chia sẻ với TechCrunch. "Chúng tôi đã đi một chặng đường dài trong dịch thuật văn bản và tài liệu. Nhưng chúng tôi nhận thấy chưa có sản phẩm nào thực sự xuất sắc cho dịch thuật giọng nói thời gian thực."

Kutylowski cho biết thách thức trong việc tạo ra sản phẩm dịch thuật thời gian thực nằm ở việc cân bằng giữa việc giảm độ trễ (latency) — khoảng thời gian chờ đợi giữa khi một người nói và khi âm thanh đã dịch được phát lại — và duy trì kết quả chính xác.

Tích hợp vào các nền tảng họp hành phổ biến

DeepL đang tung ra các tiện ích bổ sung (add-ons) cho các nền tảng như Zoom và Microsoft Teams, nơi người nghe có thể nghe bản dịch thời gian thực trong khi người khác đang nói bằng ngôn ngữ mẹ đẻ hoặc theo dõi văn bản đã dịch trên màn hình. Chương trình này hiện đang trong giai đoạn truy cập sớm và công ty đang mời các tổ chức tham gia danh sách chờ. Công ty cũng có một sản phẩm cho các cuộc hội thoại trên di động và dựa trên web có thể diễn ra trực tiếp hoặc từ xa.

DeepL cũng cho phép người dùng tham gia vào một cuộc hội thoại nhóm trong các bối cảnh như buổi đào tạo hoặc hội thảo, cho phép người tham gia tham gia thông qua mã QR.

Công ty cho biết công nghệ dịch giọng nói của họ có thể học hỏi và thích ứng với từ vựng tùy chỉnh, chẳng hạn như các thuật ngữ chuyên ngành cụ thể cũng như tên công ty và tên cá nhân.

Tác động đến dịch vụ khách hàng và công nghệ lõi

Kutylowski nhận định rằng AI đang định hình lại bộ mặt của dịch vụ khách hàng trong những năm tới. Ông lưu ý rằng một lớp dịch thuật giúp các công ty cung cấp hỗ trợ bằng những ngôn ngữ mà nhân sự có trình độ chuyên môn khan hiếm và chi phí tuyển dụng cao.

DeepL cho biết họ kiểm soát toàn bộ ngăn xếp công nghệ dịch giọng nói. Tuy nhiên, hệ thống hiện tại chuyển đổi giọng nói thành văn bản, áp dụng dịch thuật, sau đó chuyển đổi văn bản đó trở lại giọng nói. DeepL tin rằng vì đã làm việc với dịch thuật văn bản trong nhiều năm, họ có lợi thế về chất lượng dịch thuật. Trong tương lai, công ty muốn phát triển một mô hình dịch thuật giọng nói đầu cuối (end-to-end) bỏ qua bước chuyển đổi văn bản hoàn toàn.

Bối cảnh cạnh tranh

DeepL đang đối mặt với sự cạnh tranh từ một số startup được tài trợ tốt hoạt động trong các lĩnh vực liên quan. Sanas, công ty năm ngoái huy động được 65 triệu USD từ Quadrille Capital và Teleperformance, sử dụng AI để sửa đổi giọng nói của người nói theo thời gian thực — một công cụ chủ yếu nhắm đến các nhân viên trung tâm cuộc gọi.

Camb.AI có trụ sở tại Dubai tập trung vào tổng hợp giọng nói và dịch thuật cho các công ty truyền thông và giải trí, giúp họ lồng tiếng và địa phương hóa nội dung video quy mô lớn.

Palabra, được hỗ trợ bởi quỹ Seven Seven Six của đồng sáng lập Reddit Alexis Ohanian, đang xây dựng động cơ dịch thuật giọng nói thời gian thực được thiết kế để bảo toàn cả ý nghĩa và giọng nói gốc của người nói, đưa nó vào cạnh tranh trực tiếp hơn với những gì DeepL đang xây dựng.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗