Hai nhà sáng lập rời Goldman và Meta để xây dựng AI giọng nói cho thị trường bị bỏ quên

Công nghệ03 tháng 6, 2026·7 phút đọc

Startup AethexAI vừa gọi vốn 3 triệu USD để phát triển giải pháp AI giọng nói chuyên biệt cho Châu Phi và Trung Đông. Thay vì dùng công nghệ có sẵn, họ tự xây dựng mô hình nhỏ để giảm độ trễ và xử lý các phương ngữ địa phương phức tạp.

Hai nhà sáng lập rời Goldman và Meta để xây dựng AI giọng nói cho thị trường bị bỏ quên

Hỗ trợ khách hàng và dịch vụ chăm sóc khách hàng hiện đang là những lĩnh vực nóng nhất trong mảng AI giọng nói. Tuy nhiên, việc xây dựng một sản phẩm có giọng đọc tự nhiên như con người và phản hồi tức thì mà không có độ trễ đáng nhận ra lại khó khăn hơn nhiều ở một số thị trường so với các thị trường khác — và hầu hết các công ty công nghệ lớn không được xây dựng với tâm thế hướng tới Châu Phi và Trung Đông.

AethexAI, một startup được thành lập vào năm ngoái nhằm lấp đầy khoảng trống này, đã huy động được 3 triệu USD vốn hạt giống sơ khai (pre-seed) do 4DX Ventures dẫn đầu, với sự tham gia của Enza Capital, Dorm Room Fund, Mojo Ventures và Stanford GSB 26 Fund. Các nhà đầu tư cá nhân bao gồm giảng viên Stanford, các giám đốc điều hành viễn thông và các nhà nghiên cứu AI từ Anthropic.

Thay vì sử dụng các công cụ điều phối có sẵn như Vapi và LiveKit, công ty đã tự xây dựng một mô hình nhỏ và lớp điều phối (orchestration layer) từ đầu để xử lý các phương ngữ tiếng Anh, tiếng Pháp và tiếng Arabia được nói tại các thị trường mục tiêu của họ — một quyết định được đưa ra bởi những yêu cầu đặc thù khi hoạt động tại khu vực này.

Công ty cũng đang ra mắt nền tảng của mình để các doanh nghiệp dùng thử công nghệ và đăng ký dịch vụ, cùng với các API và SDK dành cho các nhà phát triển để thử nghiệm các mô hình của AethexAI.

Startup này được đồng sáng lập bởi Mariama Diallo và Ayooluwa Odemuyiwa. CEO Diallo từng làm việc tại Goldman Sachs và sau đó gia nhập ModelML được Y Combinator hỗ trợ với tư cách là nhân viên phát triển sản phẩm và tăng trưởng. CTO Odemuyiwa tốt nghiệp Caltech, từng làm việc tại Meta và theo học tại Trường Kinh doanh Stanford trước khi đồng sáng lập công ty. Cặp đôi này muốn xây dựng một cái gì đó dành cho các thị trường mới nổi và bắt đầu tìm kiếm các cơ hội.

Các doanh nghiệp trên khắp thế giới đang chạy đua để áp dụng các công cụ AI nhằm tự động hóa một phần hoạt động của họ. Nhưng điều đó không phải lúc nào cũng thành công. Tại Ai Cập, một trung tâm cuộc gọi đã tự động hóa một phần lớn các cuộc gọi của mình, nhưng phải quay lại sử dụng hệ thống cũ vì kết quả kém, các nhà sáng lập phát hiện ra. Một số trung tâm hỗ trợ tại Châu Phi cho biết họ gặp khó khăn liên tục trong việc tìm kiếm và thuê kỹ sư để tự động hóa các cuộc gọi với chi phí phù hợp.

"Độ trễ và sự biến dạng (jitter) mà chúng tôi thấy trên các cuộc gọi tự động hóa tại khu vực này là khủng khiếp. Nếu chúng tôi trở thành những người điều phối, chúng tôi có thể đã phải sử dụng các mô hình lớn được lưu trữ bên ngoài khu vực, dẫn đến độ trễ cao hơn. Chúng tôi nhận ra rằng để việc này hoạt động, chúng tôi phải sử dụng các mô hình rất nhỏ và cắt giảm độ trễ ở mọi bước," Odemuyiwa chia sẻ với TechCrunch về quyết định xây dựng các mô hình và lớp điều phối riêng của công ty.

Các phòng thí nghiệm AI triển khai các mô hình mới nhất của họ thường chi hàng triệu USD để đào tạo và thu thập dữ liệu. AethexAI đã tìm ra giải pháp cho cả hai vấn đề này. Thay vì chạy theo các mô hình lớn nhất có thể, họ quyết định rằng các mô hình nhỏ là đủ để giải quyết vấn đề độ trễ trong khi vẫn duy trì độ chính xác và đã phát triển dòng Kora riêng, với số tham số từ 300 triệu đến 1,7 tỷ. Con số này chỉ bằng một phần nhỏ so với các Mô hình Ngôn ngữ Lớn (LLM), và chính xác là điểm mấu chốt.

Để đào tạo các mô hình này, startup đã sử dụng các bản ghi âm ẩn danh từ một đối tác trung tâm cuộc gọi. Họ cũng gửi ổ cứng đến các đài phát thanh trên khắp Châu Phi để thu thập thêm dữ liệu âm thanh. Để giữ chi phí thấp, họ đã xây dựng một mạng lưới đóng góp gồm các sinh viên đại học để chú thích dữ liệu và đọc các tên địa phương. Kết quả là, theo startup cho biết, họ hiện đang xử lý hơn 17.000 cuộc gọi mỗi ngày.

Về mặt kinh doanh, công ty đang chú ý hướng dẫn các khách hàng mới làm quen với AI giọng nói thông qua các bản demo và hội thảo tại chỗ để giúp họ xác định các trường hợp sử dụng tốt nhất cho tự động hóa.

"Chúng tôi luôn nói với khách hàng rằng chúng tôi không thể làm mọi thứ cho tất cả mọi người ngay bây giờ. Chúng tôi còn nhỏ. Khi bắt đầu nói chuyện với một công ty, chúng tôi yêu cầu họ chọn một trường hợp sử dụng quan trọng nhất với họ để bắt đầu," Diallo nói.

Startup này mở rộng làm việc trong tất cả các ngành công nghiệp, nhưng hiện nay, một phần lớn các trường hợp sử dụng liên quan đến các cuộc gọi thu hồi nợ, kích hoạt khách hàng hoặc KYC — quy trình xác minh danh tính khách hàng tiêu chuẩn được các ngân hàng và công ty viễn thông sử dụng. Công ty đang tuyển dụng các kỹ sư triển khai tiến xa trên cơ sở hợp đồng để phục vụ các thị trường địa phương và xây dựng quan hệ đối tác kênh với các nhà cung cấp dịch vụ viễn thông để xử lý điện thoại cho các cuộc gọi AI giọng nói. Các giải pháp "cắm và chạy" (plug-and-play) đơn giản sẽ không hoạt động ở đây, theo họ.

Walter Baddoo, đồng sáng lập và giám đốc điều hành tại 4DX Ventures, lập luận rằng thị trường Châu Phi và Trung Đông về cơ bản khác với các thị trường mà hầu hết các công ty AI giọng nói được xây dựng để phục vụ.

"Các doanh nghiệp tại Châu Phi và Trung Đông xử lý lượng cuộc gọi lớn hơn khoảng ba lần so với các đối tác phương Tây của họ, vì giọng nói vẫn là kênh tương tác khách hàng chủ đạo," ông nói. "Các hệ thống hiện có được xây dựng cho các thị trường phương Tây với đặc điểm là cơ sở hạ tầng GPU cao cấp, môi trường ngôn ngữ tiếng Anh tiêu chuẩn và châu Âu, cũng như quy trình làm việc của doanh nghiệp phổ biến ở Mỹ và Châu Âu. Điều này tạo ra những khoảng trống thực sự khi các doanh nghiệp cần các hệ thống có thể xử lý phương ngữ, chuyển đổi mã ngôn ngữ (code-switching) và các mô hình ngôn ngữ phi chính thức, đồng thời hoạt động trong cơ sở hạ tầng viễn thông hiện có và mức giá thực tế của họ."

Nói cách khác, trong khi các công ty như ElevenLabs, Deepgram, Sierra và Cognigy đang mở rộng toàn cầu với tốc độ nhanh, thị trường mà họ được xây dựng để phục vụ và thị trường mà họ đang bước vào không phải lúc nào cũng giống nhau. Các startup như AethexAI đang đặt cược rằng những khoảng trống này — các mô hình chuyên biệt về phương ngữ địa phương, quan hệ đối tác tại chỗ, cơ sở hạ tầng được xây dựng cho khu vực — đại diện cho một cơ hội thị trường mà các gã khổng lồ không có động lực cũng như kiến trúc để lấp đầy.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗