Microsoft tung ra 3 mô hình AI nội bộ để cạnh tranh trực tiếp với OpenAI

02 tháng 4, 2026·3 phút đọc

Microsoft vừa công bố phiên bản thử nghiệm công khai cho ba mô hình AI nội bộ, bao gồm khả năng nhận diện và tổng hợp giọng nói cũng như tạo ảnh từ văn bản. Các mô hình này chạy trên nền tảng Azure AI Foundry và đang được tích hợp sâu vào các sản phẩm như Copilot, cho thấy nỗ lực của Redmond trong việc giảm sự phụ thuộc vào đối tác OpenAI.

Microsoft tung ra 3 mô hình AI nội bộ để cạnh tranh trực tiếp với OpenAI

Microsoft tung ra 3 mô hình AI nội bộ để cạnh tranh trực tiếp với OpenAI

Thứ Năm vừa qua, Microsoft đã chính thức ra mắt phiên bản thử nghiệm công khai (public preview) cho ba mô hình học máy nội bộ tập trung vào nhận diện giọng nói, tổng hợp giọng nói và tạo ảnh từ văn bản. Việc này cho thấy nỗ lực của Redmond trong việc chuyển mình từ một nhà đầu tư vào đối tác chiến lược, trở thành đối thủ trực tiếp của OpenAI.

Các mô hình cốt lõi

Bộ ba mô hình mới bao gồm:

  • MAI-Transcribe-1: Một mô hình nhận diện giọng nói cung cấp độ chính xác "doanh nghiệp" trên 25 ngôn ngữ với chi phí GPU thấp hơn khoảng 50% so với các giải pháp dẫn đầu hiện nay.
  • MAI-Voice-1: Mô hình tổng hợp giọng nói có khả năng tạo ra âm thanh dài 60 giây chỉ trong dưới một giây trên một GPU duy nhất.
  • MAI-Image-2: Mô hình tạo ảnh từ văn bản (text-to-image), tạo ra thêm áp lực cho cộng đồng nghệ sĩ kỹ thuật số.

Tận dụng trong môi trường doanh nghiệp

Các mô hình này đều có sẵn trên nền tảng Azure AI Foundry (trước đây là Azure AI Studio), nơi các nhà phát triển có thể xây dựng các tác nhân AI và ứng dụng. Naomi Moneypenny, người dẫn dắt sản phẩm, khẳng định đây là những mô hình đã được sử dụng trong các sản phẩm nội bộ như Copilot, Bing, PowerPoint và Azure Speech.

"Đây chính xác là những mô hình đang vận hành cho các sản phẩm của chúng tôi như Copilot, Bing, PowerPoint và Azure Speech, và giờ đây chúng được cung cấp độc quyền trên Foundry cho các nhà phát triển sử dụng," Naomi Moneypenny viết trên blog.

Các mô hình này phù hợp với nhiều trường hợp sử dụng phổ biến trong doanh nghiệp, chẳng hạn như thiết kế các trợ lý hỗ trợ khách hàng có khả năng nhận diện giọng nói và tự động tạo phản hồi.

Tâm lý chiến và sự thay đổi chiến lược

Mối quan hệ đối tác giữa Microsoft và OpenAI đang dần thay đổi. Khi công bố việc tái đàm phán hợp đồng, Microsoft đã thừa nhận khả năng "tự do theo đuổi Trí tuệ nhân tạo tổng quát (AGI) độc lập hoặc trong đối tác với các bên thứ ba". Điều này giải phóng cho Microsoft theo đuổi con đường AI của riêng mình dưới danh nghĩa nghiên cứu AGI.

Có nhiều động lực khiến Microsoft muốn làm như vậy. Các nhà đầu tư đã chỉ ra sự lo ngại về rủi ro tài chính khi OpenAI đang tiêu tốn tiền bạc khổng lồ và dự kiến sẽ thua lỗ 14 tỷ USD vào năm nay. Ngoài ra, Microsoft đang tập trung tối đa vào khách hàng doanh nghiệp và đã ngừng phát triển video generator Sora 2.

Việc Microsoft sử dụng chính các mô hình nội bộ cho Copilot (cụ thể là MAI-Voice-1 và MAI-Transcribe-1) là minh chứng rõ ràng nhất cho xu hướng này, cho thấy sự chuyển dịch trong cấu trúc lãnh đạo AI của công ty, nơi các chức năng mô hình AI không còn phụ thuộc hoàn toàn vào đối tác bên ngoài.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗