Microsoft tung ra 3 mô hình AI nội địa, "bắn thẳng" vào đối thủ OpenAI và Google

Sáng thứ Năm, Microsoft đã chính thức ra mắt ba mô hình AI nền tảng mới (MAI-Transcribe-1, MAI-Voice-1 và MAI-Image-2) thông qua Azure Foundry. Đây được xem là bằng chứng rõ ràng nhất cho thấy tập đoàn công nghệ khổng lồ này muốn tự chủ phát triển công nghệ thay vì chỉ là đối tác phân phối. Các mô hình này đạt đỉnh cao về khả năng chuyển đổi giọng nói, tạo giọng nói nhân tạo và tạo ảnh, đồng thời được thiết kế để cạnh tranh mạnh mẽ về giá cả và hiệu suất với các đối thủ lớn như OpenAI và Google.

Microsoft đã chính thức tung ra ba mô hình AI nền tảng mới được xây dựng hoàn toàn từ trong nhà — một hệ thống ghi âm chuyển đổi giọng nói, một động cơ tạo giọng nói và một trình tạo ảnh nâng cấp. Việc này đánh dấu bằng chứng rõ ràng nhất cho thấy tập đoàn công nghệ trị giá 3 nghìn tỷ USD này có ý định cạnh tranh trực tiếp với OpenAI và Google không chỉ ở khâu phân phối mà còn ở khâu phát triển công nghệ.

Trio mô hình bao gồm MAI-Transcribe-1, MAI-Voice-1 và MAI-Image-2 đã có sẵn ngay lập tức thông qua dịch vụ Microsoft Foundry. Chúng bao trùm ba phương thức quan trọng nhất trong kinh doanh AI hiện đại: chuyển đổi giọng nói thành văn bản, tạo ra giọng nói nhân tạo chân thực và tạo hình ảnh.

MAI-Transcribe-1: Mô hình ghi âm xuất sắc nhất thế giới

MAI-Transcribe-1 là sản phẩm chủ lực. Mô hình chuyển đổi giọng thành văn bản này đạt tỷ lệ lỗi từ thấp nhất trên bảng chuẩn FLEURS — tiêu chuẩn đánh giá đa ngôn ngữ — trên 25 ngôn ngữ được sử dụng nhiều nhất tại Microsoft. Trung bình chỉ có 3.8% lỗi.

Theo các số liệu của Microsoft, MAI-Transcribe-1 vượt qua Whisper của OpenAI ở tất cả 25 ngôn ngữ, Gemini 3.1 Flash của Google ở 22 trong số 25 ngôn ngữ và các sản phẩm khác của ElevenLabs và OpenAI ở 15 ngôn ngữ.

Mô hình này sử dụng bộ giải mã văn bản dựa trên kiến trúc Transformer và mã hóa âm thanh hai chiều. Nó hỗ trợ các tệp âm thanh MP3, WAV và FLAC với dung lượng tối đa 200MB. Microsoft cho biết tốc độ ghi âm theo lô của mô hình nhanh hơn 2.5 lần so với dịch vụ Azure Fast hiện có.

MAI-Voice-1 và MAI-Image-2: Tăng tốc và cắt giảm chi phí

Song hành với MAI-Transcribe-1, MAI-Voice-1 là mô hình tạo giọng nói từ văn bản. Nó có khả năng tạo ra 60 giây âm thanh tự nhiên chỉ trong 1 giây. Mô hình này giữ nguyên tính cách của người nói và hỗ trợ tạo giọng nói tùy chỉnh từ vài giây âm thanh ban đầu.

Đối với MAI-Image-2, đây là gia đình mô hình xếp hạng top 3 trên bảng xếp hạng Arena.ai và cho thấy tốc độ tạo ảnh ít nhất gấp đôi so với phiên bản tiền nhiệm. Microsoft đang triển khai rộng rãi MAI-Image-2 trên Bing và PowerPoint, với mức giá cực kỳ cạnh tranh ($5 cho 1 triệu token đầu vào).

Chiến lược "AI nhân văn" và cạnh tranh về giá

Mustafa Suleyman, người đứng đầu đội ngũ siêu thông minh của Microsoft, nhấn mạnh triết lý "AI nhân văn" — nơi con người vẫn là người điều khiển tối cao. Chiến lược này hướng tới các nhà mua doanh nghiệp cần sự tuân thủ và kiểm soát.

Điểm thú vị nhất là chiến lược định giá. Microsoft định giá các mô hình này để trở thành rẻ nhất trong số các siêu khối (hyperscalers) như Amazon và Google. Việc xây dựng các mô hình chạy trên nửa số GPU của đối thủ cho phép Microsoft giảm chi phí vận hành nội bộ trong khi vẫn cung cấp dịch vụ giá tốt cho nhà phát triển.

Tự chủ AI thông qua việc tái đàm phán hợp đồng

Để đạt được mục tiêu này, Microsoft đã phải thay đổi cách thức hợp tác với OpenAI. Sau đàm phán lại vào tháng 10 năm ngoái, Microsoft được phép tự phát triển các mô hình AI tiên tiến (AGI) mà không vi phạm hợp đồng cũ, đồng thời vẫn giữ quyền sử dụng công nghệ của OpenAI cho đến năm 2032.

Suleyman cho biết đội ngũ phát triển các mô hình này rất nhỏ, chỉ gồm khoảng 10 người cho mô hình âm thanh và dưới 10 người cho mô hình hình ảnh. Điều này phê phán quan điểm cho rằng phát triển AI tiên tiến đòi hỏi hàng nghìn nghiên cứu viên với chi phí khổng lồ.

Tương lai: Microsoft sẽ trở nên "hoàn toàn độc lập"

Suleyman cam kết Microsoft sẽ tung ra các mô hình ngôn ngữ lớn (LLM) để cạnh tranh trực tiếp với GPT. Mục tiêu của họ là cung cấp công nghệ thế hệ mới với chi phí thấp nhất và sự độc lập tuyệt đối.

Bằng cách chứng minh được khả năng xây dựng các mô hình chuyên biệt xuất sắc với đội ngũ nhỏ và chi phí thấp, Microsoft đang bước đi quyết liệt để đảm bảo rằng các khoản đầu tư hàng tỷ USD vào hạ tầng AI cuối cùng sẽ mang lại lợi nhuận thực tế cho thị trường.