Sự phân hóa giữa AI doanh nghiệp và AI tiên tiến làm nổi bật các mô hình "open weights"

Đa số khách hàng doanh nghiệp không cần những mô hình AI khổng lồ và đắt đỏ nhất, họ chỉ cần giải pháp hoạt động tốt, chi phí thấp và đảm bảo an toàn dữ liệu. Làn sóng mới các mô hình open weights từ Google, Microsoft, Alibaba và Nvidia đã trưởng thành, không còn là đồ chơi mà trở thành nền tảng thực sự cho doanh nghiệp.

Mùa xuân đã đến và điều đó đồng nghĩa với việc một làn sóng mô hình AI có trọng số mở (open weights) mới lại xuất hiện từ các gã khổng lồ như Google, Microsoft, Alibaba và Nvidia. Tuy nhiên, lần này cảm giác có chút khác biệt.

Trong quá khứ, những mô hình này thường mang cảm giác như những món đồ chơi: chúng là các dự án nghiên cứu và bằng chứng về mặt khái niệm. Mặc dù ấn tượng về quy mô hoặc sự đổi mới, chúng vẫn tụt hậu xa so với các mô hình hàng đầu từ OpenAI, Anthropic hay Google.

Nhưng Qwen 3.5, Gemma 4 của Google và các mô hình hình ảnh/ngôn ngữ MAI của Microsoft lại khác biệt. Những mô hình này bây giờ ít mang tính chất bằng chứng khái niệm và nhiều hơn là những sản phẩm dành cho doanh nghiệp thực thụ.

"Chúng ta đã chuyển từ những thứ thú vị sang các nền tảng doanh nghiệp nghiêm túc," Andrew Buss, giám đốc nghiên cứu cấp cao tại IDC, chia sẻ với El Reg.

Khoảng trống giữa doanh nghiệp và AI tiên tiến

Những mô hình mới này làm nổi bật một thực tế phũ phàng: khoảng cách giữa AI doanh nghiệp và AI tiên tiến (frontier AI) đã gia tăng đáng kể trong vài năm qua, và những mô hình mạnh mẽ hơn nằm ngoài khả năng tiếp cận của nhiều doanh nghiệp.

"Tôi nghĩ chúng ta đang thấy sự phân chia," Buss nói. "Chúng ta có những mô hình lớn, toàn diện cố gắng làm mọi thứ cho mọi người. Nhưng sau đó, chúng ta cũng thấy sự trỗi dậy của các mô hình nhỏ hơn, chuyên biệt hơn được điều chỉnh cho các kết quả hoặc loại truy vấn cụ thể."

Việc tiếp cận các mô hình hàng đầu của OpenAI hoặc Anthropic đòi hỏi phải exposing (tiếp xúc) dữ liệu khách hàng nhạy cảm hoặc tài sản trí tuệ thông qua API hoặc chatbot. Cả hai công ty đều khẳng định họ không sử dụng dữ liệu doanh nghiệp hoặc API để đào tạo mô hình, nhưng đây lại là những công ty nhiều lần bị lôi kéo ra tòa vì vi phạm bản quyền.

Doanh nghiệp có thể sẵn sàng sử dụng Gemini hoặc Copilot để soạn thảo email hoặc đề xuất bán hàng, nhưng việc cấp quyền truy cập vào dữ liệu độc quyền là điều không thể.

Chi phí hạ tầng là rào cản lớn

Các giải pháp thay thế không hề tuyệt vời. Có một số mô hình lớn từ Trung Quốc như DeepSeek, Alibaba, Moonshot AI và MiniMax có thể giúp bạn tiệm cận với OpenAI hoặc Anthropic. Tuy nhiên, nhiều mô hình này vẫn đòi hỏi đầu tư hạ tầng lớn. Ngay cả các hệ thống tập trung vào doanh nghiệp của Nvidia và AMD cũng sẽ khiến bạn tiêu tốn từ 250.000 đến 500.000 USD mỗi chiếc.

Tuy nhiên, tùy thuộc vào trường hợp sử dụng, doanh nghiệp không nhất thiết cần một mô hình cấp độ tiên tiến. Điều quan trọng là liệu mô hình đó có đủ tốt để mang lại kết quả mong muốn hay không, ông Buss nhận định.

Xét về quy mô, các mô hình mở mới nhất từ Google, Alibaba, Microsoft và Nvidia không chỉ cạnh tranh đáng kể mà còn tương đối rẻ để vận hành.

Trên bảng xếp hạng văn bản của Arena AI, nơi công cộng bình chọn xem mô hình nào tạo ra kết quả tốt nhất, Gemma 4 31B (31 tỷ tham số) của hiện đang là mô hình mở xếp hạng cao thứ tư, ngay sau GLM-5 của Z.AI và Kimi 2.5 Thinking của Moonshot AI – những mô hình có tới 744 tỷ và 1 nghìn tỷ tham số, lớn hơn nhiều bậc độ lớn.

Hiệu suất trên phần cúc giá rẻ

"Có nhu cầu và mong muốn về AI ở các công ty mọi kích cỡ, và chúng tôi nghĩ có rất nhiều sự phù hợp cho các công ty ở thị trường tầm trung," Buss nói. "Để làm được điều đó, chúng ta cần một dải đa dạng cả phần cứng hạ tầng lẫn các loại mô hình có thể chạy trên chúng."

Mô hình 31B mới của Google có thể dễ dàng chạy ở độ chính xác 16-bit đầy đủ trên một card đồ họa duy nhất RTX Pro 6000 Blackwell, vẫn còn nhiều dư chỗ để hỗ trợ số lượng yêu cầu đồng thời hợp lý và tính tương tác.

Đó là một loại card thường có giá bán lẻ từ 8.000 đến 10.000 USD. Câu chuyện tương tự cũng xảy ra với Qwen 3.5, nơi tất cả trừ hai mô hình lớn nhất đều vừa vặn trên một GPU duy nhất.

Trong nhiều trường hợp, các mô hình nhỏ hơn tập trung vào doanh nghiệp thậm chí có thể không cần nhiều sức mạnh tính toán đó, Buss lưu ý. "Chúng ta thường không cần things như tăng tốc GPU. Ngay cả nhiều khối lượng công việc AI này, lý tưởng nhất có thể được tải lên và chạy trên máy chủ dựa trên CPU khá hiện đại," ông nói.

Những mô hình nhỏ hơn, tập trung hơn này có nghĩa là chúng không cần nhiều, nếu có, tài nguyên bổ sung để tùy chỉnh bằng các kỹ thuật như tinh chỉnh QLoRA hoặc học tập tăng cường.

Điều gì đã thay đổi?

Vậy điều gì đã thay đổi để khiến các mô hình này trở nên khả năng hơn nhiều? Thực ra là khá nhiều.

Năm qua đã chứng kiến sự bùng nổ của các tiến bộ không chỉ trong việc đào tạo mô hình mà còn ở các khung làm việc cần thiết để khai thác chúng.

Bạn có thể nhớ lại sự phấn khích của thị trường xung quanh DeepSeek R1, một trong những mô hình open weights tiên tiến đầu tiên sử dụng học tập tăng cường (RL) để sao chép khả năng lý luận theo chuỗi suy nghĩ (chain-of-thought) của GPT-o1, đánh đổi thời gian để lấy kết quả chất lượng cao hơn.

Cách tiếp cận này, bây giờ được gọi là tính toán mở rộng thời gian chạy (test-time scaling), đã giúp các mô hình nhỏ hơn bù đắp cho số lượng tham số thấp hơn bằng cách "suy nghĩ" lâu hơn.

Năm qua cũng chứng kiến nhiều mô hình thêm hỗ trợ cho xử lý thị giác và âm thanh, cho phép chúng phân tích dữ liệu hình ảnh, trong khi các kiến trúc thông minh hơn và các kỹ thuật nén tốt hơn đã giảm thêm các tài nguyên tính toán và bộ nhớ cần thiết để chạy chúng.

Nhưng có lẽ thay đổi lớn nhất là phần mềm được sử dụng để khai thác các mô hình này để thực hiện công việc thực tế đã trưởng thành đáng kể.

Những khung làm việc này có nghĩa là các mô hình không bị giới hạn ở dữ liệu đào tạo; chúng có thể truy xuất thông tin từ web, cơ sở dữ liệu và API, và thực hiện hành động dựa trên kết quả thông qua các lệnh gọi công cụ (tool calls).

Các mô hình của Google và Nvidia đã được đào tạo cụ thể với tính năng gọi hàm (function calling) trong tâm trí. Nói cách khác, chúng không thực sự được định nghĩa là các mô hình độc lập. Một số mô hình, như MAI của Microsoft, đưa điều này lên cấp độ cao hơn bằng cách tối ưu hóa cho các lĩnh vực cụ thể như nhận dạng giọng nói và tạo ảnh.

Thử thách sau đó trở thành cách chọn đúng mô hình cho công việc, Buss lưu ý, gợi ý rằng một số loại hệ thống khuyến nghị sẽ có thể cần thiết.

Chiến lược hệ sinh thái của các nhà phát triển

Khả năng chạy các tác nhân cục bộ có quyền truy cập vào dữ liệu độc quyền mang lại lợi ích cụ thể. Thứ nhất, trong khi các mô hình này là mở, vẫn có một mức độ khóa chặt. Bất kỳ tác nhân nào được xây dựng với các mô hình này sẽ có các lời nhắc hệ thống và công cụ đã được tinh chỉnh cho kiến trúc cụ thể đó.

Đó là về việc tiếp cận các thị trường mà các mô hình lớn hơn không thể, Buss giải thích.

"Nếu bạn có mọi người phát triển sử dụng công nghệ, cách tiếp cận và IP của bạn, họ có khả năng sẽ chuyển lên và giữ lại trong hệ sinh thái của bạn," ông nói. "Vấn đề cơ bản là có một sản phẩm tại điểm nhập... Nếu bạn bắt được họ từ khi còn nhỏ, khi họ lớn lên, họ sẽ có xu hướng ở lại với bạn theo thời gian."

Ngoài việc chơi hệ sinh thái, các mô hình cục bộ này có thể giúp giảm tiêu thụ điện năng trung tâm dữ liệu. Ý tưởng này không khác gì GPT-5 của OpenAI, vốn không phải là một mô hình mà là nhiều mô hình mà giữa đó các lời nhắc được định tuyến động dựa không chỉ trên độ phức tạp mà còn trên các chính sách khác nhau.

Cùng logic đó có thể được áp dụng theo phương thức phân tán, trong đó một mô hình định tuyến chạy cục bộ có thể hướng các lời nhắc yêu cầu truy cập dữ liệu độc quyền đến một LLM cục bộ, trong khi các yêu cầu nhạy cảm ít hơn có thể được chuyển sang nhà cung cấp API.

"Tôi nghĩ có một quang phổ giải pháp có sẵn, mọi thứ từ riêng tư hoàn toàn tại chỗ (on-prem) đến loại chuyên dụng tại điểm sử dụng trong trung tâm dữ liệu đặt chỗ chung, chuyên dụng trong đám mây công cộng, đến môi trường chia sẻ để tiết kiệm chi phí nếu khối lượng công việc hoặc lời nhắc của bạn không nhạy cảm," Buss kết luận.