Khi các mô hình AI giá rẻ lên ngôi: Liệu ngành công nghệ có thay đổi chiến lược?

Áp lực chi phí đang buộc các công ty công nghệ phải xem xét lại việc sử dụng các mô hình AI nhỏ hơn và rẻ hơn thay vì chạy theo các mô hình khổng lồ. Nếu chất lượng được đảm bảo, sự chuyển dịch này có thể làm thay đổi hoàn toàn nền kinh tế của ngành AI và ảnh hưởng lớn đến doanh thu của các 'ông lớn' như OpenAI hay Anthropic.

Cuộc cách mạng AI được xây dựng dựa trên một giả định cơ bản: Mô hình càng lớn thì càng mạnh, và mô hình mạnh nhất sẽ chiến thắng. Tuy nhiên, ngành công nghiệp này đang đứng trước bài học về việc điều gì sẽ xảy ra nếu giả định đó bắt đầu lung lay.

Chi phí ngày càng tăng đã gây áp lực buộc người dùng phải xem xét lại các mô hình nhỏ hơn và rẻ hơn. Việc mua sắm mô hình dựa trên tính toán chi phí này còn khá mới mẻ và chưa rõ tác động cụ thể của nó đối với ngành công nghiệp, nhưng chắc chắn ảnh hưởng sẽ rất lớn.

Dự đoán về sự chuyển dịch khối lượng công việc

Một dự đoán, được đưa ra rõ ràng nhất bởi đồng sáng lập Coinbase Brian Armstrong, là phần lớn các tác vụ sẽ chuyển sang các mô hình rẻ hơn.

"Nhu cầu về trí tuệ là vô hạn, nhưng 80% khối lượng công việc sẽ chạy trên các mô hình rẻ hơn 99% trong vòng 12-18 tháng tới," Armstrong viết trên X. "20% khối lượng công việc vẫn sẽ chạy trên các mô hình thế hệ mới nhất nơi việc tối đa hóa chỉ số IQ là quan trọng."

Rất khó để nói quá mức về sự thay đổi quan trọng này đối với ngành AI nếu dự đoán của Armstrong trở thành sự thật.

Thay đổi trong kinh tế học của AI

Cho đến nay, hầu hết các công ty AI cạnh tranh dựa trên chất lượng, điều đồng nghĩa với việc mặc định sử dụng mô hình tiên tiến nhất có sẵn. Nếu những công việc tương tự có thể được xử lý bởi các mô hình rẻ hơn mà không làm ảnh hưởng đến chất lượng, điều đó sẽ đánh dấu một sự thay đổi lớn về kinh tế của AI.

Và quan trọng hơn, phần lớn khoản tiết kiệm được sẽ lấy ra khỏi túi của các phòng lab lớn, gây ra một đòn tài chính đánh vào OpenAI và Anthropic ngay khi họ đang hướng tới các đợt IPO.

Đây là một sự thay đổi mang tính địa chấn trong ngành công nghiệp, dựa trên một câu hỏi cơ bản: Các công ty có sẵn sàng chuyển sang các mô hình nhỏ hơn không?

Chất lượng vẫn là ưu tiên hàng đầu

Các bài kiểm tra ban đầu cho thấy rằng, khi hệ thống được sắp xếp hợp lý, các mô hình rẻ hơn có thể thay thế mà không phải hy sinh chất lượng. Trong một bài kiểm tra gần đây của công cụ pháp lý AI Harvey, công ty đã giảm được chi phí suy luận (inference) xuống 3 lần mà không làm giảm chất lượng.

Bài kiểm tra, thực hiện cùng với nền tảng suy luận Fireworks AI, đã kết hợp Claude Opus và GLM 5.1 của Fireworks, và chuyển sang Opus cho các tác vụ phức tạp nhất. Kết quả là tải trọng máy chủ và tổng chi phí giảm đáng kể.

"Chất lượng là trên hết, và trong lĩnh vực pháp lý thì luôn luôn vậy," Gabe Pereyra, đồng sáng lập Harvey, chia sẻ với TechCrunch. "Tuy nhiên, định nghĩa về chất lượng đang thay đổi từ việc đơn thuần sử dụng mô hình mạnh nhất cho mọi thứ, sang việc sử dụng mô hình tốt nhất để đưa ra câu trả lời đúng một cách hiệu quả nhất."

Cuộc chiến giữa mô hình lớn và nhỏ

Xu hướng này thường được nhìn nhận dưới góc độ cuộc chiến giữa các phòng lab lớn với các mô hình Trung Quốc hoặc các mô hình mã nguồn mở (open-weight), nhưng điều đó bỏ qua điểm chính. Sự phân chia thực sự không phải giữa mô hình độc quyền và mã nguồn mở; mà là giữa mô hình lớn và mô hình nhỏ.

Bạn có thể tiết kiệm tiền bằng cách chuyển từ GPT-5.5 sang DeepSeek V4 Flash, nhưng việc chuyển sang GPT-5.4-mini cũng mang lại hiệu quả tương tự.

Hiện đang có cuộc chiến về giá cả khốc liệt giữa việc suy luận nội bộ của các phòng lab lớn và các mô hình mã nguồn mở được phục vụ độc lập. Đối với câu hỏi lớn hơn là mô hình nhỏ hay mô hình lớn, việc loại hình mô hình nhỏ nào chiến thắng thực sự không quá quan trọng.

Tương lai của việc mở rộng quy mô

Tất cả những điều này có vẻ hiển nhiên — đương nhiên bạn không nên sử dụng nhiều sức mạnh tính toán hơn mức cần thiết — nhưng nó đi ngược lại tư duy "tăng quy mô trước" (scaling-first) đã thống trị ngành công nghiệp cho đến nay. Được truyền cảm hứng bởi "bài học đắng cay", các phòng lab đã dồn sức vào việc đào tạo các mô hình tốn kém tính toán nhất có thể, mở rộng giới hạn của những gì AI có thể làm. Với giá cả được trợ cấp mạnh mẽ bởi các nhà đầu tư, khách hàng không có lý do gì để chọn lựa ngoài các tùy chọn tiên tiến nhất.

Khi giá token tăng và trợ cấp chậm lại, người dùng đang đối mặt với áp lực chi phí lần đầu tiên. Chúng ta chưa biết liệu áp lực chi phí mới này có thực sự thúc đẩy người dùng doanh nghiệp chuyển sang các mô hình nhỏ hơn hay không. Họ cũng có thể dễ dàng tiết kiệm bằng cách thực hiện ít lệnh gọi hơn, sử dụng ít ngữ cảnh hơn, hoặc đơn giản là từ bỏ các triển khai ít triển vọng nhất.

Nhưng nếu kết quả cho thấy hầu hết các triển khai có thể chạy tốt trên mô hình nhỏ hơn, điều đó có thể làm giảm nhu cầu đang tăng về suy luận — và đặt ra các câu hỏi mới về cách biện minh cho chi phí đào tạo một mô hình tiên tiến (frontier model).