Kỷ nguyên trợ giá AI đang kết thúc: Tại sao mô hình định giá hiện tại sụp đổ?
Các ông lớn công nghệ đang phải đối mặt với thực tế phũ phàng về chi phí AI khi giá GPU và bộ nhớ tăng cao, trong khi nhu cầu sử dụng bùng nổ vượt dự kiến. Mô hình định giá cố định (flat-rate) đang trở nên lỗi thời, buộc các doanh nghiệp phải chuyển sang tính phí linh hoạt dựa trên mức sử dụng thực tế để bảo vệ biên lợi nhuận.

Mô hình định giá AI hiện tại chắc chắn sẽ biến mất. Nó đơn giản là không còn hợp lý về mặt kinh tế. Tuần này, Microsoft đã hủy các giấy phép nội bộ cho Claude Code, Uber đã tiêu hết toàn bộ ngân sách AI năm 2026 chỉ trong bốn tháng, và GitHub đang loại bỏ các gói định giá cố định (flat-rate) trên các sản phẩm của mình.
Nhiều người gọi đây là "kỷ nguyên trợ giá AI đang kết thúc". Đây là một cách nói lịch sự cho việc các công ty đã thêm tính năng AI vào mọi tầng sản phẩm với một cược cược rằng chi phí suy luận (inference) sẽ tiếp tục giảm. Nhưng nó đã không giảm, và đường cong chi phí đang đi theo hướng ngược lại. Các phòng thí nghiệm AI không còn lựa chọn nào khác ngoài việc chuyển gánh nặng đó cho người dùng.
Chi phí và hạ tầng AI
Chúng ta có lẽ đã quên đi tư duy bậc hai (second-order thinking). Mỗi thế hệ mô hình mới, chi phí trên mỗi token lý thuyết là giảm, đôi khi giảm 10 lần, nhưng đó là với chất lượng tương đương. Nhiều người đã ngoại suy và xây dựng mô hình kinh doanh dựa trên sự ngoại suy đó, nhưng đây không phải là cách suy nghĩ đúng đắn.
Bất kỳ ai làm về quy hoạch giao thông đều biết về "cầu được tạo ra" (induced demand). Mỗi khả năng mới sẽ tạo ra nhu cầu mới. AI cũng có hình dạng tương tự. Suy luận rẻ hơn không làm giảm hóa đơn, nó mở rộng những gì mọi người yêu cầu mô hình làm. Các truy vấn lý luận của tôi hiện nay mất hơn 4 phút, trong khi các truy vấn cũ chỉ mất 2 phút. Các quy trình làm việc của tác nhân AI (agentic workflows) thực hiện 50 cuộc gọi trong khi quy trình cũ chỉ thực hiện một. Chi phí đơn vị giảm, số lượng đơn vị bùng nổ, nhưng tổng chi tiêu vẫn tăng lên.
Bất kỳ ai bán một "trợ lý AI" với giá cố định đều đã giả định rằng hành vi của người dùng sẽ không thay đổi. Nhưng nó đã thay đổi. Và nó luôn thay đổi.
Áp lực từ phần cứng
Yếu tố thứ hai là phía cung cấp đã ngừng hợp tác – kinh tế học bộ nhớ và GPU đang đi ngược lại bạn. Giá bộ nhớ tăng gấp 4 lần. GPU đắt hơn 95%.
Việc đào tạo và suy luận tiên phong chạy trên các bộ tăng tốc Nvidia kết hợp với bộ nhớ băng thông cao (HBM). Trần giới hạn không còn là transistor nữa, mà là HBM và đóng gói tiên tiến kết nối nó với đế tính toán. Morgan Stanley ước định chi phí vật liệu (BOM) trên các dòng NVIDIA VR200 mới sẽ cao hơn 95% – riêng bộ nhớ đã chiếm mức tăng trưởng 435%.
Biến động chi phí phần cứng
Giá GPU hiện tại trông giống như định giá khan hiếm. Các bộ tăng tốc cao cấp hiện nay đắt hơn gấp đôi so với thế hệ trước ở quy mô cụm tương đương. Giá HBM đã tăng gấp 4 trong 18 tháng. Điện và làm mát hiện là những ràng buộc thực tế ở những nơi mà trước đây không ai mô hình hóa điện năng, đó là lý do mọi siêu quy mô (hyperscaler) đều có câu chuyện "chúng tôi đang xây dựng khuôn viên trường gigawatt" và thông cáo báo cáo về thỏa thuận mua điện hạt nhân.
CFO của Anthropic đã tuyên thệ vào tháng Ba rằng công ty đã chi 10 tỷ USD cho tính toán và chỉ mang về 5 tỷ USD doanh thu. Các phòng thí nghiệm đang chìm trong chi phí suy luận. Họ đang tăng giá để giữ cho đèn vẫn sáng.
Các công ty đã bán sản phẩm "AI mọi lúc mọi nơi" với giá cố định giờ đang ngồi trên một vấn đề biên lợi nhuận do chính họ kiến tạo nên. Cược cược là một trong những đường cong này sẽ nghiêng về phía họ. Không đường cong nào làm như vậy, và có lẽ không đường cong nào sẽ làm vậy, chắc chắn không phải trong khung thời gian mà định giá của họ đã giả định.
Sự thay đổi từ đây
Câu hỏi về sản phẩm sẽ thay đổi. Nó không còn là "chúng ta có thể thêm AI vào đâu?" mà trở thành "trường hợp sử dụng nào mang lại doanh thu tương xứng với chi phí suy luận mà nó tiêu thụ?". Đó là một lộ trình khó viết hơn. Nó cũng thay đổi bề mặt định giá, phần mà hầu hết các nhóm sản phẩm chưa thực sự hiểu rõ.
Có ba kiến trúc để xử lý chi phí biến động. Không kiến trúc nào mới cả. Tất cả đều gây khó chịu cho các đội ngũ bán hàng đã lớn lên với việc bán ghế (seats).
Theo hành động (Per-action)
Mọi cuộc gọi API, mọi lần tạo, mọi bước tác nhân đều có giá. Doanh thu tăng cùng chi phí vì chúng được lập chỉ mục cho cùng một sự kiện cơ bản. Twilio đã chạy theo cách này từ năm 2008. AWS đã chạy một phiên bản của nó từ năm 2006. Nhược điểm là sự minh bạch cắt hai ngả. Khách hàng thấy đồng hồ đo và họ mặc cả. Ưu điểm là biên lợi nhuận gộp của bạn không phụ thuộc vào việc đoán người dùng năng cao sẽ "đánh" hệ thống mạnh đến mức nào.
Tín dụng (Credits)
Các gói trả trước. Khách hàng mua 100.000 tín dụng, sử dụng chúng cho bất kỳ thứ gì và nạp thêm. Tín dụng làm dòng tiền trơn tru và cho phép trộn chi phí mô hình đằng sau một đơn vị duy nhất, đây là cách duy nhất hợp lý để xử lý một sản phẩm định tuyến giữa năm nhà cung cấp suy luận khác nhau. Bẫy ở đây là sự đứt gãy (breakage). Tín dụng Snowflake là hạ tầng, khách hàng hiểu họ đang mua gì. Tín dụng thẻ quà tặng là tài sản bị mắc kẹt, và khách hàng có thể biết họ đang mua loại nào. Bạn chỉ được làm loại thứ hai một lần.
Kết hợp (Hybrid)
Ghế cơ bản bao gồm tín dụng và tính phí vượt mức theo đồng hồ đo. Hầu hết các động thái bán hàng doanh nghiệp chấp nhận điều này mà không do dự, vì số lượng ghế vẫn neo giữ hợp đồng và đồng hồ đo là van an toàn. Đây là thiết kế mà hầu hết các sản phẩm gốc AI sẽ hội tụ trong chu kỳ định giá lại đầu tiên của họ. Không phải lựa chọn yêu thích của tôi, nhưng dù sao đi nữa, nó có xu hướng hoạt động.
Hình dạng không phải là điểm chính, mà là việc đường doanh thu có di chuyển khi đường chi phí di chuyển hay không. Định giá theo người dùng (per-seat) là kiến trúc duy nhất giả định chi phí là cố định. Mọi thứ khác đều là một biến thể của việc lập chỉ mục doanh thu cho sự kiện cơ bản.
Lựa chọn bất khả thi
Nếu định giá của bạn có thể di chuyển cùng chi phí, bạn có thể tiếp tục xây dựng. Bạn có thể tung ra quy trình làm việc của tác nhân, mô hình lý luận nặng hơn, tính năng chậm và đắt tiền cho người dùng năng cao, và bạn có cách để được trả tiền cho chúng.
Nếu bạn bị khóa vào định giá theo người dùng (hoặc cố định, hoặc bất cứ thứ gì) – bạn sẽ phải chọn giữa hai lựa chọn thua cuộc. Nuốt biên lợi nhuận và xem nó nén lại mỗi quý khi việc sử dụng của khách hàng tăng lên. Hoặc tách AI khỏi các tầng rẻ hơn và xem tỷ lệ kích hoạt giảm sút khỏi các nhóm giá thấp hơn từng là phễu của bạn.
Cả hai lựa chọn đều hiện diện trên slide thuyết trình tiếp theo. Không lựa chọn nào trông thú vị cả.
Bài viết liên quan

Công nghệ
Tôi chuyên đánh giá robot hút bụi, hãy đặt bất kỳ câu hỏi nào cho tôi!
21 tháng 5, 2026

Công nghệ
Cảnh sát bắt giữ nghi can được cho là "ông trùm" của trang web buôn bán ma túy Dream Market
14 tháng 5, 2026

Công nghệ
Thử nghiệm tính năng Avatar AI của Google Gemini: Bản sao số của tôi thật đáng sợ nhưng chân thực
21 tháng 5, 2026
