Hóa đơn AI đến hạn: Cuộc chạy đua kiểm soát chi phí token "trên trời" trong ngành công nghệ
Các công ty công nghệ đang hoảng hốt khi ngân sách AI bị bùng nổ vượt mức kiểm soát, buộc họ phải chuyển từ chiến lược "tăng tốc bất chấp" sang tìm kiếm các công cụ quản lý chi phí. Sự ra đời của các tiêu chuẩn mới và thị trường giải pháp tối ưu hóa chi phí token đang trở thành xu hướng cấp thiết hiện nay.

Hóa đơn AI đến hạn: Cuộc chạy đua kiểm soát chi phí token "trên trời" trong ngành công nghệ
Trên toàn ngành công nghệ, các công ty bắt đầu "ngã ngửa" trước mức giá đắt đỏ của trí tuệ nhân tạo (AI). Uber đã tiêu hết toàn bộ ngân sách AI dành cho lập trình năm 2026 chỉ vào tháng 4. Microsoft đã thu hồi giấy phép Claude Code của các nhà phát triển chỉ vài tháng sau khi cấp phép. Một nhân viên của Priceline tiết lộ với TechCrunch rằng việc gia hạn hợp đồng thường xuyên với Cursor có mức giá cao gấp 4-5 lần so với trước.
Mặc dù giá trên mỗi token đã giảm, nhưng sự thúc đẩy áp dụng AI ngày càng rộng rãi cùng các tác nhân AI (AI agents) ngày càng tự động hóa đã khiến lượng tiêu thụ token tăng vọt. Những công ty đã "no đòn" với các gói đăng ký "ăn thả" (all-you-can-eat) vào đầu năm 2025 giờ đây đang cuống cuồng tìm hiểu tiền của mình đang đi đâu, cắt giảm chi tiêu và tìm cách cứu vãn một chút hiệu quả đầu tư (ROI) từ đống đổ nát của ngân sách.
Trong khi đó, một thị trường đang hình thành để giải quyết vấn đề này. Các startup, nhà cung cấp lâu năm và một tổ chức tiêu chuẩn mới đều đang chạy đua để cung cấp cho các công ty những công cụ và ngôn ngữ cần thiết theo dõi chi tiêu.
"Sáu tháng trước, tôi nói chuyện với khách hàng và họ chỉ hỏi 'Nó làm được gì? Có đủ tốt không?'" Alexander Embiricos, người phụ trách mảng doanh nghiệp của OpenAI, chia sẻ tại một sự kiện ở New York tuần này. "Bây giờ các cuộc thảo luận không còn như thế nữa. Giờ đây họ nói 'này, chúng ta đang tiêu quá nhiều. Chúng ta có khả năng hiển thị dữ liệu nào? Có khả năng kiểm toán nào không? Có biện pháp kiểm soát token nào không? Hiệu quả của các mô hình của bạn thế nào?'"
Trong bối cảnh đó, Linux Foundation tuần này đã công bố kế hoạch cho Tokenomics Foundation, một tổ chức tiêu chuẩn mới nhằm áp dụng kỷ luật chi phí cho AI token tương tự như những gì FinOps đã làm cho chi phí đám mây (cloud).
"Vào tháng 4 và 5, tôi bắt đầu nghe từ các công ty: 'Chúa ơi, chúng ta đã vượt 3 lần ngân sách token cho cả năm 2026 mà mới đến tháng 4,'" J.R. Storment, giám đốc điều hành của FinOps Foundation (một dự án dưới Linux Foundation), cho biết. "Chúng tôi bắt đầu nghe thấy những cuộc khủng hoảng mang tính tồn vong, và toàn bộ cuộc trò chuyện đã chuyển từ việc 'tối đa hóa token' và 'đi nhanh' sang 'chúng ta cần hàng rào chắn, làm sao để kiểm soát cái này?'"
Những tiếng kêu than vang vọng khắp thế giới công nghệ xuất hiện sau những yêu cầu quyết liệt từ các CEO thúc đẩy đội ngũ của họ sử dụng các mô hình tốt nhất và di chuyển nhanh chóng, bất chấp chi phí. Các mô hình mới ra mắt vào tháng 11 như Claude Opus 4.5 của Anthropic, GPT-5.1 của OpenAI và Gemini 3 Pro của Google đã mang lại những cải tiến đáng kể cho các công cụ tác nhân, điều này đã làm tăng gấp bội lượng tiêu thụ. Đó là lý do một công ty được cho đã nhận hóa đơn 500 triệu USD từ Claude sau khi quên đặt giới hạn sử dụng cho nhân viên.
"Nó giống như đại dịch ma túy đá," Chris Reed, giám đốc tài chính IT cấp cao của Priceline, nhận xét, noting rằng công ty đã bắt đầu đặt giới hạn token cho một số nhóm. "Họ để bạn thử để khiến bạn nghiện nó, và bây giờ bạn lại phụ thuộc vào nó."
Vitaly Gordon, CEO của nền tảng vận hành kỹ thuật Faros AI, cho biết ông gần đây đã nói chuyện với một CTO người nói với ông: "Một trong các kỹ sư của tôi đã tiêu 40.000 USD cho token vào tháng trước, và tôi thực sự không biết nên ngăn anh ta lại hay nên đi bảo mọi người khác làm như anh ta."
Một cuộc khảo sát vào tháng 3 của Faros cho thấy trong số 20.000 nhà phát triển, năng suất đầu ra đang tăng, nhưng số lượng lỗi và việc viết lại mã cũng tăng theo. Jellyfish, một nền tảng quản lý kỹ thuật, cũng phát hiện ra rằng các kỹ sư sử dụng nhiều token nhất có năng suất cao gấp khoảng hai lần so với những người ít sử dụng AI, nhưng họ phải tốn gấp 10 lần số token để đạt được điều đó.
Nicholas Arcolano, trưởng bộ phận nghiên cứu của Jellyfish, cho biết qua email rằng chi tiêu cho AI đang bùng nổ chủ yếu do các tính năng tác nhân, với mức tiêu thụ trên mỗi nhà phát triển tăng khoảng 18,6 lần trong chín tháng. Tất cả những số liệu này làm cho trường hợp về năng suất trở nên mờ mịt hơn so với những gì con số chi tiêu gợi ý.
"Việc chi tiêu cực độ có mang lại kết quả hay không phụ thuộc vào giá trị kinh doanh cuối cùng của mã được xuất (ví dụ: doanh thu), điều mà hầu hết các công ty vẫn chưa thể đo lường," Arcolano nói.
Ít nhất một phần của vấn đề đo lường này là do quy mô khổng lồ mà AI đang được sử dụng hiện nay.
"Theo dõi chi phí đám mây là một vấn đề dữ liệu hàng trăm triệu hàng mỗi tháng," Storment nói. "Theo dõi chi phí token là một vấn đề dữ liệu hàng nghìn tỷ hàng mỗi tháng. Bạn không thể chỉ nhét nó vào bất kỳ bảng tính nào hay thậm chí là công cụ cơ bản. Bạn phải suy nghĩ lại về công cụ, thông số kỹ thuật và hệ thống kế toán của mình để làm được điều đó."
Tại Priceline, Reed đang thấy những sự khác biệt. Ông lưu ý các vấn đề giữa mức sử dụng được báo cáo bởi nhà cung cấp và dữ liệu nội bộ của Priceline.
"Tôi bắt đầu sự nghiệp của mình trong quản lý chi phí viễn thông, và tôi thấy tất cả những điểm tương tự, từ viễn thông đến đám mây và giờ là AI," ông nói. "Bất cứ khi nào bạn giới thiệu cái gì đó mới, nó đều dễ xảy ra lỗi thanh toán và cơ hội kiểm toán cũng như tối ưu hóa."
Một thị trường đang bắt đầu hình thành xung quanh vấn đề này. Có những công ty chuyên biệt như Pay-i, theo dõi, đo lường và tối ưu hóa chi phí cũng như hiệu suất của các khoản đầu tư GenAI. Paid, trong khi đó, cho phép các nhà phát triển theo dõi chi phí, đo lường mức sử dụng và tính phí người dùng dựa trên giá trị thực tế thay vì phí đăng ký.
Sau đó là những công ty như Jellyfish, Waydev và Faros AI, tất cả đều cung cấp giám sát tác nhân AI để chứng minh ROI của các công cụ dành cho nhà phát triển. Storment nói rằng hầu hết trong số 180 nhà cung cấp trong FinOps Foundation đều đang hướng tới không gian này.
Các công ty có sẵn kênh phân phối cũng đang thêm các tính năng mới để tận dụng thị trường mới này. Ramp gần đây đã bước vào quản lý chi tiêu AI; Datadog và New Relic đã thêm các dịch vụ như quản lý chi phí đám mây, khả năng quan sát cấp độ token và giám sát GPU. Tại hội nghị FinOps X vào tuần tới, AWS dự kiến sẽ giới thiệu các tính năng quản lý tài chính mới hướng tới chi tiêu AI của doanh nghiệp.
Tiffany Luck, một đối tác tại NEA, nghĩ rằng hiệu quả và khả năng quan sát token có thể sẽ được thêm vào ở "lớp điều khiển hoặc ứng dụng". Bà chỉ đến Factory, một startup tạo ra các tác nhân AI cho doanh nghiệp, tuần này đã ra mắt một bộ định tuyến mô hình tự động chọn mô hình phù hợp cho mọi nhiệm vụ.
Gordon dự kiến các phòng thí nghiệm tiên phong (frontier labs) và các nhà cung cấp mô hình khác sẽ áp dụng tối ưu hóa kiểu OpenRouter để thúc đẩy các truy vấn đến các mô hình rẻ nhất — một xu hướng đã xuất hiện trên các hóa đơn Claude của doanh nghiệp.
"Báo cáo tài chính về số tiền bạn chi cho Anthropic, ngay cả khi bạn gọi mô hình Opus, một phần chi tiêu sẽ dành cho Sonnet hoặc Haiku, vì chúng đủ thông minh để làm việc đó," Gordon nói. "Tôi nghĩ điều này sẽ ngày càng trở nên phổ biến hơn."
Nhưng tất cả các công cụ này đang được xây dựng mà không có một ngôn ngữ chung hay định nghĩa chia sẻ về việc một token tốn bao nhiêu tiền, nó tạo ra cái gì và cách so sánh chi tiêu giữa các nhà cung cấp. Đó là nơi Tokenomics Foundation hy vọng sẽ chứng minh sự hữu ích của mình.
Quỹ này đang xây dựng định nghĩa và khung chuẩn mực cho "tokenomics"; các tiêu chuẩn mở, thông số kỹ thuật và số liệu cho việc sử dụng và thanh toán token AI; cũng như các số liệu mới cho kinh tế AI, như chi phí trên mỗi đơn vị thông minh hoặc token trên mỗi watt. Nó cũng có kế hoạch định nghĩa các số liệu trên hiệu quả nhà máy token và hiệu quả tiêu thụ. Nhóm này đang lên kế hoạch ra mắt chính thức vào tháng 7 và sắp công bố thêm các thành viên tại hội nghị FinOps X vào tuần tới.
"Kinh tế token về cơ bản trừu tượng và mờ ám hơn bất cứ thứ gì chúng ta đã quản lý ở quy mô này trước đây," Nishant Gupta, giám đốc sẵn sàng của Salesforce, nói trong một tuyên bố. "Nó đòi hỏi một cơ chế vận hành khác với cơ chế mà ngành công nghiệp đã xây dựng cho đám mây."
Tuy nhiên, Goldman Sachs dự báo việc sử dụng token toàn cầu sẽ tăng gấp 24 lần vào năm 2030. Các công ty đã vượt ngân sách cần giải pháp ngay lập tức, và sản phẩm đầu tiên của quỹ vẫn còn vài tháng nữa mới hoàn thiện.
"Có lẽ chúng ta đã tạo ra một động cơ hơi nước, nhưng chúng ta vẫn chưa tìm ra dây chuyền lắp ráp," Gordon nói.
Theo Arcolano, nước đi khôn ngoan nhất là việc áp dụng vừa phải, rộng rãi.
"ROI tốt nhất đến từ việc chuyển nhóm trung bình từ mức sử dụng thấp sang mức vừa phải, chứ không phải thúc đẩy những người dùng nặng ký sử dụng nhiều hơn," ông nói.
