Token rẻ hơn, chi phí cao hơn: Đối mặt với bài toán hạ tầng AI mới

Khi doanh nghiệp chuyển từ thử nghiệm AI sang triển khai thực tế, trọng tâm chi phí đã chuyển từ việc huấn luyện mô hình sang hạ tầng suy luận (inference). Mặc dù chi phí trên mỗi token giảm, nhưng sự gia tăng khổng lồ về lượng tiêu thụ khiến tổng chi phí tăng vọt. Do đó, hiệu quả hạ tầng và tối ưu hóa GPU trở thành yếu tố sống còn trong kinh tế AI hiện đại.

Khi các doanh nghiệp chuyển từ giai đoạn thử nghiệm sang triển khai AI trong môi trường sản xuất thực tế, động lực chi phí chính đã chuyển dịch mạnh mẽ. Trước đây, chi phí chủ yếu nằm ở việc huấn luyện các mô hình nền tảng (foundation models), nhưng nay nó đã chuyển sang hạ tầng cần thiết để vận hành hàng nghìn khối lượng công việc suy luận (inference) đồng thời với quy mô lớn. Sự trỗi dậy của AI tác nhân (Agentic AI) chính là chất xúc tác cho sự thay đổi này.

Trong khi các dự án AI doanh nghiệp thời kỳ đầu thường chỉ bao gồm một vài công việc huấn luyện lớn theo lịch trình cố định, thì môi trường AI tác nhân trong sản xuất đòi hỏi sự hỗ trợ liên tục cho các yêu cầu ngắn hạn, khó dự đoán. Những yêu cầu này tiêu thụ tài nguyên GPU, mạng và lưu trữ theo những cách mà hạ tầng truyền thống chưa từng được thiết kế để xử lý. Đối với các lãnh đạo công nghệ doanh nghiệp, sự thay đổi này đang biến hiệu quả của hạ tầng thành yếu tố quyết định sự sống còn trong kinh tế AI.

"Mỗi nhân viên có một trợ lý AI, mỗi quy trình tự động hóa, mỗi đường ống tác nhân đều cần các mô hình để suy luận và tạo ra rất nhiều token," ông Anindo Sengupta, Phó Chủ tịch Sản phẩm tại Nutanix, cho biết. "Những yêu cầu suy luận đó đổ bộ onto hạ tầng GPU, đi qua các mạng chuyên dụng và kéo dữ liệu từ các hệ thống lưu trữ được xây dựng đặc biệt để hỗ trợ các khối lượng công việc AI này."

Tại sao chi phí trên mỗi token trở thành chỉ số hạ tầng cốt lõi

Trong hai năm qua, chi phí suy luận trên mỗi token đã giảm khoảng một cấp độ (order of magnitude), được thúc đẩy bởi sự cải thiện hiệu quả mô hình và áp lực cạnh tranh giữa các nhà cung cấp đám mây. Logic thông thường sẽ cho rằng AI doanh nghiệp đang trở nên rẻ hơn. Thay vào đó, tổng chi phí lại đang tăng lên, ông Sengupta chỉ ra điều mà các nhà kinh tế học gọi là nghịch lý Jevons: khi một tài nguyên trở nên rẻ hơn để sử dụng, mức tiêu thụ có xu hướng tăng nhanh hơn mức giảm giá.

Vì vậy, trong khi chi phí trên mỗi token giảm gần 10 lần trong vài năm qua, lượng tiêu thụ đã tăng hơn 100 lần. Kết quả là chi phí trên mỗi token và mức sử dụng GPU đang trở thành các chỉ số vận hành chính cho CNTT doanh nghiệp, ngang hàng với các thước đo truyền thống như thời gian hoạt động (uptime) và thông lượng (throughput).

"Chi phí trên mỗi token thực sự liên quan đến tổng chi phí sở hữu khi phục vụ các mô hình suy luận," ông Sengupta nói. "Mức sử dụng là về việc đảm bảo rằng một khi bạn đã có tài sản GPU, bạn đang thu được lợi nhuận tối đa từ chúng. Các chỉ số này sẽ rất quan trọng đối với các lãnh đạo CNTT doanh nghiệp."

Điều làm cho vấn đề trở nên phức tạp là số lượng biến số liên quan. Chi phí token thay đổi tùy thuộc vào mô hình nào mà tổ chức chạy, nơi khối lượng công việc thực thi và cách cấu trúc các câu lệnh (prompts).

"Có quá nhiều biến số trong chi phí để quản lý một cách trực quan," ông Sengupta thêm. "Tối ưu hóa nó là một vấn đề kỹ thuật, và vấn đề đòi hỏi tinh chỉnh liên tục."

Khối lượng công việc tác nhân phơi bày giới hạn của hạ tầng truyền thống

AI tác nhân trong sản xuất giới thiệu một hồ sơ khối lượng công việc mà hạ tầng doanh nghiệp truyền thống không được thiết kế để xử lý. Các triển khai trung tâm dữ liệu cổ điển được xây dựng dựa trên khối lượng công việc có thể dự đoán và chu kỳ lập kế hoạch dài. Môi trường tác nhân tạo ra các yêu cầu suy luận ngắn, tần suất cao và khó dự đoán, đặt ra yêu cầu mới đối với mạng và lưu trữ, đồng thời thay đổi nhanh hơn so với hầu hết các chu kỳ mua sắm cho phép.

Hạ tầng hỗ trợ AI tác nhân cũng khác biệt về cấu trúc so với tính toán dựa trên CPU. Cấu trúc liên kết GPU, các kết nối tốc độ cao, hệ thống lưu trữ song song cho bộ nhớ tác nhân và bộ nhớ đệm KV, cùng các kiến trúc mạng có khả năng xử lý việc tải giảm DPU đều đại diện cho các khả năng mới đòi hỏi kỹ năng vận hành mới.

Hạ tầng hoạt động độc lập (siloed) làm trầm trọng thêm những thách thức này. Khi tài nguyên GPU, mạng và quyền truy cập dữ liệu được quản lý riêng lẻ, sự kém hiệu quả trong lập lịch tích tụ, mức sử dụng giảm và chi phí tăng lên. Các tổ chức vận hành các ngăn xếp phân mảnh thường sử dụng kém các tài sản GPU đắt đỏ trong khi đồng thời gặp nút thắt cổ chai về thông lượng lưu trữ và mạng.

Các ngăn xếp tích hợp và trường hợp cho kiến trúc toàn ngăn xếp

Phản ứng đang nổi lên giữa các nhà cung cấp hạ tầng là sự chuyển dịch sang các nền tảng toàn ngăn xếp (full-stack) được tích hợp chặt chẽ và xác thực, được thiết kế riêng cho các khối lượng công việc AI sản xuất. Tiền đề là tối ưu hóa đầu cuối trên các lớp tính toán, mạng, lưu trữ và phần mềm sẽ tạo ra mức sử dụng tốt hơn và chi phí trên mỗi token thấp hơn so với việc lắp ráp các thành phần tốt nhất (best-of-breed) từ các nhà cung cấp riêng biệt.

Giải pháp Agentic AI của Nutanix đại diện cho một cách tiếp cận vấn đề này. Được xây dựng trên trình ảo hóa Nutanix AHV, Nutanix Enterprise AI và Nutanix Kubernetes Platform, giải pháp được thiết kế để quản lý cả lớp tính toán truyền thống nơi điều phối tác nhân chạy và lớp tính toán tăng tốc nơi suy luận thực thi. Công ty đã giới thiệu các cải tiến nhận biết cấu trúc liên kết của NVIDIA cho AHV để tự động tối ưu hóa cách phân bổ GPU, CPU, bộ nhớ và DPU cho các máy ảo, đồng thời đã chuyển mạng ảo Nutanix Flow sang các DPU BlueField để giải phóng chu kỳ GPU và duy trì thông lượng mà không làm giảm tính bảo mật.

Giải pháp hỗ trợ triển khai tức thì các vi dịch vụ NVIDIA NIM và các mô hình mã nguồn mở bao gồm Nemotron, đồng thời tích hợp một cổng AI quản lý quyền truy cập vào các LLM đám mây tiên tiến từ Anthropic, Google, OpenAI và những công ty khác. Cổng này cũng triển khai giao thức ngữ cảnh mô hình (MCP) để cho phép các tác nhân kết nối với dữ liệu doanh nghiệp bằng các quyền kiểm soát truy cập chi tiết. Giải pháp chạy trên hạ tầng Cisco, cho phép các tổ chức triển khai trên hạ tầng mà họ đang vận hành.

"Bằng cách tích hợp mọi thứ từ trình ảo hóa AHV và Mạng ảo Flow lên đến nền tảng Kubernetes, bạn loại bỏ các silo làm chậm các dự án AI," ông Sengupta giải thích.

Nhóm nền tảng và sự linh hoạt của nhà phát triển không thể đánh đổi

Một căng thẳng tổ chức tăng lên cùng với việc áp dụng AI tác nhân là mối quan hệ giữa các nhóm nền tảng quản lý hạ tầng chia sẻ và các nhà phát triển xây dựng và chạy các ứng dụng tác nhân trên đó. Các nhóm này về mặt lịch sử đã hoạt động với các công cụ, ưu tiên và khung thời gian khác nhau, nhưng ông Sengupta lập luận rằng động lực cốt lõi chưa thay đổi ngay cả khi công nghệ đã thay đổi.

"Các nhóm nền tảng sẽ tiếp tục cung cấp danh mục các khả năng AI tự phục vụ cũng tuân thủ nhu cầu kinh doanh, mà họ có thể phục vụ cho những người xây dựng AI tác nhân," ông Sengupta nói. "Các nhóm AI trưởng thành sẽ làm rất tốt việc không chỉ ở mức sử dụng GPU, mà còn trong việc tạo ra một mô hình vận hành cho phép cung cấp hạ tầng AI nhanh chóng để đáp ứng tốc độ đổi mới mà các nhà phát triển muốn. Đó là điều rất quan trọng đối với sự thành công."

Các tổ chức đang quản lý mức sử dụng GPU hiệu quả nhất có xu hướng đi xa hơn trong hành trình áp dụng AI của họ, với các mô hình vận hành đã được thiết lập rõ ràng và trách nhiệm chi phí rõ ràng hơn. Đối với các tổ chức ở giai đoạn đầu của hành trình đó, các quyết định thiết kế hạ tầng và mô hình vận hành đang được đưa ra ngay bây giờ sẽ quyết định xem các dự án AI có thể chuyển từ thí điểm sang sản xuất mà không gặp phải chi phí hoặc sự phức tạp trở thành yếu tố hạn chế hay không.

Mô hình vận hành nhà máy AI

Khung hình mới nổi cho hạ tầng AI doanh nghiệp là "nhà máy AI" (AI factory), một môi trường được xây dựng riêng để sản xuất và chạy các khối lượng công việc AI ở quy mô lớn. Thách thức là hầu hết các tổ chức sẽ cần vận hành cả tính toán truyền thống và tính toán tăng tốc đồng thời trong nhiều năm, đòi hỏi một mô hình vận hành chung trải dài trên cả hai mô hình công nghệ mà không làm giảm sự linh hoạt.

Với Nutanix, chạy trên hạ tầng Cisco như một phần của Cisco AI Pods, được cung cấp bởi Intel và tối ưu hóa cho kiến trúc tham chiếu của NVIDIA, các tổ chức có được nền tảng toàn ngăn xếp sẵn sàng cho sản xuất bằng cách cho phép các nhà máy AI được chia sẻ an toàn và hiệu quả bởi hàng nghìn tác nhân, để đạt được chi phí thấp nhất trên mỗi token. Giải pháp này thu hẹp khoảng cách giữa các nhóm kỹ thuật hạ tầng và nền tảng quản lý phần cứng và các nhóm kỹ sư AI cùng các nhà phát triển AI tác nhân xây dựng và chạy các ứng dụng AI tác nhân, giúp việc chạy AI ở quy mô lớn thực sự khả dụng về mặt chi phí.

"Các chỉ số sẽ quyết định xem một tổ chức có thể duy trì và mở rộng khoản đầu tư AI của mình hay không — chi phí trên mỗi token, mức sử dụng GPU, hiệu quả lập lịch — là các chỉ số hạ tầng," ông Sengupta nói. "Quản lý chúng tốt ngày càng trở thành điều kiện tiên quyết để làm cho AI khả thi, không chỉ là chức năng."