Datadog bổ sung tính năng giám sát GPU để tối ưu hóa chi phí AI

Datadog vừa tích hợp khả năng giám sát GPU vào nền tảng của mình, giúp các doanh nghiệp có cái nhìn sâu sắc hơn về hiệu suất phần cứng đắt đỏ trong bối cảnh chi phí AI ngày càng tăng cao. Tính năng mới này cho phép liên kết chi phí và hiệu suất trực tiếp với các đội ngũ phát triển, từ đó giảm lãng phí và cải thiện quy trình xử lý sự cố.

Datadog đã bổ sung tính năng giám sát GPU vào bộ công cụ quan sát (observability) của mình, mang lại cho các tổ chức đang khao khát AI cái nhìn sâu sắc hơn về những gì đang diễn ra trên phần cứng đắt đỏ nhất của họ.

Nhà cung cấp dịch vụ giám sát này cho biết các phiên bản GPU hiện chiếm 14% chi phí tính toán đám mây khi các công ty đổ xô tham gia vào làn sóng AI, và dự kiến chi tiêu cho GPU sẽ chiếm tỷ trọng even lớn hơn trong chi phí tính toán đám mây trong tương lai.

Vào đầu tháng này, IDC nhận định: "Chi tiêu toàn cầu cho cơ sở hạ tầng trí tuệ nhân tạo (AI) đạt 89,9 tỷ USD trong quý 4 năm 2025", tăng 62% so với cùng kỳ năm trước. Và tính toán tăng tốc – chủ yếu là GPU – được coi là "xương sống cấu trúc" của xu hướng này.

Tuy nhiên, vẫn còn nhiều tranh luận về giá trị thực tế – nếu có – mà các công ty thu được từ những khoản đầu tư khổng lồ vào AI.

Datadog không tham gia vào cuộc tranh luận gay gắt đó. Nhưng theo Yanbing Li, Giám đốc Sản phẩm của công ty: "Trong khi các công ty này thấy chi phí của mình tăng lên, họ không thể phân bổ chi phí GPU giữa các đơn vị kinh doanh, không nhìn thấy ngữ cảnh khối lượng công việc hay xác định các bước tiếp theo rõ ràng để cải thiện."

Để giải quyết vấn đề đó, Datadog khẳng định công cụ mới nhất của họ cung cấp khả năng hiển thị thống nhất trên toàn bộ stack AI, "trao cho khách hàng một chế độ xem duy nhất liên kết trực tiếp sức khỏe, chi phí và hiệu suất của đội GPU với các đội ngũ đang phụ thuộc vào chúng để khắc phục sự cố chậm chạp hơn và tiết kiệm chi phí."

Một bài giải thích chi tiết hơn cho biết công cụ này hoạt động trên cả các phiên bản đám mây (cloud), neocloud cũng như hệ thống GPU tại chỗ (on-prem) – điều rất hữu ích nếu các lo ngại về chủ quyền khiến bạn e ngại việc sử dụng AI trên đám mây.

"Có rất dễ dàng để xem bao nhiêu phần trăm hệ thống của bạn đang nằm hoàn toàn không hoạt động hoặc bị tiêu thụ không hiệu quả bởi một khối lượng công việc hoàn toàn không cần GPU", công ty cho biết. "Bạn có thể đi sâu vào Fleet Explorer để yêu cầu từng đội ngũ chịu trách nhiệm về việc sử dụng và chi tiêu GPU của họ."

Ngoài việc xác định các quy trình bị đình trệ hoặc các quy trình zombie đang ngốn thời gian GPU, công cụ này sẽ phát hiện ra các khối lượng công việc không được cấu hình cho GPU ngay từ đầu, thực chất là đang đốt tiền.

"Nội bộ tại Datadog, tính năng Giám sát GPU đã giúp chúng tôi tiết kiệm hàng chục nghìn đô la chi phí hàng tháng bằng cách xác định và loại bỏ một serving pod đã bị kẹt trong giai đoạn khởi tạo", bài giải thích cho biết.

"Chi phí tăng cao thường do sự kém hiệu quả về vận hành chứ không chỉ riêng phần cứng. Bằng cách liên kết chi phí với việc sử dụng và hành vi của khối lượng công việc, các đội ngũ có thể giảm lãng phí trong khi vẫn duy trì hiệu suất."

Datadog chắc chắn không đơn độc trong việc mở rộng khả năng quan sát sâu hơn vào stack AI. Tuần này, Grafana cũng đã ra mắt các công cụ quan sát cho AI, cung cấp thông tin chi tiết về hành vi của tác nhân, trong khi nền tảng Grafana Cloud cung cấp các công cụ quan sát GPU bao gồm việc sử dụng phần cứng và phân bổ tài nguyên, cũng như tối ưu hóa chi phí.

Vào đầu tháng này, Nutanix cũng đã công bố một khung đa khách hàng (multi-tenancy) để cho phép các tổ chức chạy nhiều khối lượng công việc hơn trên các GPU hiện có của họ, đồng thời cung cấp cái nhìn sâu sắc hơn về cách các hệ thống AI đang tiêu thụ token.

Như vậy, việc tính toán xem các khối lượng công việc AI riêng lẻ đang tốn bao nhiêu chi phí, và quy trình cũng như cấu hình phần mềm nào có thể khiến hóa đơn cao hơn mức cần thiết đang trở nên dễ dàng hơn.

Điều này có nghĩa là các doanh nghiệp có thể đảm bảo hạ tầng AI cũng như các ứng dụng và tác nhân liên quan của họ hoạt động càng hiệu quả càng tốt. Tuy nhiên, việc liệu điều này có giúp các doanh nghiệp thực sự bắt đầu tính toán được liệu họ đang nhận được giá trị gì từ các khoản đầu tư AI hay không thì lại là một câu hỏi hoàn toàn khác.

Datadog bổ sung tính năng giám sát GPU để tối ưu hóa chi phí AI

Bài viết liên quan