Trung tâm dữ liệu: Ít sự cố hơn nhưng thiệt hại ngày càng lớn
Báo cáo mới nhất từ Uptime Institute cho thấy độ tin cậy của trung tâm dữ liệu đã được cải thiện trong 5 năm qua. Tuy nhiên, các sự cố xảy ra hiện nay có xu hướng kéo dài hơn và tốn kém hơn, đặc biệt là do áp lực từ hạ tầng AI và thiếu hụt thiết bị phần cứng.

Trung tâm dữ liệu: Ít sự cố hơn nhưng thiệt hại ngày càng lớn
Có cả tin tốt và tin xấu liên quan đến thời gian hoạt động (uptime) của các trung tâm dữ liệu. Theo một báo cáo gần đây từ Uptime Institute, các "nhà kho bit" thực tế đã trở nên kiên cường hơn trong năm năm qua. Tuy nhiên, báo cáo cũng chỉ ra rằng những sự cố trung tâm dữ liệu vẫn xảy ra lại kéo dài hơn và tốn kém hơn để khắc phục.
Theo Uptime, một nửa số nhà khai thác được khảo sát cho biết họ đã gặp phải sự cố ngừng hoạt động có tác động hoặc nghiêm trọng trong ba năm qua. "Đây là mức thấp nhất được ghi nhận kể từ năm 2020 và tiếp tục xu hướng nhiều năm cải thiện độ tin cậy."
Tuy nhiên, báo cáo cũng phát hiện ra rằng các nhà khai thác trung tâm dữ liệu có thể đang gặp khó khăn hơn trong việc bổ sung các con số 9 vào thỏa thuận mức dịch vụ (SLA) của họ. Theo Uptime, tỷ lệ thất bại đang giảm với tốc độ chậm hơn, cho thấy các nỗ lực hiện tại nhằm cải thiện khả năng phục hồi có thể đang đạt đến điểm lợi tức giảm dần.
Sự phức tạp của hệ thống và áp lực từ AI
Điều này dường như không xuất phát từ sự tự mãn. Thay vào đó, các nhà phân tích cho rằng các nỗ lực cải thiện thời gian hoạt động đang bị bù đắp bởi sự phức tạp lớn hơn của hệ thống và môi trường vận hành đầy thách thức hơn do sự triển khai rộng rãi hạ tầng có mật độ công suất cao được sử dụng trong đào tạo và suy luận AI.
"Mật độ rack cao hơn, tính biến đổi của tải và vận hành gần hơn với giới hạn công suất có sẵn có thể làm tăng khả năng xảy ra các sự cố dây chuyền," Uptime cảnh báo.
Sự thiếu hụt hạ tầng vật lý quan trọng như máy phát, tủ điện, máy biến áp và các hệ thống điện và làm mát khác đã thúc đẩy một số nhà khai thác áp dụng phần cứng cũ chưa được kiểm chứng. "Được tin rằng điều này đã góp phần vào một số sự cố và sự cố tại một số trung tâm dữ liệu," báo cáo viết.
Các vấn đề về điện và mạng
Các sự cố liên quan đến điện vẫn là nguyên nhân hàng đầu gây ra gián đoạn lớn tại trung tâm dữ liệu, nhưng ngay cả điều này cũng đang được cải thiện. "Mặc dù các vấn đề về điện chiếm 45% các sự cố ngừng hoạt động có tác động lớn nhất của người trả lời vào năm 2025, con số này đã giảm so với 54% vào năm 2024," các nhà phân tích viết.
Tuy nhiên, họ cũng cảnh báo rằng tình hình này có thể thay đổi khi các lưới điện địa phương bị quá tải do các triển khai trung tâm dữ liệu ngày càng lớn. Mặc dù Uptime không mong đợi sự cố điện lưới sẽ là nguyên nhân chính gây ra sự cố ngừng hoạt động trong tương lai, nhưng sự cố lưới điện vẫn có thể ảnh hưởng đến tính sẵn có của nguồn điện tại chỗ. Trong quá trình mất điện, trung tâm dữ liệu chỉ có một khoảng thời gian giới hạn để chuyển sang máy phát tại chỗ, và những thiết bị này có thể và thường xuyên gặp sự cố.
Các lưới điện quá tải không phải là yếu tố bên ngoài duy nhất trong tầm ngắm của Uptime. Các nhà quan sát ngành lưu ý rằng nhiều sự cố ngừng hoạt động công khai đã được liên kết với việc cắt cáp quang và các gián đoạn mạng khác.
"Hạ tầng kỹ thuật số đang trở nên phân tán hơn với các sự cố khởi phát bên ngoài trung tâm dữ liệu, bao gồm những vấn đề liên quan đến tính sẵn có của điện, kết nối mạng hoặc sự phụ thuộc vào các dịch vụ đám mây bên ngoài đóng vai trò lớn hơn," Nhà phân tích của Uptime Andy Lawrence cho biết trong một tuyên bố.
Theo báo cáo, các vấn đề liên quan đến mạng vẫn là nguyên nhân được nhắc đến nhiều nhất gây ra gián đoạn CNTT. Ngay cả khi chính trung tâm dữ liệu không bị hỏng, cấu hình mạng sai vẫn có thể dẫn đến sự cố dịch vụ.
Tin tốt là việc áp dụng rộng rãi mạng định nghĩa bằng phần mềm (SDN) và định tuyến lại lưu lượng tự động đã giúp giảm thiểu rủi ro này. Báo cáo nhận thấy rằng 20% số người được khảo sát báo cáo không có sự cố ngừng hoạt động dịch vụ CNTT trong ba năm qua, mức cải thiện 9 điểm so với năm 2024.
Chi phí gia tăng và rủi ro đa khu vực
Khả năng phục hồi ở cấp độ phần mềm đang giúp giảm thiểu các gián đoạn cục bộ, chẳng hạn như cắt cáp quang, bằng cách phân phối khối lượng công việc trên nhiều địa điểm. Tuy nhiên, khả năng phục hồi phần mềm này đi kèm với những thách thức riêng của nó, đáng chú ý nhất là sự phức tạp.
Như chúng ta đã thấy với các cuộc tấn công bằng máy bay không người lái vào các trung tâm dữ liệu của Amazon tại UAE và Bahrain, việc phân phối khối lượng công việc trên nhiều vùng sẵn sàng (availability zones) sẽ không có tác dụng nhiều nếu sự cố lan sang nhiều địa điểm.
Mặc dù Uptime quan sát thấy ít sự cố hơn vào năm 2025, báo cáo cho thấy các sự cố có thể kéo dài hơn.
"Mặc dù đa số các sự cố được báo cáo công khai vẫn được giải quyết trong vòng 12 giờ (55%), tỷ lệ các sự cố kéo dài hơn 48 giờ đã tăng trong năm thứ hai liên tục."
Như chúng ta đã đề cập trước đó, nhiều sự cố trong số này liên quan đến các yếu tố như đường cáp quang bị hỏng, mà Uptime lưu ý là xảy ra thường xuyên hơn gấp hai lần so với bình thường.
Như bạn có thể mong đợi, sự cố càng kéo dài thì chi phí càng cao, đặc biệt khi liên quan đến hạ tầng AI có đòn bẩy tài chính cao. Uptime báo cáo rằng hiện nay một trong năm sự cố vượt quá tổng chi phí 1 triệu USD, và dự kiến con số này sẽ tiếp tục tăng trong những năm tới.
Bài viết liên quan

Phần mềm
Intel và AMD vá tổng cộng 70 lỗ hổng bảo mật trong Patch Tuesday tháng 5
13 tháng 5, 2026

Công nghệ
Cerebras, đối tác thân thiết của OpenAI, sẵn sàng cho đợt IPO kỷ lục định giá tới 26,6 tỷ USD
04 tháng 5, 2026

Công nghệ
Microsoft giới thiệu Surface Pro 12 và Surface Laptop 8: Sức mạnh chip Intel, giá thành gây sốc
19 tháng 5, 2026
