AWS Cách Mạng Hạ Tầng Trung Tâm Dữ Liệu: Giảm 69% Thiết Bị Mạng Nhờ Lý Thuyết Đồ Thị Ngẫu Nhiên

Phần cứng04 tháng 6, 2026·5 phút đọc

AWS đã áp dụng kiến trúc mạng phẳng Resilient Network Graphs (RNG) làm mặc định cho các trung tâm dữ liệu mới, thay thế cấu trúc Fat-Tree truyền thống. Đổi mới này giúp giảm 69% số lượng router, tăng 33% thông lượng và cắt giảm 40% tiêu thụ điện năng của thiết bị mạng.

AWS Cách Mạng Hạ Tầng Trung Tâm Dữ Liệu: Giảm 69% Thiết Bị Mạng Nhờ Lý Thuyết Đồ Thị Ngẫu Nhiên

Các nhà toán học đã chứng minh vào đầu những năm 1990 rằng việc kết nối các router một cách ngẫu nhiên sẽ tạo ra cấu trúc mạng hiệu quả và linh hoạt nhất. Mất khoảng 30 năm, AWS mới biến kết quả lý thuyết đó thành cơ sở hạ tầng thực tế. Gã khổng lồ đám mây vừa tiết lộ rằng Resilient Network Graphs (RNG) — một kiến trúc mạng phẳng dựa trên lý thuyết đồ thị bán ngẫu nhiên — hiện đã trở thành mặc định cho hầu hết các trung tâm dữ liệu AWS mới trên toàn cầu (trừ các cụm GPU).

Trong một bài đăng trên arXiv, các nhà khoa học của AWS mô tả đây là lần triển khai mạng quy mô lớn đầu tiên dựa trên lý thuyết đồ thị mở rộng (expander-based). Những con số biết nói đã chứng minh hiệu quả của kiến trúc mới: giảm 69% thiết bị mạng, tăng tới 33% thông lượng (throughput) và dự kiến giảm 40% mức tiêu thụ điện năng của thiết bị mạng.

Tại sao cấu trúc Fat-Tree cần thay thế?

Để hiểu rõ tầm quan trọng của đổi mới này, ta cần nhìn vào những gì mà AWS thay thế. Các mạng trung tâm dữ liệu truyền thống thường sử dụng cấu trúc Fat-Tree (cây béo): máy chủ kết nối với các switch Top-of-Rack (ToR), các switch này kết nối với switch tổng hợp (aggregation), và cuối cùng lên các switch xương sống (spine).

Dữ liệu di chuyển giữa hai máy chủ ở các giá (rack) khác nhau phải leo lên hệ thống phân cấp để đến một spine chung và rồi đi xuống lại. Nếu các liên kết spine bị tắc nghẽn, thông lượng sẽ giảm ngay cả khi băng thông ở nơi khác vẫn dồi dào. Việc mở rộng dung lượng nghĩa là phải thêm toàn bộ các tầng switch, điều này tốn kém và tiêu tốn nhiều điện năng.

So sánh cấu trúc Fat-Tree truyền thống và mạng phẳng mới của AWSSo sánh cấu trúc Fat-Tree truyền thống và mạng phẳng mới của AWS

Giải pháp Resilient Network Graphs (RNG)

Điểm cốt lõi của RNG là giải quyết thách thức về cấu trúc vật lý thay vì chỉ tập trung vào định tuyến. AWS về cơ bản đã loại bỏ hoàn toàn các lớp spine và leaf. Thay vào đó, họ tạo thành một lưới (mesh) nơi các switch ToR kết nối trực tiếp với các nút ToR khác thông qua các băng tải cáp liên giá (inter-rack uplink cassettes). Hệ thống phân cấp biến mất; mỗi giá kết nối trực tiếp với một tập hợp bán ngẫu nhiên các giá khác.

Để hiện thực hóa ý tưởng này, AWS đã giải quyết hai vấn đề lớn:

1. ShuffleBox: Kết nối vật lý thông minh

Bạn không thể thực sự chạy các dây cáp ngẫu nhiên khắp trung tâm dữ liệu ở quy mô siêu lớn. AWS đã xây dựng ShuffleBox — một thiết bị quang thụ động với hệ thống dây cáp quang được xáo trộn (shuffled) bên trong. Nó tạo ra cấu trúc logic bán ngẫu nhiên trong khi giữ cho việc đấu nối vật lý đơn giản như cắm vào một cổng cục bộ. Vì ShuffleBoxes là thụ động, chúng không thêm độ trễ, không tiêu thụ điện năng và không giới thiệu chế độ hỏng hóc mới.

2. Spraypoint: Giao thức định tuyến phân tán

Không có hệ thống phân cấp để dẫn đường, các gói dữ liệu cần một chiến lược mới. AWS đã xây dựng Spraypoint, một giao thức phân tán tùy chỉnh. Nó "phun" (spray) lưu lượng đồng thời qua các router lân cận và sử dụng các điểm định danh (waypoints) để dẫn gói đến đích. Việc gửi cùng một gói tin qua nhiều tuyến đường nghe có vẻ lãng phí, nhưng thực tế nó tận dụng tối đa băng thông dự phòng mà mạng đa đường dẫn (multi-path) đã có sẵn, thay vì để chúng nằm yên.

Khả năng phục hồi và Hiệu quả

Thuộc tính khả năng phục hồi (resilience) có lẽ là lập luận thuyết phục nhất của RNG. Trong cấu trúc Fat-Tree, việc mất một switch spine sẽ gây ra nghẽn mạng thảm khốc cho mọi giá bên dưới nó. Trong cấu trúc RNG, việc mất 1% router chỉ dẫn đến mất khoảng 1% dung lượng. Mạng suy giảm theo tỷ lệ thay vì thảm họa, bởi vì các đồ thị ngẫu nhiên phân phối kết nối đều đặn đến mức không có nút đơn nào trở thành nút thắt cổ chai.

Trước khi triển khai thực tế, nhóm nghiên cứu đã chạy 530 năm xử lý mô phỏng trên EC2 qua hàng chục mô hình lưu lượng. Mạng sản phẩm đầu tiên đi vào hoạt động gần Dublin, Ireland vào cuối năm 2024. AWS đã hoàn thành ba lần triển khai để xác nhận và tinh chỉnh tại các cơ sở ở Ireland, Đức và Tây Ban Nha trước khi đưa RNG thành mặc định vào tháng 4 năm 2026.

Phạm vi áp dụng

Một giới hạn quan trọng là RNG nhắm đến tính toán đa dụng (general-purpose compute), nơi mô hình lưu lượng gần giống với phân phối ngẫu nhiên. Đào tạo AI tạo ra lưu lượng tập trung, được phối hợp chặt chẽ không phù hợp với mô hình này, do đó AWS tiếp tục sử dụng kiến trúc UltraServer cho các cụm GPU.

Câu hỏi đặt ra cho ngành công nghiệp là liệu đây sẽ là lợi thế riêng của AWS hay trở thành một kiến trúc mà các nhà khai thác khác áp dụng. Google, Microsoft và Meta đều đã công bố nghiên cứu về các lựa chọn thay thế cho Fat-Tree, nhưng chưa có công bố nào về việc triển khai mạng dựa trên đồ thị mở rộng ở quy mô tương tự.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗