AWS muốn mạng lưới 'biến mất': Bí mật đằng sau hạ tầng khổng lồ
The Register đã có cơ hội tham quan phòng thí nghiệm mạng của AWS tại Cupertino, nơi các kỹ sư đang nỗ lực biến hạ tầng mạng trở nên vô hình như một công tắc đèn. Chiến lược này bao gồm việc tự chủ thiết bị chuyển mạch, phát triển hệ điều hành riêng và áp dụng công nghệ sợi quang lõi rỗng để tối ưu hóa hiệu suất cho kỷ nguyên AI.

Tại một tòa nhà văn phòng ba tầng không mấy nổi bật ở Cupertino, California, các kỹ sư của Amazon Web Services (AWS) đang bận rộn với một sứ mệnh đặc biệt: làm cho mạng máy tính trở nên "khiêm tốn" nhất có thể.
Phòng thí nghiệm mạng của AWS tại Cupertino
Trong một buổi tham quan phòng thí nghiệm Torre Avenue của AWS vào cuối tháng 4, Matt Rehder, Phó chủ tịch kỹ thuật mạng toàn cầu của AWS, đã chia sẻ triết lý của họ. Ông so sánh mạng lưới với một công tắc đèn: nó là thứ chỉ cần hoạt động tốt.
"Cuối cùng, không ai thực sự quan tâm đến mạng lưới", Rehder nói. "Nó chỉ đóng vai trò chức năng. Bạn chỉ quan tâm đến nó khi nó bị hỏng. Nếu không, bạn muốn nó đừng làm phiền bạn. Đó là mô hình tư duy của chúng tôi trong 15 năm qua – làm thế nào để đưa mạng lưới ra khỏi đường chân trời?"
Tự chủ phần cứng để phá vỡ giới hạn
Vào năm 2010, mạng lưới được xem là rào cản đối với AWS từ góc độ kinh doanh. James Hamilton, Phó chủ tịch cấp cao và kỹ sư xuất sắc của Amazon, từng có một bài trình bày mang tên "Mạng trung tâm dữ liệu đang cản trở tôi". Thời điểm đó, sự gia tăng băng thông đã cho thấy cách xây dựng mạng truyền thống sẽ không thể mở rộng quy mô trong tương lai.
AWS nhận thấy cần phải kiểm soát công nghệ mạng của mình vì đây là nền tảng cốt lõi. Họ bắt đầu phát triển phần cứng và phần mềm riêng, ban đầu làm việc với các bên thứ ba trước khi chuyển sang công nghệ nội bộ hoàn toàn.
Điểm độc đáo trong chiến lược của AWS là sự đơn giản hóa. Trong khi các nhà cung cấp mạng khác thường sử dụng nhiều loại chip chuyển mạch (switching ASIC) khác nhau cho mạng lõi, mạng biên và mạng tổng hợp do yêu cầu về bộ nhớ và hiệu năng khác nhau, AWS chỉ sử dụng một loại chip duy nhất cho tất cả.
Các thiết bị chuyển mạch tùy chỉnh của AWS
"Nếu bạn có một thứ và đầu tư mạnh vào việc làm cho nó thực sự tốt, bạn đang dồn toàn bộ năng lượng vào phần cứng và phần mềm đó để đảm bảo nó siêu đáng tin cậy", Rehder giải thích. "Nó cũng giúp chúng tôi mở rộng mạng lưới vì khi quản lý chuỗi cung ứng, chúng tôi không phải cân bằng hàng loạt mã sản phẩm (SKU) cạnh tranh nhau."
Sức mạnh của phần mềm NetOS
Tất cả các thiết bị chuyển mạch của AWS đều chạy trên một hệ điều hành duy nhất là NetOS, một phiên bản Linux tùy chỉnh. Việc sở hữu toàn bộ mã nguồn mang lại lợi thế lớn về bảo mật và khả năng bảo trì.
"Từ góc độ bảo mật, điều này có nghĩa là mã code là của chúng tôi. Chúng tôi có thể quét, sửa lỗi... và cập nhật thiết bị rất thường xuyên", Rehder nói.
Việc kiểm soát cả phần cứng lẫn phần mềm đã cho phép AWS thực hiện những dự án phức tạp, chẳng hạn như mạng thời gian độ chính xác cao (high precision time network) được ra mắt vài năm trước. Công nghệ này tích hợp với chip máy chủ Nitro của AWS, cho phép các ứng dụng như giao dịch tần suất cao và cơ sở dữ liệu phân tán hoạt động qua khoảng cách xa.
Sợi quang lõi rỗng và thách thức từ AI
Một trong những cải tiến mạng gần đây của AWS là việc triển khai sợi quang lõi rỗng (hollow core fiber). Khác với cáp quang truyền thống nơi tín hiệu đi qua thủy tinh, sợi lõi rỗng bao gồm một ống thủy tinh bao quanh không khí hoặc chân không, giúp giảm nhiễu khúc xạ và cho phép ánh sáng di chuyển nhanh hơn gần với tốc độ tự nhiên của nó.
Kết quả là độ trễ (latency) giảm 30%, một con số đáng kể, đặc biệt khi đặt các trung tâm dữ liệu. Điều này cho phép AWS mở rộng các vùng (region) với bán kính lớn hơn mà vẫn đảm bảo hiệu năng.
Nhu cầu băng thông đang tăng vọt, đặc biệt là trong 4-5 năm gần đây với sự bùng nổ của các dịch vụ AI tạo sinh (Generative AI). Các máy chủ tăng tốc hiện nay có nhu cầu băng thông cao gấp 3-4 lần so với máy chủ dựa trên CPU truyền thống.
Để đáp ứng điều này, AWS sử dụng cấu trúc mạng UltraCluster với ít thiết bị mạng hơn trên đường đi giữa hai máy chủ (giảm từ 7 thiết bị xuống còn 5), giúp mở rộng quy mô lớn hơn với độ trễ thấp hơn.
Thiết bị kết nối 'firefly' dùng để kiểm tra cáp quang
Chi tiết nhỏ tạo nên sự khác biệt
Với quy mô hàng triệu thiết bị và hàng chục triệu liên kết quang, những vấn đề nhỏ như việc cắm cáp cũng trở thành thách thức lớn. Với cáp quang, nếu đầu nối không được lắp khớp hoàn hảo hoặc bị bẩn, tín hiệu sẽ bị suy giảm.
AWS sử dụng một thiết bị gọi là "firefly" – một đầu nối có hình dáng hơi giống người ngoài hành tinh trong game Space Invaders – để xác minh đường dẫn tín hiệu cáp quang. Thiết bị này sẽ gửi và nhận tín hiệu trong một vòng lặp để đảm bảo đường dẫn sạch sẽ trước khi kết nối với thiết bị thực tế.
Khi mạng lưới hoạt động tốt – điều xảy ra hơn 99% thời gian – người dùng thậm chí sẽ không nhận ra sự tồn tại của những kỹ thuật phức tạp đằng sau nó.
Bài viết liên quan

Công nghệ
Tổng hợp thị trường M&A an ninh mạng: 33 thương vụ được công bố trong tháng 4/2026
04 tháng 5, 2026

Công nghệ
Bị AI từ chối hồ sơ xin việc? Cuộc chiến đơn độc của một sinh viên y khoa
05 tháng 5, 2026

Công nghệ
The Register chính thức ra mắt giao diện mới: Một sự thay đổi lớn sau hơn 20 năm
06 tháng 5, 2026
