Công nghệ mạng Omni-Path của Intel quay trở lại, thách thức InfiniBand trong siêu máy tính của Bộ Năng lượng Mỹ
Cornelis Networks, công ty con tách ra từ Intel, đã triển khai công nghệ kết nối Omni-Path trong siêu máy tính Lynx mới tại Phòng thí nghiệm Quốc gia Lawrence Livermore. Với tốc độ 400 Gbps, hệ thống này cung cấp một giải pháp thay thế hiệu quả cho InfiniBand của Nvidia và Slingshot của HPE Cray, đánh dấu sự trở lại mạnh mẽ của công nghệ mạng này trong lĩnh vực tính toán hiệu suất cao (HPC).

Công nghệ mạng Omni-Path của Intel quay trở lại, thách thức InfiniBand trong siêu máy tính của Bộ Năng lượng Mỹ
Cornelis Networks, công ty con tách ra từ Intel, đã triển khai công nghệ kết nối Omni-Path trong siêu máy tính Lynx mới tại Phòng thí nghiệm Quốc gia Lawrence Livermore. Với tốc độ 400 Gbps, hệ thống này cung cấp một giải pháp thay thế hiệu quả cho InfiniBand của Nvidia và Slingshot của HPE Cray, đánh dấu sự trở lại mạnh mẽ của công nghệ mạng này trong lĩnh vực tính toán hiệu suất cao (HPC).
Trong lĩnh vực kết nối siêu máy tính, InfiniBand của Nvidia đang thống trị, nhưng một đối thủ mới đang lặng lẽ gia nhập thị trường với giải pháp riêng. Tuần này, Bộ Năng lượng Mỹ (DoE) đã khởi động một cụm máy chủ mới tại Phòng thí nghiệm Quốc gia Lawrence Livermore (LLNL), và kết nối mọi thứ lại với nhau là công nghệ kết nối Omni-Path của Cornelis Networks.
Siêu máy tính Lynx và cấu hình phần cứng
Lynx là một hệ thống phần cứng khá khiêm tốn theo tiêu chuẩn của các siêu máy tính DoE, bao gồm 952 nút máy chủ Dell Technologies PowerEdge sử dụng bộ vi xử lý Intel Xeon Scalable thế hệ 4 (codename Sapphire Rapids). Hệ thống được ủy quyền bởi Cục An ninh Hạt nhân Quốc gia (NNSA) sẽ cung cấp thêm sức mạnh tính toán cho các khối lượng công việc bí mật nhất của nước Mỹ.
Tuy nhiên, điều khiến hệ thống này trở nên khác biệt không phải là khả năng tính toán, mà là lựa chọn về kết nối. Hầu hết các hệ thống DoE hiện nay sử dụng công nghệ Slingshot 11 độc quyền của HPE Cray hoặc mạng InfiniBand của Nvidia. Lynx không sử dụng cái nào trong số đó, thay vào đó chọn các bộ chuyển mạch và NIC dòng CN5000 của Cornelis Networks.
"Sự hợp tác giữa chương trình NNSA ASC và Cornelis bắt nguồn từ cam kết chung nhằm thúc đẩy tính toán hiệu suất cao. Lynx phản ánh kết quả của khoản đầu tư R&D công-tư đó và sẽ hỗ trợ các khả năng mô hình hóa, mô phỏng và phân tích làm nền tảng cho cơ sở NNSA hiện đại," Matt Leininger, chiến lược gia HPC cấp cao tại LLNL, cho biết trong một tuyên bố.
Lịch sử và sự trỗi dậy của Omni-Path
Nếu Omni-Path nghe có vẻ quen thuộc, đó là vì nó đã tồn tại dưới hình thức này hay hình thức khác trong phần lớn thập kỷ qua. Ban đầu được Intel phát triển vào năm 2015 cho các ứng dụng HPC, công nghệ kết nối không mất mát này tương tự như InfiniBand ở nhiều khía cạnh. Một số phòng thí nghiệm của DoE là những người áp dụng sớm, bao gồm siêu máy Trinity của Phòng thí nghiệm Quốc gia Los Alamos và máy Cori, trước khi Intel ngừng hỗ trợ vào năm 2019. Bộ phận này cuối cùng đã được tách ra thành công ty riêng vào năm 2020.
Đối với nhiều người, câu chuyện kết thúc tại đó, nhưng vào năm 2025, công ty đã ra mắt dòng sản phẩm NIC và bộ chuyển mạch CN5000 cho thế giới, hứa hẹn kết nối 400 Gbps với khả năng mở rộng hiệu suất gần như tuyến tính. Công nghệ này nhanh chóng thu hút sự chú ý của DoE, cơ quan đã chọn công nghệ của startup mạng ngách này cho hệ thống Lynx vào mùa hè năm ngoái.
Omni-Path không chỉ cung cấp cho cơ quan một giải pháp thay thế cho InfiniBand đối với các hệ thống không phải Cray, mà giờ đây là một trong những kết nối nhanh nhất trong tay họ. Phần lớn các hệ thống Cray được triển khai bởi các phòng thí nghiệm DoE hoạt động ở tốc độ 200 Gbps. InfiniBand về mặt kỹ thuật có thể hỗ trợ tốc độ cổng cao hơn, nhưng đang có nhu cầu cực lớn cho các cụm máy tính AI.
Hiệu suất và tương lai của công nghệ kết nối
Đối với Cornelis, việc triển khai này đại diện cho một điểm chứng minh quan trọng cho giao thức Omni-Path thế hệ tiếp theo và hệ thống mạng của công ty.
"Nó đang đặt ra điểm chứng minh nền tảng để ngành công nghiệp thấy rằng những khách hàng khắt khe nhất đã chạy thử nghiệm nó và đang thấy kết quả rất tốt," CEO Cornelis Lisa Spelman nói với The Register.
Đặc biệt, Spelman cho biết việc triển khai này cho phép Cornelis chứng minh hiệu quả mở rộng của danh mục sản phẩm CN5000. Khi các cụm máy tính phát triển lớn hơn, kết nối mạng có thể nhanh chóng trở thành nút thắt cổ chai.
"Chúng tôi đã có thể chứng minh hiệu quả mở rộng mạng là 91%, điều tuyệt vời cho quy mô cụm này," bà nói.
Khả năng mở rộng này tốt đến mức Spelman kỳ vọng Lynx sẽ vượt trội hơn so với các cụm máy chủ có kích thước tương tự sử dụng các bộ vi xử lý hiện đại hơn, đơn giản vì kết nối hiệu quả hơn.
Lynx sẽ không phải là siêu máy tính cuối cùng sử dụng Omni-Path. Công ty đang làm việc trên các hệ thống bổ sung, bao gồm một số hệ thống sẽ sử dụng các bộ tăng tốc không truyền thống.
"Chúng tôi mong chờ cơ hội tiếp theo để chứng minh nó ở quy mô 2.000, 5.000, 10.000 nút và tiếp tục tăng lên từ đó," Spelman nói.
Cornelis cũng đang nỗ lực đưa thiết bị 800 Gbps nhanh hơn ra thị trường vào cuối năm nay, đúng thời điểm với việc ra mắt các CPU tương thích PCIe Gen 6.0 từ Intel, AMD và các hãng khác. Kết nối PCIe 5.0 về cơ bản giới hạn các NIC thông thường ở mức 400 Gbps. Nvidia và một số bên khác đã giải quyết vấn đề này bằng cách tích hợp các bộ chuyển mạch PCIe lớn vào NIC của họ, cung cấp thêm băng thông nhưng làm tăng chi phí và độ phức tạp mà Spelman cho biết Cornelis muốn tránh.
CN6000 dự kiến ra mắt vào nửa sau năm nay và dự kiến sẽ mang lại hỗ trợ kết nối Ethernet, cho phép khả năng tương thích cao hơn với các mạng hiện có.
