Astera Labs ra mắt switch Scorpio X: Đối thủ mới của NVLink trong kỷ nguyên AI

Astera Labs công bố switch Scorpio X sử dụng PCIe 6.0, cung cấp giải pháp kết nối tốc độ cao cho hệ thống AI mà không phụ thuộc vào công nghệ NVLink độc quyền của Nvidia. Thiết bị này hỗ trợ khả năng tính toán trong mạng để tối ưu hóa suy luận cho các mô hình ngôn ngữ lớn.

Astera Labs vừa công bố một giải pháp thay thế đầy tiềm năng cho NVSwitch của Nvidia, nhằm phục vụ việc xây dựng các hệ thống AI quy mô rack. Công ty khẳng định giải pháp mới này sẽ hoạt động tương thích với hầu hết các bộ tăng tốc (accelerator) hiện có trên thị trường.

Thiết bị chuyển mạch (switch) mới này có tên mã là Scorpio X. Nó tích hợp tới 320 làn kết nối PCIe 6.0 vào một con chip ASIC duy nhất, cung cấp băng thông hai chiều ấn tượng lên tới 5,12 TB/s.

PCIe: Giải pháp thay thế khả thi cho kết nối tốc độ cao

Về mặt lịch sử, các switch PCIe đã được sử dụng trong nhiều ứng dụng khác nhau, bao gồm cả các mạng lưới tính toán mở rộng quy mô (scale-out compute fabrics). Thực tế cho thấy chỉ riêng CPU thường không cung cấp đủ số lượng làn kết nối (lanes) hoặc tốc độ đủ nhanh để đáp ứng nhu cầu của hàng loạt GPU, NIC và thiết bị lưu trữ. Do đó, thay vì kết nối mọi thứ trực tiếp vào CPU, các switch PCIe (thường được tích hợp sẵn trong NIC) được sử dụng để kết nối toàn bộ hệ thống lại với nhau.

Astera Labs lập luận rằng với một switch đủ lớn, PCIe hoàn toàn có thể trở thành một giải pháp thay thế khả thi cho các công nghệ kết nối liên chip như NVLink. Điều này đặc biệt đúng trong các kiến trúc "scale-up", nơi mục tiêu là khiến hàng chục GPU hoạt động như một hệ thống lớn duy nhất mà không cần phải thiết kế lại các bộ tăng tốc phần cứng.

Tối ưu hóa cho AI tạo sinh và kiến trúc MoE

Tuy nhiên, Astera không chỉ dừng lại ở việc xây dựng một switch PCIe lớn hơn. Scorpio được trang bị nhiều khả năng tính toán trong mạng (in-network compute) tương tự như NVSwitch của Nvidia, giúp tăng tốc các hoạt động truyền thông tập thể (collective communications).

Các hoạt động này đóng vai trò cực kỳ quan trọng đối với quá trình suy luận (inference) của AI tạo sinh. Các mô hình ngôn ngữ lớn (LLM) ngày càng đòi hỏi băng thông mạng cao hơn khi kiến trúc Mixture-of-Experts (MoE) trở nên phổ biến.

Các mô hình MoE bao gồm nhiều mô hình con gọi là các chuyên gia (experts). Với mỗi token được tạo ra, một nhóm chuyên gia khác nhau — có khả năng đang chạy trên các GPU khác nhau — sẽ được huy động. Bằng cách chuyển các tác vụ truyền thông tập thể sang switch xử lý, các GPU sẽ giảm bớt thời gian chờ đợi mạng và dành nhiều thời gian hơn để xử lý và tạo ra token.

Astera đã đi xa hơn khi phát triển một hoạt động đa hướng (multicast) được tối ưu hóa riêng cho suy luận MoE, có tên gọi là Hypercast.

"Một trong những hạn chế của đa hướng tiêu chuẩn là số lượng nhóm bạn thực sự có thể hỗ trợ, cũng như tính chất động của việc cần thay đổi các nhóm đó ngay lập tức cho các mô hình mixture-of-experts," Ahmad Danesh, Phó Chủ tịch quản lý sản phẩm tại Astera, chia sẻ.

Vị thế của Scorpio trong hệ sinh thái AI

Mặc dù mang lại nhiều lợi ích khi sử dụng PCIe làm kết nối chip-to-chip, Scorpio không hoàn toàn là thay thế trực tiếp cho dòng chip NVSwitch của Nvidia. NVSwitch 6, được công bố tại CES vào đầu năm nay, cung cấp băng thông cao hơn gần 3 lần, đạt mức 14,4 TB/s.

Tuy nhiên, Astera không cần phải cạnh tranh trực tiếp về thông số thô với NVSwitch. Thay vào đó, Scorpio được định vị là một giải pháp thay thế trung lập về nhà cung cấp (vendor agnostic). Các công nghệ như NVLink Fusion hay giao thức UALink mới nổi đang thu hút sự chú ý, nhưng chúng yêu cầu các chip phải được thiết kế đặc biệt để hỗ trợ.

Ngược lại, PCIe hoạt động với hầu hết mọi thứ vì nó là tiêu chuẩn phổ biến để truyền dữ liệu vào và ra khỏi các bộ tăng tốc. Ví dụ, nếu bạn muốn kết nối 32 thẻ Nvidia RTX Pro 6000 Server lại với nhau, bạn bắt buộc phải dùng switch PCIe vì những GPU này không hỗ trợ NVLink.

PCIe cũng giúp việc kết hợp và trộn lẫn các loại chip dễ dàng hơn cho các kiến trúc suy luận tách rời (disaggregated inference architectures). Chúng ta đã thấy xu hướng này trong các hợp tác giữa Nvidia và Groq, AWS với Cerebras, hay Intel và SambaNova. Các kiến trúc này sử dụng một bộ tăng tốc cho các tác vụ tính toán nặng (prefill) và một bộ khác cho các tác vụ giải mã (decode) tốn băng thông. Để hoạt động trơn tru, các chip này phải được kết nối với nhau. Mặc dù nhiều nhà sản xuất chip AI đang sử dụng Ethernet cho việc này, nhưng PCIe sẽ là phương thức kết nối trực tiếp và hiệu quả hơn.

Sự mở rộng dòng sản phẩm và tính khả dụng

Cùng với dòng chip Scorpio X, Astera cũng đang mở rộng dòng switch Scorpio P-series với các mẫu có từ 32 đến 320 làn kết nối PCIe. Tất cả các switch này đều hoạt động với bộ phần mềm quản lý COSMOS — một nền tảng giám sát phần cứng được thiết kế để giúp theo dõi và giải quyết sự cố trên toàn bộ mạng lưới.

Các switch Scorpio mới được làm mới của Astera hiện đang được gửi mẫu thử nghiệm, với sản xuất dự kiến sẽ tăng tốc vào nửa cuối năm 2026.