Nvidia quyết định "sáng" lên: Đánh cược vào công nghệ quang học để mở rộng quy mô siêu máy tính

Để giải quyết giới hạn về công suất và khoảng cách của dây dẫn đồng, Nvidia đang chuyển dịch mạnh mẽ sang công nghệ kết nối quang học nhằm xây dựng các hệ thống có thể tích hợp hàng nghìn GPU vào một cấu hình duy nhất. Điều này bao gồm việc đầu tư hàng tỷ đô la vào các công ty chuyên về laser và áp dụng công nghệ Co-packaged Optics (CPO) trong các hệ thống tương lai như Vera Rubin và Feynman.

Xu hướng tất yếu: Từ đồng sang quang

Nếu bạn nghĩ các hệ thống racks GB200 của Nvidia là quá lớn, thì CEO Jensen Huang mới chỉ bắt đầu thôi. Tại GTC tháng trước, tập đoàn công nghệ giá trị nhất thế giới đã tiết lộ kế hoạch sử dụng các kết nối quang học (photonic interconnects) để gom hơn 1.000 GPU vào trong một hệ thống khổng lồ vào năm 2028.

Sự chuyển dịch này là tất yếu khi nhu cầu tính toán AI tăng cao. Hệ thống mạnh mẽ nhất của Nvidia thời điểm công bố ChatGPT năm 2022 chỉ có tám GPU, trong khi các mô hình cần hàng trăm hoặc hàng ngàn chip để huấn luyện. Nvidia đã sớm nhận ra rằng cần một giải pháp kết nối mạnh mẽ hơn để phân phối công việc giữa các chip.

Giới hạn của dây dẫn đồng

Hệ thống đầu tiên thể hiện sự chuyển dịch này là Grace Blackwell NVL72. Đây là một cỗ máy khổng lồ tiêu thụ 120 kilowatt, sử dụng một backplane bằng đồng chứa hàng dặm dây cáp để làm cho 72 GPU hoạt động như một khối tính toán duy nhất.

Tuy nhiên, đồng là lựa chọn tự nhiên nhưng không hoàn hảo. Tốc độ truyền dữ liệu là 1,8 TB/s, nhưng dây dẫn chỉ có thể kéo dài vài feet trước khi tín hiệu bị suy giảm. Chính vì lý do này, các NVSwitches (bộ chuyển đổi mạng) của NVL72 được đặt ở giữa rack. Đồng cũng hạn chế khả năng tích hợp nhiều GPU vào một rack.

Nvidia đầu tư mạnh vào thị trường quang học

Sau hai năm, Nvidia đã tiếp cận gần hơn giới hạn của đồng và sẽ cần chấp nhận công nghệ quang học nếu muốn xây dựng hệ thống GPU lớn hơn nữa.

Để chuẩn bị cho sự thay đổi này, Nvidia đã đầu tư hàng tỷ đô la vào các công ty chuyên về quang học như Marvell, Coherent và Lumentum. CEO Huang đã nhấn mạnh trong bài thuyết trình GTC rằng họ cần nhiều dung lượng hơn cho cả đồng, quang học và CPO (Co-packaged Optics).

Công nghệ CPO là bước tiến quan trọng, tích hợp động cơ quang học trực tiếp cạnh ASIC (mạch tích hợp đặc thù) của bộ chuyển đổi. Công nghệ này đã giúp giảm bớt số lượng các module quang học (pluggables) cần thiết, giảm đáng kể tiêu thụ điện năng mà không ảnh hưởng đến hiệu suất.

Tương lai: CPO và hệ thống Feynman

Nvidia đã bắt đầu áp dụng CPO vào các bộ chuyển đổi Spectrum Ethernet và Quantum InfiniBand vào năm 2025. Bước đi tiếp theo là áp dụng nó cho các lớp kết nối NVLink.

Tại GTC năm nay, Huang đã giới thiệu các hệ thống Vera Rubin (NVL576) và Rosa Feynman (NVL1152). Các hệ thống này sử dụng quang học để mở rộng phạm vi tính toán gấp tám lần so với thế hệ trước.

Với hệ thống Feynman (dự kiến phát hành từ giữa đến cuối năm 2028), Nvidia có thể tích hợp CPO ngay cả vào gói GPU, thay vì chỉ ở bộ chuyển đổi. Điều này có thể tạo ra một lớp kết nối duy nhất, giảm độ trễ tối đa.

Đầu tư vào các công ty như Coherent và Lumentum cho thấy Nvidia muốn tự chủ chuỗi cung ứng laser – một thành phần không thể thiếu trong các hệ thống quang học hiện đại. Bằng cách làm cho "ánh sáng" trở thành một phần của kiến trúc máy tính của mình, Nvidia đang chuẩn bị cho kỷ nguyên siêu máy tính tiếp theo.

Nvidia quyết định "sáng" lên: Đánh cược vào công nghệ quang học để mở rộng quy mô siêu máy tính

Xu hướng tất yếu: Từ đồng sang quang

Giới hạn của dây dẫn đồng

Nvidia đầu tư mạnh vào thị trường quang học

Tương lai: CPO và hệ thống Feynman

Bài viết liên quan