AMD dùng ROCm thách thức CUDA: "Chỉ cần kiên trì từng bước một"

AMD đang nỗ lực xây dựng phần mềm AI ROCm để cạnh tranh trực tiếp với hệ sinh thái CUDA thống trị của Nvidia. Với sự hỗ trợ từ đội ngũ cũ của Nod.ai và chiến lược mã nguồn mở, công ty hy vọng sẽ thu hút cộng đồng lập trình viên và rút ngắn khoảng cách công nghệ.

Khả năng giành thị phần GPU trung tâm dữ liệu từ tay người dẫn đầu thị trường Nvidia của đối thủ AMD sẽ phụ thuộc rất nhiều vào sự thành bại của phần mềm AI của họ: ROCm. Đối đầu với CUDA và cơ sở người dùng khổng lồ được coi là "hào phòng thủ" vĩ đại nhất của công ty giá trị nhất thế giới dường như là một nhiệm vụ gần như bất khả thi.

"Nó giống như leo lên một ngọn núi—chỉ cần bước từng bước một," Anush Elangovan, Phó chủ tịch phần mềm AI của AMD, chia sẻ trong một cuộc phỏng vấn độc quyền với EE Times. "Hãy xác định phương hướng, kiên định với nó, và mọi thứ sẽ theo sau đó."

AMD Instinct MI355X

Elangovan gia nhập AMD thông qua thương vụ mua lại startup Nod.ai cách đây hai năm rưỡi. Đội ngũ 30 người của startup này đã dành 5-6 năm xây dựng các trình biên dịch AI và nổi tiếng là những người đóng góp chính cho nhiều kho lưu trữ AI quan trọng như Shark, Torch.MLIR và IREE.

ROCm: Từ những mảnh ghép rời rạc đến trải nghiệm liền mạch

Kể từ thương vụ mua lại Nod.ai, ROCm đã nhận được sự đầu tư liên tục trong hai năm rưỡi qua. Elangovan mô tả ROCm trước đây chỉ là "một tập hợp các phần tử", cung cấp các mảnh firmware rời rạc được buộc lại với nhau. Ngày nay, đội ngũ ROCm đang nỗ lực bắt chước mô hình phát triển của đội ngũ Google Chrome—nơi Elangovan từng làm việc trước khi thành lập Nod.

"Nếu bạn là người dùng Chrome, có thể bạn không biết mình đang dùng phiên bản nào—bạn không quan tâm vì nó chỉ cần hoạt động," Elangovan nói. "Chúng tôi đã đạt được điều đó với ROCm. Trong vài bản phát hành tới, chúng tôi sẽ đạt chu kỳ phát hành sáu tuần. Chúng tôi sẽ đạt đến điểm mà nó chỉ cần hoạt động, và trở nên vô hình với người dùng."

Khả năng chuyển đổi và vai trò của Triton

Việc thống nhất các ngăn xếp AI (AI stacks) trên các loại phần cứng khác nhau của AMD (CPU, GPU, FPGA) đã hiện thực hóa dưới cái tên nội bộ là OneROCm. Điều này cho phép tính khả chuyển giữa các loại phần cứng khác nhau của AMD.

Tuy nhiên, khả năng chuyển đổi giữa GPU của Nvidia và AMD không còn là vấn đề lớn như hai năm trước. Thay vì chuyển đổi thủ công các CUDA kernel sang HIP kernel, các nhà phát hiện nay đang làm việc ở cấp độ cao hơn nhờ vào khung AI mã nguồn mở Triton của OpenAI.

AMD MI430X hardware

"Ngày xưa, việc chuyển đổi CUDA kernel sang HIP kernel là trọng tâm. Nhưng ngày càng có nhiều người chuyển sang Triton, trở thành cân bằng vĩ đại của lập trình GPU," Elangovan giải thích. "Nó cho phép bạn viết một kernel Triton và chạy trên AMD hoặc Nvidia. Và chúng tôi đã đầu tư mạnh mẽ vào điều này."

AMD cũng đầu tư lớn vào MLIR, cơ sở hạ tầng trình biên dịch cho các bộ tăng tốc, và đội ngũ cũ của Nod tiếp tục duy trì Torch.MLIR. Elangovan thậm chí cho biết ông sử dụng các công cụ AI như Claude để viết và xác thực các kernel AMD mới thay vì dùng các công cụ chuyển đổi truyền thống.

Chiến lược mã nguồn mở và lắng nghe cộng đồng

ROCm là 100% mã nguồn mở (ngoại trừ firmware). Elangovan cho rằng việc này giúp ROCm di chuyển với tốc độ đổi mới của cộng đồng chứ không bị giới hạn bởi tốc độ của AMD.

"Cách này cho phép bạn lấy nó lên và làm bất cứ điều gì bạn muốn, và đổi mới," ông nói. "Mọi người có thể tham gia tại bất kỳ điểm nào họ muốn, dù là trình biên dịch hay runtime, và họ bị giới hạn bởi khả năng của chính mình, không phải bởi tốc độ AMD hợp tác với họ."

Một điểm quan trọng là ROCm hiện đã chạy sẵn trên các laptop trang bị AMD Strix Halo, giúp thu hút các nhà phát triển đến với nền tảng này. AMD thường phát hành bản cập nhật ROCm cho laptop Windows cùng ngày với phiên bản cho phần cứng trung tâm dữ liệu Instinct.

Tương tác trực tiếp với cộng đồng lập trình viên

Elangovan nhấn mạnh tầm quan trọng của việc tương tác trực tiếp với cộng đồng. Dù tự nhận là người miễn cưỡng sử dụng X (Twitter), ông đã tham gia nền tảng này để cung cấp cái nhìn trực tiếp về những gì công ty đang làm cho các nhà phát triển.

Ông cá nhân theo dõi các từ khóa như "ROCm", "ROCm sucks" (ROCm tệ), "AMD software not working" và phản hồi từng người một. Năm ngoái, AMD đã thực hiện một cuộc thăm dò trên GitHub về các phàn nàn về ROCm và nhận được hơn 1.000 phản hồi. Nhiều người liên quan đến việc hỗ trợ phần cứng cũ, và cho đến nay, tất cả 1.000 phàn nàn đó đã được giải quyết.

"Điều đó thực sự đã thay đổi tâm trạng, từ việc các nhà phát triển AMD cảm thấy bực bội vì driver không được hỗ trợ, đến việc tin rằng nỗ lực của họ được trân trọng," Elangovan chia sẻ.

Elangovan rất hào hứng với dòng MI400 sắp tới (dự kiến giao hàng vào nửa sau năm 2026), nhưng hơn thế nữa, đội ngũ đang bắt đầu xem xét các tính năng cho ROCm giúp khác biệt hóa so với CUDA, vượt ra ngoài việc chỉ là một nền tảng vững chắc.

"Chúng tôi muốn ROCm là một nền tảng mà bạn có thể xây dựng trong 10 năm tới," ông kết luận. "Bạn không nên phải lo lắng về điều gì sẽ xảy ra khi phần cứng mới ra mắt."