CUDA: Hào bảo vệ giúp Nvidia khẳng định vị thế là một công ty phần mềm

Mặc dù nổi tiếng với các chip phần cứng, lợi thế cạnh tranh thực sự của Nvidia lại nằm ở một nền tảng phần mềm tên là CUDA. Đây là 'hào bảo vệ' sâu rộng và khó vượt qua, giúp công ty thống trị lĩnh vực AI nhờ khả năng tối ưu hóa phần cứng mà đối thủ khó sao chép.

Xin lỗi vì tôi phải bắt đầu bằng một câu sáo rỗng, một thuật ngữ tài chính gần đây đã lọt vào từ điển công nghệ, nhưng tôi buộc phải nói về "hào bảo vệ" (moats). Được Warren Buffett phổ biến hàng thập kỷ trước để chỉ lợi thế cạnh tranh của một công ty, từ này đã tìm đường vào các bài thuyết trình tại Thung lũng Silicon khi một bản ghi nhớ bị rò rỉ supposedly từ Google, có tiêu đề "Chúng tôi không có hào bảo vệ, và OpenAI cũng không", lo ngại rằng AI mã nguồn mở sẽ cướp bóc lâu đài của Big Tech.

Vài năm trôi qua, những bức tường thành của lâu đài vẫn an toàn. Ngoại trừ một đợt hoảng loạn ngắn ngủi khi DeepSeek vừa xuất hiện, các mô hình AI mã nguồn mở chưa vượt trội hơn hẳn các mô hình độc quyền. Tuy nhiên, không một phòng thí nghiệm tiên phong nào—OpenAI, Anthropic, Google—có thể nói rằng mình sở hữu một hào bảo vệ thực sự.

Công ty thực sự có hào bảo vệ chính là Nvidia. CEO Jensen Huang đã gọi nó là "kho báu" quý giá nhất của ông. Đó không phải, như bạn có thể giả định đối với một công ty bán dẫn, là một phần cứng. Đó là thứ gọi là CUDA. Cái tên nghe giống một hợp chất hóa học bị FDA cấm, nhưng nó có thể chính là hào bảo vệ duy nhất thực sự trong AI.

Về mặt kỹ thuật, CUDA là viết tắt của Compute Unified Device Architecture (Kiến trúc Thiết bị Thống nhất Tính toán), nhưng giống như laser hay scuba, chẳng ai bother mở rộng chữ viết tắt này ra; chúng ta chỉ nói là "KOO-duh". Vậy kho báu quan trọng này dùng để làm gì? Nếu bắt buộc phải trả lời bằng một từ: tính song song (parallelization).

Dưới đây là một ví dụ đơn giản. Giả sử chúng ta giao cho một máy nhiệm vụ điền vào bảng cửu chương 9×9. Sử dụng một máy tính với nhân đơn (single core), tất cả 81 phép tính sẽ được thực hiện lần lượt một cách ngoan ngoãn. Nhưng một GPU với chín nhân có thể phân công nhiệm vụ để mỗi nhân nhận một cột khác nhau—một cái từ 1×1 đến 1×9, cái khác từ 2×1 đến 2×9, v.v.—tăng tốc độ chín lần. Các GPU hiện đại thậm chí còn thông minh hơn. Ví dụ, nếu được lập trình để nhận ra tính giao hoán—7×9 = 9×7—chúng có thể tránh làm việc kép, giảm 81 phép tính xuống còn 45, gần như cắt giảm một nửa khối lượng công việc. Khi một lần huấn luyện tốn trăm triệu đô la, mọi sự tối ưu hóa đều đáng giá.

GPU của Nvidia ban đầu được xây dựng để kết xuất đồ họa cho trò chơi điện tử. Vào đầu những năm 2000, một sinh viên tiến sĩ Stanford tên là Ian Buck, người lần đầu tiên tiếp cận GPU với tư cách là một game thủ, đã nhận ra kiến trúc của chúng có thể được tái mục đích cho tính toán hiệu suất cao nói chung. Ông đã tạo ra một ngôn ngữ lập trình gọi là Brook, được Nvidia tuyển dụng, và cùng với John Nickolls, dẫn đầu sự phát triển của CUDA. Nếu AI mở ra kỷ nguyên của tầng lớp công nhân văn phòng vĩnh viễn và vũ khí tự hành, hãy biết rằng tất cả là vì một ai đó đang chơi Doom đã nghĩ rằng bộ phận cơ thể của một con quỷ nên rung lắc ở tốc độ 60 khung hình mỗi giây.

CUDA bản thân không phải là một ngôn ngữ lập trình mà là một "nền tảng". Tôi dùng từ này vì, giống như cách The New York Times là một tờ báo nhưng cũng là một công ty game, CUDA qua nhiều năm đã trở thành một bó thư viện phần mềm lồng nhau cho AI. Mỗi chức năng cắt giảm vài nano-giây từ các phép tính toán học đơn lẻ—cộng lại, chúng khiến GPU, theo ngôn ngữ của ngành, "chạy vù vù".

Một card đồ họa hiện đại không chỉ là một bảng mạch crammed với chip, bộ nhớ và quạt. Nó là một món đồ ngọt ngào phức tạp của các hệ thống phân cấp cache và các đơn vị chuyên biệt gọi là "tensor cores" và "streaming multiprocessors". Theo nghĩa đó, những gì các công ty chip bán giống như một bếp nhà hàng chuyên nghiệp, và nhiều nhân hơn giống như nhiều trạm nướng hơn. Nhưng ngay cả một căn bếp với 30 trạm nướng cũng không thể chạy nhanh hơn nếu không có một đầu bếp chính có khả năng phân công nhiệm vụ khéo léo—như CUDA làm cho các nhân GPU.

Để mở rộng ẩn dụ này, các thư viện CUDA được tinh chỉnh thủ công cho một phép toán ma trận tương đương với các công cụ bếp được thiết kế cho một công việc duy nhất và không hơn—một máy lấy hạt anh đào, máy bóc tôm—đây là những thứ xa xỉ cho đầu bếp tại nhà nhưng không phải nếu bạn phải ruột 10.000 con tôm. Điều đưa chúng ta trở lại với DeepSeek. Các kỹ sư của họ đã đi xuống dưới lớp trừu tượng sâu sắc này để làm việc trực tiếp trong PTX, một loại ngôn ngữ assembly cho GPU của Nvidia. Giả sử nhiệm vụ là bóc tỏi. Một GPU chưa tối ưu hóa sẽ nói: "Bóc vỏ bằng móng tay." CUDA có thể chỉ thị: "Đập tép tỏi bằng mặt phẳng của con dao." PTX cho phép bạn quy định từng hướng dẫn phụ: "Nâng lưỡi dao lên 2,35 inch trên thớt, làm song song với xích đạo của tép tỏi, và đập xuống bằng lòng bàn tay với lực 36,2 newton."

Bạn có thể bắt đầu thấy tại sao CUDA lại có giá trị đến vậy đối với Nvidia—và tại sao người khác khó có thể chạm tới. Tinh chỉnh hiệu suất GPU là một vấn đề rối rắm. Bạn không thể chỉ bắt một sinh viên năm nhất ngây ngô trên Phố Market, đưa họ gói Claude Max và kỳ vọng họ hack các nhân GPU. Viết code ở cấp độ này là một công việc cực nhọc—trừ khi bạn là một lập trình viên xuất sắc tại DeepSeek.

Một lời thú nhận: Trong các cột Machine Readable trước, tôi đã quen thuộc với các ngôn ngữ mình đang phân tích. Nhưng không phải ở đây. Để duy trì tiêu chuẩn đó, tôi quyết định dành một ngày với CUDA. Nó đã phá hỏng buổi chiều của tôi.

Một phép nhân ma trận đơn giản thường mất tôi ba dòng trong PyTorch—một khung học máy phổ biến—đã mất tôi hơn 50 dòng trong CUDA. Vắt kiệt từng giọt hiệu suất cuối cùng, hóa ra, là một công việc đáng ngưỡng mộ nhưng tẻ nhạt. Sau khi nhúng chân xuống hào bảo vệ, tôi có thể báo cáo rằng nó thực sự sâu thẳm và đáng sợ.

Sự thống trị của CUDA được xây dựng không chỉ dựa trên chất lượng hệ sinh thái của nó mà còn trên hiệu ứng khóa (lock-in). Vì các khung học máy hiện đại được xây dựng trên CUDA, thứ quan trọng là chạy trên chip của Nvidia, nên chip của AMD hoạt động kém hiệu quả hơn ngay cả khi chúng có nhiều nhân và bộ nhớ hơn. So sánh các chip qua bảng thông số giống như so sánh các xe đua bằng số lượng xi lanh, trong khi hiệu suất thực tế chỉ có thể đo được trên đường đua.

Lời thú nhận thứ hai: Tôi định benchmark hai chip, nhưng không có cách nào để chi phí một Nvidia H100 và một AMD MI300X mà không bị đưa vào danh sách đen của Condé Nast. Thay vào đó, bạn sẽ phải lấy lời của các nhà nghiên cứu độc lập, những người nhận thấy rằng ngay cả khi có thông số kỹ thuật tốt hơn trên giấy tờ, AMD vẫn bị Nvidia vượt mặt.

Lợi thế phần mềm của Nvidia có thể là do, điều bất thường đối với một công ty chip, họ tuyển dụng nhiều kỹ sư phần mềm hơn kỹ sư phần cứng. Nếu tôi điều hành AMD, tôi có thể sẽ làm theo. (Nhưng ai hỏi tôi chứ?)

Mỗi năm, đều có những ứng cử viên mới hy vọng làm cạn hào của Nvidia, chỉ để bị đuối dội trong đó. OpenCL, một tiêu chuẩn mở được hỗ trợ bởi một liên minh bao gồm Apple, AMD và Qualcomm, là một loại Android manqué đối với iOS của CUDA. Nó hầu như không tạo được sức hút.

Trong khi đó, câu trả lời của AMD cho CUDA, ROCm, là một cái tên tệ hơn CUDA—đọc là "rock cum" à? (Quên việc tuyển dụng thêm lập trình viên đi—hãy thuê một nhóm marketing mới). Nó cũng đã bị lỗi và vấn đề tương thích quấy rầy đến mức subreddit của nó đọc giống như một nhóm hỗ trợ.

Đừng quên Intel. Mặc dù dễ dàng gạt bỏ nó như một nhà sản xuất chip thất bại, lịch sử gần đây của nó tiết lộ rằng nó cũng là một công ty phần mềm thất bại. Trong một cơn giãy chết để tìm thấy sự phù hợp, nó đã ra mắt oneAPI, nhưng đến năm 2026, chúng ta biết chắc chắn rằng CUDA vẫn trị vì. Nếu có bất kỳ đối thủ nào, đó là Modular, do Chris Lattner dẫn dắt, nhà thiết kế ngôn ngữ huyền thoại, người trong số những sáng tạo của mình có Swift và LLVM của Apple.

Nhưng bí mật mở là, giống như các nhà vật lý lý thuyết không thể thay lốp xe để cứu mạng mình, hầu hết các nhà nghiên cứu AI không thể viết một dòng C++ nào. Rất ít kỹ sư nhân GPU giỏi trên đời này, và nhiều người trong số họ làm việc cho Nvidia. Rất lâu trước khi các nhà nghiên cứu AI bắt đầu săn lùng sự ảnh hưởng, những kỹ sư này đã chăm chỉ làm việc trên CUDA mà không có lời khen ngợi. Ngay cả các tác nhân lập trình đáng tin cậy vẫn khập khiễng qua code nhân.

Nvidia, cuối cùng, có thể gần gũi với Apple hơn là với AMD hay Intel. Đó là một công ty phần cứng vĩ đại vì nó là một công ty phần mềm. Hào bảo vệ của Apple trước Android chưa bao giờ chỉ là iPhone mà là hệ sinh thái: iOS, App Store và các nhà phát triển của nó. Chắc chắn, bạn có thể gấp đôi một Samsung Galaxy, nhưng bạn có thực sự muốn dùng Samsung Pay không? Trong lúc đó, ngành công nghiệp sẽ phải sống với các mức giá cắt máu của Nvidia.

Đây là phần đầu của loạt bài Machine Readable gồm ba phần về các ngôn ngữ hỗ trợ AI.

CUDA: Hào bảo vệ giúp Nvidia khẳng định vị thế là một công ty phần mềm

Bài viết liên quan