Cerebras: Startup mạo hiểm với chip AI kích thước đĩa ăn, giờ trị giá 66 tỷ USD

Cerebras Systems vừa thực hiện đợt IPO thành công rực rỡ, định giá hơn 66 tỷ USD nhờ công nghệ chip kích thước tấm wafer độc đáo. Bài viết khám phá hành trình hơn một thập kỷ của hãng, từ những con chip "tấm đĩa ăn" đến việc trở thành đối thủ nặng ký của Nvidia trong lĩnh vực tăng tốc AI và suy luận (inference).

Cerebras Systems đã làm được điều mà nhiều startup sản xuất chip khao khát nhưng ít nơi đạt được. Vào thứ Năm vừa qua, công ty này — đối thủ lâu năm của Nvidia — đã huy động được 5,55 tỷ USD thông qua đợt phát hành cổ phiếu lần đầu ra công chúng (IPO), giúp định giá công ty vượt mốc 66 tỷ USD ngay trong ngày giao dịch đầu tiên.

Cột mốc này không đến trong một sớm một chiều. Nó mất hơn một thập kỷ, một cách tiếp cận hoàn toàn khác biệt đối với sản xuất chip và hai lần nỗ lực IPO để hoàn thành.

Cú đánh cược định hình nên Cerebras

Được thành lập vào năm 2015 bởi Andrew Feldman — cựu giám đốc SeaMicro, những con chip đầu tiên của Cerebras Systems trông không giống GPU hay bộ tăng tốc AI nào của thời điểm đó.

Vào thời điểm đó, hầu hết các GPU cao cấp đều sử dụng các die (vi mạch) có kích thước khoảng 800 mm vuông được cắt từ một tấm wafer lớn hơn. Tám hoặc nhiều GPU như vậy thường được nối với nhau bằng các kết nối tốc độ cao như NVLink, cho phép chúng gộp tài nguyên và hoạt động như một bộ tăng tốc khổng lồ.

Thay vì cắt nhỏ một tấm wafer thành các con chip chỉ để nối chúng lại với nhau, Cerebras tự hỏi: Tại sao không khắc toàn bộ sức mạnh tính toán đó vào một con chip có kích thước bằng cả tấm wafer? Và thế là Wafer-Scale Engine (WSE) ra đời — một con chip khổng lồ đo 46.225 mm vuông, to bằng một chiếc đĩa ăn.

Những con chip đầu tiên của Cerebras không chỉ lớn hơn; chúng được chế tạo chuyên biệt cho việc huấn luyện AI và sở hữu một động cơ tính toán mới được thiết kế để tăng tốc các phép toán nhân- cộng ma trận thưa thớt (sparse matrix multiply-accumulate) phổ biến trong học sâu (deep learning).

Tính thưa thớt phần cứng này tận dụng thực tế rằng một phần lớn các tham số của mạng nơ-ron cuối cùng trở thành số 0, cho phép Cerebras tăng hiệu quả tính toán thực tế của bộ tăng tốc WSE thế hệ đầu tiên từ 2,65 petaFLOPS (16-bit) lên 26,5 petaFLOPS.

Nvidia đã thêm hỗ trợ tính thưa thớt trong thế hệ Ampere một năm sau đó, nhưng nó chỉ hoạt động ở tỷ lệ cụ thể (2:4), giới hạn hiệu quả chỉ trong một số trường hợp sử dụng nhất định.

Để huấn luyện một mô hình, tối đa 16 con chip như vậy có thể được kết nối lại với nhau qua kết nối tốc độ cao. Điều này cũng khá quan trọng, bởi vì khác với GPU lưu trữ trọng số mô hình trong bộ nhớ HBM hoặc GDDR, chip của Cerebras gần như phụ thuộc hoàn toàn vào bộ nhớ SRAM trên chip. Mặc dù SRAM cực kỳ nhanh — đó là lý do nó được dùng làm bộ nhớ đệm trong hầu hết mọi bộ vi xử lý hiện đại — nhưng nó không thực sự hiệu quả về mặt không gian.

Mặc dù bộ tăng tốc quy mô wafer đầu tiên của Cerebras về mặt lý thuyết có thể đạt băng thông bộ nhớ 9 petabyte/giây, nhưng nó bị giới hạn chỉ ở 18 GB dung lượng vào thời điểm mà Nvidia đã đạt 32 GB cho mỗi GPU và chuẩn bị bước lên mức 40 GB hoặc thậm chí 80 GB cho mỗi chip.

Tuy nhiên, cách tiếp cận này đủ hiệu suất để đối với bộ tăng tốc quy mô wafer thế hệ thứ hai ra mắt năm 2021, Cerebras đã tiếp tục kiên định với kiến trúc này.

Sự tiến hóa của WSE và sự trỗi dậy của Inference

Mặc dù WSE-2 không lớn hơn về mặt vật lý, việc chuyển sang quy trình công nghệ 7nm của TSMC đã cho phép công ty tăng gấp đôi số lượng transistor, mật độ tính toán, dung lượng SRAM và băng thông.

Các con chip này cũng hỗ trợ các cụm (cluster) lớn hơn, mở rộng quy mô lên tới 192 hệ thống, dù trên thực tế các cụm này thường nhỏ hơn, từ 16 đến 32 hệ thống mỗi địa điểm.

Cũng vào khoảng thời gian này, Cerebras đã thu hút sự chú ý của nhà cung cấp đám mây có trụ sở tại Các Tiểu vương quốc Ả Rập Thống nhất (UAE) là G42, người nhanh chóng trở thành nhà tài chính lớn nhất của họ. Đến giữa năm 2023, startup sản xuất chip này đã nhận được đơn hàng trị giá 900 triệu USD cho chín địa điểm siêu máy tính với tổng sức mạnh tính toán 36 exaFLOPS cho các tác vụ AI siêu thưa thớt.

Một năm sau, Cerebras chuyển sang quy trình 5nm của TSMC với WSE-3. Mặc dù bộ nhớ và băng thông chỉ tăng khiêm tốn, sức mạnh tính toán một lần nữa lại tăng gấp đôi, hiện đạt hơn 125 petaFLOPS tính toán thưa thớt (12,5 petaFLOPS dày đặc) ở độ chính xác 16-bit.

Hệ thống CS-3 của Cerebras hiện đã thấy sự triển khai lớn nhất và cung cấp năng lực cho phần lớn cụm Condor Galaxy mà họ xây dựng cho G42, cũng như một số địa điểm mới ở Bắc Mỹ và Châu Âu.

Đến giữa năm 2024, trọng tâm chính của Cerebras là huấn luyện (training), nhưng sau đó công ty đã công bố một dịch vụ suy luận-as-a-service (inference-as-a-service) cao cấp để cạnh tranh với các startup chip khác như Groq và SambaNova.

Thực tế cho thấy, dung lượng SRAM khổng lồ của các bộ tăng tốc AI mới nhất của Cerebras không chỉ biến chúng thành những bộ tăng tốc huấn luyện mạnh mẽ mà còn cực kỳ phù hợp cho việc suy luận LLM tốc độ cao.

Trong lần lặp lại thứ ba, các bộ tăng tốc quy mô wafer của Cerebras sở hữu băng thông bộ nhớ nhiều hơn mức chúng có thể sử dụng thực tế. Với tốc độ 21 PB/giây, bộ nhớ của chip này nhanh hơn gần 1000 lần so với GPU Rubin mới của Nvidia.

Điều này, kết hợp với một chút giải mã suy đoán (speculative decoding), đã cho phép Cerebras tạo ra token nhanh hơn nhiều so với bất kỳ hệ thống dựa trên GPU nào thời bấy giờ. Ngay cả ngày nay, Cerebras vẫn thường xuyên nằm trong số các nhà cung cấp dịch vụ suy luận nhanh nhất thế giới.

Theo Artificial Analysis, thiết bị của Cerebras có thể tạo ra hơn 2.200 token mỗi giây khi chạy GPT-OSS 120B High, nhanh hơn 2,8 lần so với đám mây GPU khép kín tiếp theo là Fireworks.

Cerebras đã không biết điều này vào thời điểm đó, nhưng nền tảng suy luận của họ sẽ trở thành một mảng kinh doanh lớn hơn nhiều so với bất kỳ ai mong đợi. Vào tháng 9 năm 2024, công ty đã nộp đơn S-1 cho Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC) để đưa công ty lên sàn niêm yết. Gần đúng một năm sau, Feldman đã âm thầm rút lại đơn S-1, trì hoãn IPO.

Lý do là gì? Bản nộp đơn S-1 ban đầu của công ty khá đáng lo ngại khi cho thấy G42 chiếm 87% doanh thu. Nhưng trong năm kể từ khi ra mắt nền tảng suy luận, Cerebras đã ghi nhận nhiều chiến thắng với những khách hàng tên tuổi lớn như Alphasense, AWS, Cognition, Meta, Mistral AI, Notion và Perplexity.

Feldman giải thích rằng bản S-1 ban đầu chưa thể hiện kết quả tài chính của sự tăng trưởng này. Công ty tin rằng họ sẽ có một câu chuyện thuyết phục hơn để kể cho các nhà đầu tư sau này.

Nền tảng suy luận của Cerebras chỉ tiếp tục phát triển kể từ đó. Công ty đã mở rộng quy mô một cách ổn định trong khi công bố mối quan hệ sâu sắc hơn với AWS và bổ sung OpenAI làm khách hàng.

Vào thứ Năm vừa qua, startup này chính thức gia nhập NASDAQ dưới mã chứng khoán CBRS, huy động được 5,5 tỷ USD trong quá trình này. Cổ phiếu đã tăng vọt gần 70% trong ngày giao dịch đầu tiên, khi các nhà đầu tư đổ tiền vào một cách thức mới để tận dụng bùng nổ AI.

Tương lai của Cerebras

Về mặt kỹ thuật, Cerebras đã đến lúc cần làm mới.

Các bộ tăng tốc WSE-3 đã giúp công ty vượt qua vạch đích IPO đang bắt đầu có tuổi và lợi thế kiến trúc mà thiết kế nhiều SRAM mang lại đang bị thu hẹp lại.

Việc Nvidia mua lại Groq đã mang lại cho đối thủ lâu năm của Feldman một nền tảng suy luận đầy ắp SRAM của riêng họ, trong khi những người khác đang chạy đua để bắt kịp.

Từ đây, chúng ta chỉ có thể suy đoán, nhưng chúng ta có thể đoán rằng các cổ đông mới của Cerebras sẽ muốn thấy những con chip mới sớm hơn là muộn.

Dựa trên lộ trình hiện có, chúng tôi mong đợi WSE-4 sẽ mang lại bước nhảy vọt lớn về hiệu suất dấu chấm động (floating point), mặc dù không nhất thiết ở độ chính xác 16-bit. Phần lớn ngành công nghiệp đã thống nhất xung quanh các kiểu dữ liệu độ chính xác thấp hơn như FP8 và FP4. Một exaFLOP tính toán FP4 siêu thưa thớt sẽ không làm chúng ta ngạc nhiên chút nào.

Việc tính thưa thớt thực sự hữu ích như thế nào cho suy luận LLM là một câu chuyện khác. Suy luận LLM về mặt lịch sử không được hưởng lợi nhiều từ tính thưa thớt, nhưng điều đó chưa bao giờ ngăn các nhà sản xuất chip quảng cáo FLOPS thưa thớt.

Chúng tôi cũng mong đợi thấy Cerebras nhồi nhét nhiều SRAM hơn vào nền tảng tính toán quy mô wafer tiếp theo, có thể sử dụng công nghệ xếp chồng chip 3D của TSMC để làm điều này. Dung lượng SRAM 44GB của WSE-3 vẫn là một yếu tố hạn chế đối với các mô hình mà nó có thể phục vụ hiệu quả.

Một mô hình có một nghìn tỷ tham số như Kimi K2 sẽ yêu cầu từ 12 đến 48 bộ tăng tốc WSE-3 của Cerebras, tùy thuộc vào cách lưu trữ trọng số mô hình và bao nhiêu tham số đã được cắt tỉa. Do đó, bất kỳ sự tăng nào về dung lượng SRAM cũng sẽ góp phần lớn vào việc cải thiện hiệu quả của các bộ tăng tốc này.

Bên cạnh những con chip mới, chúng ta cũng có thể mong đợi thấy nhiều sự hợp tác hơn giống như liên kết của Cerebras với AWS.

Đầu năm nay, AWS đã công bố họ sẽ kết hợp các bộ tăng tốc AI Trainium3 của mình với hệ thống dựa trên WSE-3 của Cerebras để tăng tốc nền tảng suy luận theo cách tương tự như Nvidia đang làm với các bộ tăng tốc của Groq.

Cerebras chắc chắn có thể làm điều tương tự với AMD hoặc bất kỳ nhà sản xuất chip nào khác. Theo nghĩa này, Cerebras có vị thế để cung cấp chip của mình như một bộ tăng tốc giải mã (decode accelerator), chuyển các phần tốn băng thông của đường ống suy luận sang chip của họ, trong khi các phần khác xử lý khâu xử lý lời nhắc (prompt processing) tốn nhiều tính toán.

Tuy nhiên, dù Cerebras định hình sự hợp tác tiếp theo của mình như thế nào, các cổ đông của họ sẽ kỳ vọng sự tăng trưởng. Và như câu nói cũ, kẻ thù của kẻ thù là bạn.

Cerebras: Startup mạo hiểm với chip AI kích thước đĩa ăn, giờ trị giá 66 tỷ USD

Cú đánh cược định hình nên Cerebras

Sự tiến hóa của WSE và sự trỗi dậy của Inference

Tương lai của Cerebras

Bài viết liên quan