Cerebras khẳng định chip của họ chạy mô hình AI nghìn tham số nhanh hơn gấp 7 lần so với đám mây GPU

Chỉ một tuần sau khi hoàn thành đợt IPO công nghệ lớn nhất năm 2026, Cerebras Systems đã công bố khả năng chạy mô hình AI Kimi K2.6 với tốc độ gần 1.000 token mỗi giây cho khách hàng doanh nghiệp. Tốc độ này nhanh hơn 6,7 lần so với nhà cung cấp đám mây GPU nhanh nhất tiếp theo, chứng minh hiệu quả vượt trội của kiến trúc chip quy mô wafer trong các tác vụ suy luận AI quy mô lớn.

Chỉ chưa đầy một tuần sau khi hoàn thành đợt IPO công nghệ lớn nhất năm 2026, Cerebras Systems đang đưa ra bước đi quyết liệt nhất nhằm thống trị thị trường suy luận AI đang tăng trưởng nhanh chóng. Vào thứ Hai vừa qua, nhà sản xuất chip có trụ sở tại Sunnyvale đã công bố rằng họ đang vận hành mô hình Kimi K2.6 — một mô hình AI mở với một nghìn tỷ tham số được phát triển bởi Moonshot AI (Bắc Kinh) — cho các khách hàng doanh nghiệp với tốc độ gần 1.000 token mỗi giây, một tốc độ mà chưa nhà cung cấp nào dựa trên GPU có thể tiếp cận được.

Kết quả này, được xác nhận độc lập bởi công ty đo lường hiệu suất Artificial Analysis, đạt mức 981 token đầu ra mỗi giây, giúp Cerebras nhanh hơn 6,7 lần so với nhà cung cấp đám mây dựa trên GPU nhanh nhất tiếp theo và nhanh hơn 23 lần so với mức trung bình. Đối với một yêu cầu lập trình tác tử tiêu chuẩn liên quan đến 10.000 token đầu vào, Cerebras đã cung cấp phản hồi hoàn chỉnh — bao gồm xử lý lệnh, lý luận và 500 token đầu ra — trong vòng 5,6 giây, so với 163,7 giây trên điểm cuối chính thức của Kimi. Đây là mức cải thiện 29 lần về thời gian để có câu trả lời cuối cùng.

"Chúng tôi thực sự muốn làm rõ rằng chúng tôi có thể xử lý các mô hình lớn nhất," James Wang, giám đốc tiếp thị sản phẩm của Cerebras, chia sẻ trong một cuộc phỏng vấn độc quyền với VentureBeat trước thông báo. "Trong trường hợp này là Kimi K2.6 — một mô hình MoE (Mixture-of-Experts) một nghìn tỷ tham số trên kiến trúc quy mô wafer — và nó cũng chạy với tốc độ đáng kinh ngạc mà chúng tôi nổi tiếng."

Thông báo này đánh dấu một điểm uốn quan trọng đối với Cerebras, công ty lâu nay vẫn phải đấu tranh với nhận định rằng các chip quy mô wafer bất thường của họ, dù cực nhanh, nhưng chỉ có thể xử lý các mô hình vừa và nhỏ. Kimi K2.6 là mô hình mở một nghìn tỷ tham số đầu tiên mà công ty từng vận hành trong môi trường sản xuất. Và với vốn hóa thị trường mới đạt 95 tỷ USD cùng 5,55 tỷ USD tiền thu được từ IPO, Cerebras đang gửi tín hiệu đến Phố Wall rằng họ định cạnh tranh không chỉ ở biên giới tốc độ, mà còn ở biên giới quy mô mô hình.

Tại sao Cerebras chọn mô hình do Trung Quốc phát triển làm cờ chủ?

Lựa chọn Kimi K2.6 phản ánh cả một cột mốc kỹ thuật lẫn tính toán thương mại. Được phát hành vào ngày 20/4 bởi Moonshot AI — một công ty tại Bắc Kinh được thành lập năm 2023 bởi các cựu sinh viên Đại học Thanh Hoa và được mệnh danh là một trong những "con hổ AI" của Trung Quốc — K2.6 là mô hình Mixture-of-Experts một nghìn tỷ tham số đã nhanh chóng khẳng định mình là mô hình mở có khả năng hàng đầu cho các tác vụ lập trình và tác tử. Mô hình này đứng đầu bảng xếp hạng SWE-Bench Pro với điểm 58,6, vượt qua Claude Opus 4.6 và ngang bằng với GPT-5.4, đồng thời ghi nhận điểm số dẫn đầu trên các điểm chuẩn tác tử như Humanity's Last Exam và DeepSearchQA. Kiến trúc của nó sử dụng 32 tỷ tham số được kích hoạt cho mỗi token trên tổng số 1 nghìn tỷ, với 384 chuyên gia, trong đó 8 chuyên gia được chọn cộng thêm 1 chuyên gia dùng chung cho mỗi lần chuyển tiếp, hoạt động trong cửa sổ ngữ cảnh 256.000 token.

Về mặt thực tế, K2.6 là một trong những mô hình mở đầu tiên mà các doanh nghiệp có thể sử dụng như một giải pháp thay thế trực tiếp cho các API nguồn đóng đắt đỏ và thường xuyên thiếu hụt dung lượng của Anthropic và OpenAI — đặc biệt là cho các khối lượng công việc lập trình và tác tử đã trở thành ứng dụng có giá trị cao nhất của các mô hình ngôn ngữ lớn (LLM). Bản phát hành 2.6 mở rộng khả năng của K2.6 từ thiết kế giao diện người dùng sang quy trình làm việc full-stack, bao gồm xác thực, hoạt động cơ sở dữ liệu và thực thi tác tử dài hạn.

Ông Wang đã thẳng thắn về động lực thúc đẩy sự quan tâm của doanh nghiệp. "Họ có động lực rất lớn, trước hết, là muốn có một sự thay thế cho Anthropic," ông nói với VentureBeat. "Các mô hình của Anthropic tuyệt vời. Tôi dùng chúng. Tôi chắc là bạn cũng có thể dùng chúng. Nhưng chúng khá đắt đỏ và chúng liên tục bị thiếu hụt dung lượng." Ông còn kể về trải nghiệm cá nhân khi một ứng dụng chạy trên API của Anthropic bị lỗi vào cuối tuần vì hết dung lượng — một câu chuyện mà ông nói đã rất đồng cảm với người mua doanh nghiệp.

Tuy nhiên, khía cạnh địa chính trị của sự sắp xếp này cũng đáng chú ý. Kimi K2.6 là một mô hình do Trung Quốc phát triển nhưng được một nhà sản xuất chip Mỹ phục vụ cho các khách hàng doanh nghiệp Mỹ. Moonshot AI hoạt động từ Bắc Kinh, và việc K2.6 được chấp nhận ở phương Tây diễn ra trong bối cảnh sự giám sát đối với các công ty AI Trung Quốc tại thị trường Mỹ đang ngày càng tăng cao. Những người mua doanh nghiệp có yêu cầu tuân thủ nghiêm ngặt — đặc biệt là trong dịch vụ tài chính, y tế và quốc phòng — sẽ cần đánh giá khía cạnh này cùng với các khả năng kỹ thuật của mô hình.

Chip quy mô wafer giải quyết bài toán tốc độ nghìn tham số mà GPU không thể

Để hiểu tại sao Cerebras có thể đạt được những tốc độ này, cần hiểu điều gì khiến phần cứng của họ khác biệt cơ bản so với bất kỳ thứ gì khác trên thị trường. Hầu hết suy luận AI hiện nay chạy trên các cụm GPU của Nvidia — thường được tổ chức trong các giá trị 72 GPU, cấu hình mà Nvidia tiếp thị là NVL72. Trong các thiết lập này, các tham số của mô hình được phân phối trên nhiều chip rời rạc được kết nối bởi cơ chế mạng băng thông cao. Dữ liệu phải liên tục di chuyển giữa các chip, và băng thông kết nối giữa các GPU trở thành nút thắt cổ chai, đặc biệt đối với các mô hình lớn với hàng trăm tỷ hoặc nghìn tỷ tham số.

Cerebras tiếp cận vấn đề một cách hoàn toàn khác biệt. Wafer-Scale Engine 3 của họ là một chip duy nhất có kích thước bằng cả một tấm wafer silicon — to bằng một đĩa ăn tối — chứa 44 gigabyte bộ nhớ SRAM trên chip. Khác với bộ nhớ băng thông cao (HBM) được sử dụng trong GPU, SRAM nằm trực tiếp trên đế bộ vi xử lý, cung cấp độ trễ thấp hơn đáng kể và băng thông cao hơn để truy cập dữ liệu. Đối với Kimi K2.6, Cerebras lưu trữ các trọng số của mô hình ở độ chính xác gốc 4-bit trong khi thực hiện tính toán ở dấu chấm động 16-bit. Các trọng số được phân phối trên nhiều wafer trong một cụm khoảng 20 hệ thống CS-3, với các kích hoạt được truyền trực tiếp giữa chúng. Quan trọng nhất, tất cả các chuyên gia cho một lớp MoE nhất định đều được đặt trên cùng một wafer, nghĩa là giao tiếp all-to-all cần thiết cho định tuyến chuyên gia diễn ra ở tốc độ SRAM. Theo mô tả kỹ thuật của Cerebras, cơ chế mạng trên wafer cung cấp băng thông cao hơn 200 lần so với NVLink trên NVL72.

Ông Wang giải thích kiến trúc này bằng một phép so sánh. "Các đơn vị duy nhất của chúng tôi lớn hơn và có dung lượng cao hơn nhiều — chúng tương đương khoảng 20 giá trị, so với 72 GPU," ông nói. Mỗi lớp trong bộ biến đổi có thể, hiệu quả, phục vụ một người dùng riêng biệt cùng lúc. "Chúng giống như một hàng đợi, giống như bạn đang xếp hàng để mua bánh bagel hay gì đó — chúng chiếm các phần khác nhau của phần cứng. Nhưng vì chúng di chuyển qua rất nhanh, trải nghiệm thực tế, số token mỗi giây, với người dùng đơn lẻ ở phía bạn, vẫn là những gì bạn quen." Kết hợp với các nhân tùy chỉnh và giải mã suy đoán, điều này cho phép Cerebras phục vụ mô hình MoE nghìn tỷ tham số với tốc độ gần 1.000 token mỗi giây — một tốc độ mà công ty gọi là kỷ lục thế giới chỉ có thể đạt được với phần cứng quy mô wafer.

Các công ty Fortune 500 đã thử nghiệm suy luận nghìn tỷ tham số của Cerebras

Cerebras không mở K2.6 cho công chúng rộng rãi. Thay vào đó, công ty định vị đây là một dịch vụ ưu tiên doanh nghiệp trước, với các công ty Fortune 500 trong lĩnh vực phần mềm, dịch vụ tài chính và y tế hiện đang chạy thử nghiệm khối lượng công việc sản xuất của họ trên nền tảng này. "Đó là những thương hiệu mà bạn chắc chắn đã nghe đến," ông Wang nói, mặc dù ông từ chối nêu tên khách hàng cụ thể do các thỏa thuận bảo mật.

Cách tiếp cận ưu tiên doanh nghiệp này là có chủ đích. Cerebras lịch sử luôn ưu tiên các khách hàng lớn nhất của mình hơn là API hướng tới người tiêu dùng, một phần do hạn chế về dung lượng phần cứng. "Mọi người đều đang trong tình trạng khan hiếm dung lượng. Chúng tôi ưu tiên khách hàng doanh nghiệp nên chúng tôi không hiển thị nó trong cổng API hướng tới người tiêu dùng, nơi lưu lượng truy cập rất khó dự đoán và một người dùng đơn lẻ có thể chiếm luôn cả cụm của bạn," ông Wang giải thích. Việc phục vụ K2.6 cũng hạn chế khả năng của công ty trong việc đồng thời cung cấp các mô hình lớn khác. "Chúng tôi không thể đồng thời có sáu mô hình khác," ông thừa nhận. "Đó chỉ là một ràng buộc thực tế."

Về giá cả, ông Wang cho rằng mặc dù việc triển khai doanh nghiệp không có giá niêm yết công khai, chi phí của công ty nói chung cạnh tranh với các nhà cung cấp dựa trên GPU. "Với tất cả các mô hình chúng tôi phục vụ có giá cả, mức giá rất tương đương — có lẽ ở mức trung bình, loại tầm trung-trên của giá GPU," ông nói. "Không phải vì chúng tôi chạy nhanh nên nó tốn gấp nhiều lần." Tuy nhiên, ông vạch ra ranh giới ở phân khúc thấp nhất của thị trường: nếu bạn sẵn sàng chạy K2.6 ở tốc độ 20 token mỗi giây trên hạ tầng GPU giá rẻ, Cerebras sẽ không cố gắng cạnh tranh về giá. "Chúng tôi giống như một hãng xe hơi ở phân khúc xe bán tải. Chúng tôi không làm thị trường đó," ông Wang nói. Đối với các khối lượng công việc nhạy cảm về tốc độ — đặc biệt là lập trình tác tử, nơi các nhà phát triển chờ đợi theo thời gian thực để mô hình tạo và lặp lại mã — giá trị đề xuất rất rõ ràng: chi phí trên mỗi token tương đương, nhưng tốc độ giao hàng nhanh hơn một cấp độ.

Mối đe dọa cạnh tranh từ thương vụ mua lại Groq trị giá 20 tỷ USD của Nvidia

Thông báo của Cerebras đến vào một thời điểm then chốt của ngành công nghiệp chip AI, khi thị trường suy luận đang nhanh chóng vượt qua đào tạo để trở thành khối lượng công việc tính toán quan trọng nhất về mặt thương mại. Khi các tác tử AI lan rộng trong phần mềm doanh nghiệp, tốc độ suy luận quyết định trực tiếp mức độ hữu ích của các tác tử đó trong thực tế — và áp lực cạnh tranh đang tăng lên accordingly.

Sự phát triển cạnh tranh đáng kể nhất trong những tháng gần đây là thương vụ mua lại Groq trị giá 20 tỷ USD của Nvidia, một giao dịch mang lại cho gã khổng lồ GPU quyền truy cập vào công nghệ suy luận độc quyền được xây dựng xung quanh các Đơn vị Xử lý Ngôn ngữ (LPU) chuyên biệt. Ông Wang đề cập trực tiếp đến thương vụ này. "Tôi nghĩ Nvidia hiện nay cảm thấy suy luận nhanh là một thị trường cực kỳ quan trọng," ông nói với VentureBeat. "Đó là lý do họ sẵn sàng chi 20 tỷ USD để mua lại một công ty như vậy."

Tuy nhiên, ông Wang bày tỏ sự tự tin rằng lợi thế kiến trúc của Cerebras là bền vững. Cả Nvidia và Cerebras đều hoạt động theo chu kỳ làm mới phần cứng khoảng một năm. "Chúng tôi làm mới phần cứng theo chu kỳ định kỳ. Bạn sẽ sớm nghe thấy một số tin tức về điều đó từ chúng tôi," ông Wang nói, gợi ý về một thông báo phần cứng sắp tới mà không cung cấp chi tiết. Về mặt phần mềm, ông Wang chỉ ra lịch sử của công ty trong việc nhanh chóng thích nghi với hệ sinh thái mô hình mở đang phát triển nhanh. "Chúng tôi bắt đầu với Llama, hỗ trợ tất cả các mô hình Qwen, sau đó khi các nhà phát triển nói với chúng tôi rằng họ muốn GLM, chúng tôi đưa GLM lên mạng. Và bây giờ họ nói Kimi là tốt nhất — vì vậy chúng tôi cung cấp cho họ Kimi," ông nói. "Đồng thời, chúng tôi cũng hỗ trợ các công ty tốt nhất trong việc chạy các mô hình đóng của họ — OpenAI, Cognition, Mistral."

Việc đề cập đến OpenAI làm nổi bật một trong những mối quan hệ kinh doanh kỳ lạ nhất trong ngành AI. OpenAI và Cerebras đã ký một thỏa thuận vào đầu năm 2026 được cho là trị giá hơn 20 tỷ USD cho dung lượng tính toán và các dịch vụ liên quan. Ông Wang xác nhận rằng Cerebras phục vụ "các mô hình lập trình nội bộ sắp ra mắt" của OpenAI nhưng từ chối tiết lộ chi tiết, vì neither party has publicly detailed the technical arrangement.

Kế hoạch của Cerebras trong việc phục vụ các mô hình AI thông minh nhất với tốc độ nhanh nhất

Ông Wang coi việc triển khai K2.6 là một bước đệm, không phải là đích đến. Cerebras bắt đầu phục vụ suy luận vào cuối năm 2024 với các mô hình tương đối nhỏ và đã spent hơn một năm để mở rộng quy mô từ 70 tỷ tham số lên hơn 1 nghìn tỷ. "Chúng tôi không thể tung ra điều đó vào tháng 11 năm 2024," ông nói. "Nhưng bây giờ chúng tôi đã ở đó."

Thách thức tiếp theo của công ty là chuyển từ việc phục vụ mô hình biên giới mở tốt nhất sang việc phục vụ các mô hình biên giới tốt nhất nói chung — bao gồm cả các mô hình nguồn đóng từ những cái tên như Anthropic và OpenAI đang ngồi ở vị trí cao nhất trên bảng xếp hạng thông minh. "Đây là mô hình biên giới mở đầu tiên mà chúng tôi hiện có bằng chứng rõ ràng," ông Wang nói. "Tôi nghĩ trong suốt năm nay, bạn sẽ thấy chúng tôi phục vụ các mô hình biên giới thực sự, ở biên giới với tốc độ mà chúng tôi nổi tiếng. Và bạn nên giữ chúng tôi đúng lời hứa đó."

Khi được hỏi liệu việc triển khai hiện tại có bị vượt qua bởi nhịp độ cải tiến phần cứng của Nvidia và những người khác hay không, ông Wang vẫn bình thản. "Nvidia có lộ trình rất rõ ràng. Họ công bố mỗi năm tại GTC. Họ gần như ở chu kỳ sản phẩm hàng năm, và chúng tôi cũng vậy. Bạn sẽ sớm nghe thấy một số tin tức về điều đó từ chúng tôi," ông nói, gợi ý về phần cứng mới mà không đưa ra chi tiết.

Ông cũng giải quyết câu hỏi về sự phụ thuộc vào nhà cung cấp — một mối lo ngại mà bất kỳ CTO nào đang đánh giá nhà cung cấp suy luận đơn lẻ đều sẽ nêu ra. "Các doanh nghiệp này hiếm khi cam kết hoàn toàn cho một nhà cung cấp," ông Wang nói. "Họ có chiến lược để đảm bảo một phần lưu lượng có thể đến với chúng tôi, một phần đến với người khác, và có cân bằng tải giữa hai bên. Đây không phải là vấn đề mới. Đây đơn giản là cách bạn quản lý tài nguyên đám mây."

Về cơ bản, bài toán bán hàng không chỉ là về tốc độ và thông số kỹ thuật. Ông Wang thấy ngành AI đang hội tụ về một thế giới nơi các tác tử tự chủ — không phải các nhà phát triển con người — là người tiêu dùng chính của tính toán suy luận, và tốc độ của các tác tử đó quyết định kết quả cạnh tranh cho các công ty triển khai chúng. "Nền kinh tế thế giới đang được tái thiết trên các tác tử," ông Wang nói. "Tốc độ sẽ quyết định người thắng kẻ thua."

Đó là một tuyên bố táo bạo từ một công ty mà cho đến tuần trước chưa từng giao dịch trên một sàn giao dịch công cộng. Nhưng đối với Cerebras, logic rất đơn giản: nếu tương lai của phần mềm doanh nghiệp được xây dựng bởi các tác tử AI suy nghĩ với tốc độ của phần cứng của chúng, thì công ty cung cấp phần cứng nhanh nhất sẽ cung cấp tư duy nhanh nhất. Và trong một thị trường mà các doanh nghiệp đang chi hàng tỷ USD để cắt giảm vài giây thời gian phản hồi AI, một công ty có thể phục vụ mô hình nghìn tỷ tham số trong thời gian rót một cốc cà phê có thể vừa có bài toán thuyết phục nhất ở Thung lũng Silicon.