Cuộc tìm kiếm sức mạnh tính toán AI: Liệu SambaNova có phải "Cerebras" tiếp theo?

General Compute, một startup neocloud chuyên về suy luận AI, vừa huy động 15 triệu USD để đặt cược vào chip của SambaNova như một giải pháp thay thế tiềm năng cho GPU. Công ty tin rằng kiến trúc chip mới này sẽ mang lại tốc độ xử lý vượt trội và dễ dàng triển khai hơn tại các trung tâm dữ liệu hiện có.

Nhu cầu khổng lồ đối với máy tính để chạy các mô hình AI tiếp tục gia tăng, nhưng ngành công nghiệp này đang đối mặt với hai rào cản lớn: tìm kiếm đúng loại chip và đưa chúng vào các trung tâm dữ liệu để bắt đầu tạo ra doanh thu. General Compute, một neocloud (đám mây tính toán) mới chuyên về suy luận AI — giai đoạn khi các mô hình đang chạy và phản hồi người dùng thay vì được huấn luyện — đã đưa ra những câu trả lời cho những thách thức này, đồng thời hé lộ hướng đi của hệ sinh thái AI.

Những câu trả lời này đã giúp công ty huy động thành công vòng hạt giống (seed round) trị giá 15 triệu USD với định giá sau vòng gọi vốn là 60 triệu USD, dẫn dắt bởi FUSE VC với sự tham gia của Carya Venture Partners và Village Global Ventures.

Vấn đề về chip: GPU không phải là tất cả

Câu hỏi đầu tiên là: Chip nào là phù hợp nhất? Nhu cầu đối với GPU đã tăng vọt, nhưng ngày càng có nhiều ý kiến cho rằng chúng không phải là loại chip tối ưu nhất để chạy các mô hình AI sau khi đã được huấn luyện xong. Giai đoạn suy luận (inference) của AI — khi mô hình chủ động tạo ra phản hồi — có các yêu cầu tính toán khác biệt so với huấn luyện, và một lớp chip mới đang được thiết kế riêng cho mục đích này. Thương vụ trị giá 20 tỷ USD của Nvidia đối với Groq vào tháng 12 và đợt IPO trị giá 57 tỷ USD của Cerebras vào tuần trước là những minh chứng rõ ràng cho xu hướng này.

Tuy nhiên, khi công suất của cả hai công ty trên đều bị quá tải, các đồng sáng lập của General Compute, CEO Finn Puklowski và CTO Jason Goodison, đã tìm thấy một lựa chọn khác. Họ chuyển sang sử dụng các chip chuyên dụng do SambaNova sản xuất — một nhà sản xuất chip được Intel hậu thuẫn, tập trung vào suy luận nhưng đã phần nào mất đi sự chú ý tại Thung lũng Silicon gần đây.

Đặt cược vào SambaNova

Điều này có thể thay đổi khi SambaNova phát hành các chip mới trong năm nay. Kiến trúc của linh kiện này linh hoạt hơn và sử dụng nhiều bộ nhớ hơn để lưu trữ ngữ cảnh trong quá trình tính toán suy luận. SambaNova khẳng định chip của họ không chỉ vượt trội hơn GPU mà còn cả các chip chuyên dụng khác như của Groq hay Cerebras. Ông Puklowski cho biết các chip mới sẽ tạo ra từ 600 đến 700 token mỗi giây, so với khoảng 250 token mỗi giây của GPU.

General Compute đã đặt hàng chip SN50 trị giá 300 triệu USD của công ty này và khẳng định họ sẽ là neocloud đầu tiên triển khai chúng.

Giải quyết bài toán hạ tầng

Những con chip này cũng giúp General Compute giải quyết vấn đề lớn thứ hai — đó là nơi đặt chúng. Chúng sử dụng tản nhiệt bằng khí (air-cooled) thay vì tản nhiệt bằng nước, và tiêu thụ ít điện năng hơn, do đó có thể được lắp đặt tại các cơ sở trung tâm dữ liệu hiện có mà không cần đầu tư hạ tầng mới.

Ông Puklowski đang theo đuổi các thỏa thuận đồng địa đặt (colocation) — nơi General Compute lắp đặt phần cứng của mình trong cơ sở của người khác — không chỉ với các nhà cung cấp trung tâm dữ liệu mà còn cả với những người đào tiền ảo (crypto miners) đang muốn tái sử dụng hạ tầng của mình, khi chi phí khai thác một bitcoin thường vượt quá giá trị của nó.

General Compute đã ra mắt dịch vụ đám mây của mình vào tuần trước, tuyên bố đây là nền tảng nhanh nhất hiện nay để chạy MiniMax 2.7, một mô hình ngôn ngữ mã nguồn mở (LLM) mạnh mẽ.

Tầm nhìn của các nhà đầu tư

Joe Hasselmann, một nhà đầu tư mạo hiểm đã tham gia vào làn sóng suy luận từ sớm khi đầu tư vào Groq vào năm 2021, cho biết ông thấy sự tương đồng trong mối quan hệ đối tác giữa SambaNova và General Compute với mối quan hệ giữa Coreweave và Nvidia — cũng như sự kết hợp giữa sản xuất chip của Groq với dịch vụ đám mây trước đây của họ.

"Họ cần một sự pha trộn lành mạnh giữa các khách hàng sẽ đặt chip của họ vào những môi trường có tốc độ tăng trưởng cao," Hasselmann nói. "Bao nhiêu nữa General Compute đang đặt cược vào SambaNova, thì SambaNova cũng đang đặt cược vào General Compute như vậy."

Tốc độ là chìa khóa của tương lai

Câu hỏi đặt ra là kiến trúc máy tính nào sẽ nắm bắt được nhiều giá trị nhất trong tương lai của AI. Các đám mây suy luận là những cược ngầm vào một thế giới với nhiều mô hình và tác nhân (agents) khác nhau, nơi không có nhà cung cấp nào thống trị hoàn toàn, và tốc độ cùng chi phí suy luận trở thành những biến số cạnh tranh then chốt. Hãy xem xét vòng Series B trị giá 113 triệu USD mà OpenRouter huy động được trong tuần này, phản ánh khả năng của công ty này trong việc cung cấp cho khách hàng quyền truy cập vào nhiều mô hình để tối ưu hóa chi phí token.

Tốc độ quan trọng trong tính toán này, cả về giá cả lẫn khả năng. Ông Puklowski muốn biến khối lượng công việc kéo dài một giờ của các tác nhân lập trình (coding agents) thành nhiệm vụ chỉ mất năm hay mười phút, và làm cho các tác nhân âm thanh cho dịch vụ khách hàng — vốn yêu cầu suy luận nhanh hơn để trò chuyện hiệu quả — trở nên kinh tế hơn.

"Nếu bạn sử dụng ChatGPT và nó cung cấp cho bạn 50 token mỗi giây, điều đó vẫn nhanh hơn nhiều so với tốc độ chúng ta đọc," ông Puklowski chia sẻ với TechCrunch. "Nhưng giờ đây khi mọi thứ đã chuyển sang giao tiếp giữa tác nhân với tác nhân (agent-to-agent), nơi các tác nhân đọc thay chúng ta hoặc truy vấn cơ sở dữ liệu, chúng cần phải nhanh hơn."

Cuộc tìm kiếm sức mạnh tính toán AI: Liệu SambaNova có phải "Cerebras" tiếp theo?

Bài viết liên quan