Máy chủ AI Galaxy Blackhole của Tenstorrent chính thức lên kệ: Hiệu năng 23 petaFLOPS với giá 110.000 USD

28 tháng 4, 2026·4 phút đọc

Tenstorrent chính thức phát hành nền tảng tính toán AI Galaxy Blackhole, tích hợp 32 bộ tăng tốc trong một hệ thống 6U nhỏ gọn. Với hiệu năng 23 petaFLOPS và mức giá 110.000 USD, hệ thống này đặt ra thách thức trực tiếp cho các giải pháp đắt đỏ của Nvidia.

Máy chủ AI Galaxy Blackhole của Tenstorrent chính thức lên kệ: Hiệu năng 23 petaFLOPS với giá 110.000 USD

Tenstorrent vào thứ Ba đã chính thức công bố sự sẵn có của nền tảng tính toán AI Galaxy Blackhole, đánh dấu bước tiến mới trong mảng phần cứng trí tuệ nhân tạo.

Mỗi hệ thống 6U của startup này được tích hợp sẵn 32 bộ tăng tốc Blackhole mà chúng tôi đã từng tìm kiếm vào mùa thu năm ngoái. Các chip này được kết nối với nhau trong một lưới Ethernet dày đặc với tổng băng thông lên tới 100 Tbps.

Theo Tenstorrent, mỗi hệ thống Galaxy sở hữu 1 TB bộ nhớ GDDR6, băng thông bộ nhớ 16 TB/s và hiệu năng tính toán đạt 23 petaFLOPS ở định dạng FP8. Tất cả được đóng gói trong một hệ thống có giá chỉ 110.000 USD.

Để dễ hình dung, các hệ thống DGX 8-way của Nvidia, dù có tốc độ nhanh hơn và dung lượng cao hơn, nhưng có giá thành đắt gấp 3 đến 5 lần so với giải pháp của Tenstorrent.

Tuy nhiên, mạng lưới lưới của Tenstorrent không bị giới hạn trong một nút đơn lẻ. Giống như TPU của Google hay các cụm Trainium2 của Amazon, nó có thể được mở rộng để hỗ trợ các mô hình lớn hơn, thông lượng cao hơn hoặc trải nghiệm người dùng tương tác hơn bằng cách thêm nhiều hệ thống và điều chỉnh tỷ lệ song song tensor và pipeline.

Cụm siêu máy tính Galaxy cơ bản (Galaxy Supercluster) có giá 440.000 USD và bao gồm bốn hệ thống Blackhole, nhưng kiến trúc này có thể hỗ trợ lên tới 32 nút với hơn một nghìn chip.

Jasmina Vasiljevic, thành viên cấp cao của Tenstorrent, cho biết ngăn xếp phần mềm đã được cải thiện đáng kể kể từ khi chúng tôi lần đầu tiên trải nghiệm phần cứng. Lúc đó, hỗ trợ mô hình khá hạn chế và những gì chạy được chưa được tối ưu hóa cho phần cứng. Sự không phù hợp này dẫn đến hiệu suất tổng thể kém trong các bài kiểm tra của chúng tôi.

Được biết tình trạng này không còn nữa, và rất nhiều nỗ lực đã được thực hiện không chỉ để chuyển đổi các mô hình mới sang phần cứng mà còn để cải thiện hiệu suất, bất chấp việc thực sự hạ cấp hiệu suất của chip chỉ vài tháng trước.

Ít nhất là với DeepSeek V3, Tenstorrent tuyên bố các cụm siêu máy tính Blackhole Galaxy bốn nút của họ có thể xử lý một prompt 100.000 token — tương đương 166 trang văn bản — trong chưa đầy bốn giây.

Trong khi đó, họ cho biết các hệ thống có thể tạo ra tới 300 token mỗi giây cho mỗi người dùng và họ kỳ vọng sẽ tăng con số này lên 350 thông qua các tinh chỉnh phần mềm trong tương lai gần.

Chúng tôi lưu ý rằng Tenstorrent không chỉ định kích thước lô (batch size) được sử dụng trong các bài kiểm tra này, đây là một chỉ số quan trọng để đánh giá cách hệ thống AI sẽ mở rộng quy mô trong sản xuất. Việc đạt được 350 token mỗi giây cho một người dùng đơn lẻ ít ấn tượng hơn nhiều so với việc mở rộng hiệu suất đó cho 32 hoặc 64 người dùng.

Tenstorrent cho biết họ có thể mở rộng quy mô hiệu quả từ lô 8 lên đến 64 trên nền tảng này, tùy thuộc vào yêu cầu về thông lượng và tính tương tác.

Ngoài các mô hình ngôn ngữ lớn (LLM), Tenstorrent định vị Galaxy Blackhole là nền tảng lý tưởng để tạo video. Trên một cụm siêu máy tính bốn nút, startup này cho biết họ có thể tạo video 720p nhanh hơn thời gian thực.

Vasiljevic cho biết các mô hình tiên phong khác như Kimi K2 của Moonshot AI đang được phát triển, và đội ngũ của cô ấy đã phát triển giao diện lập trình dựa trên Python để viết các hạt nhân (kernel) được tối ưu hóa nhằm liên tục đưa các mô hình mới lên nền tảng.

"90% mô hình từ Hugging Face chỉ cần chạy là hoạt động được trên Tenstorrent," công ty viết trong một thông cáo báo chí. Đây là một tuyên bố lớn và chúng tôi rất mong muốn được kiểm chứng.

Nếu bạn muốn dùng thử trước khi mua, phần cứng của Tenstorrent đang được các nhà cung cấp trung tâm dữ liệu, đồng vị trí và đám mây mới (neocloud) lớn áp dụng, bao gồm Cirrascale, Equinix và ai& của Nhật Bản. Chúng tôi kỳ vọng startup chip này sẽ chia sẻ thêm trong sự kiện TT-Deploy vào ngày 1 tháng 5 tới.

Bài viết được tổng hợp và biên soạn bằng AI từ các nguồn tin tức công nghệ. Nội dung mang tính tham khảo. Xem bài gốc ↗