Intel Crescent Island: GPU dữ liệu bí ẩn kế thừa ý tưởng bỏ hoang của Nvidia

Tại Computex 2026, Intel đã hé lộ thêm về GPU trung tâm dữ liệu Crescent Island sử dụng bộ nhớ LPDDR5x giá rẻ. Sản phẩm này được kỳ vọng sẽ lấp đầy khoảng trống của Nvidia Rubin CPX đã bị hủy bỏ, tập trung vào giai đoạn tiền xử lý (prefill) trong các mô hình AI.

Tại Computex 2026, Intel đã cung cấp cái nhìn sâu sắc hơn về GPU trung tâm dữ liệu thế hệ tiếp theo mang tên mã Crescent Island. Bên cạnh việc hỗ trợ các triển khai AI doanh nghiệp, GPU này có thể sẽ lấp đầy khoảng trống mà các GPU Rubin CPX của Nvidia để lại, vốn dĩ đã bị gác lại vào cuối năm ngoái sau khi Nvidia mua lại Groq.

Intel Crescent Island GPU

Một thiết kế "kỳ lạ" của Intel

Xét về các GPU trung tâm dữ liệu hiện nay, Crescent Island của Intel thực sự là một trường hợp khá lạ lẫm. Nó sẽ được bán dưới dạng thẻ PCIe trong khi hầu hết các GPU cao cấp hiện nay đều sử dụng thiết kế socket (lắp trực tiếp). Đáng chú ý hơn, nó sẽ không sử dụng bộ nhớ HBM hay thậm chí là GDDR.

Thay vào đó, Intel đã chọn giải pháp bộ nhớ LPDDR5x — loại bộ nhớ thường được dùng trong các laptop và smartphone cao cấp — với dung lượng khá lớn. Crescent Island sẽ được cung cấp với tối đa 480 GB bộ nhớ, con số vượt xa so với các GPU flagship của Nvidia hiện tại (vốn chỉ dừng ở mức 288 GB).

Chi phí cho loại bộ nhớ này cũng rẻ hơn nhiều so với HBM hoặc GDDR, điều này giúp giữ giá thành sản phẩm ở mức hợp lý bất chấp tình trạng chuỗi cung ứng bán dẫn toàn cầu đang khiến giá bộ nhớ tăng vọt hơn 3 lần kể từ năm ngoái.

Tuy nhiên, điểm yếu của LPDDR5x là tốc độ. Intel chưa chia sẻ con số băng thông cụ thể, nhưng giả sử với bus bộ nhớ rộng 1024-bit, chúng ta đang nhìn vào mức khoảng 1,2 TB/s. Để so sánh, các GPU mới nhất của Nvidia và AMD đang đạt mức băng thông lên tới 20 TB/s.

Tại sao lại dùng bộ nhớ chậm?

Tốc độ GPU xử lý token thường phụ thuộc lớn vào tốc độ bộ nhớ, khiến băng thông trở thành nút thắt cổ chai lớn. Tuy nhiên, điều này đang thay đổi.

Trong năm qua, chúng ta đã thấy sự chuyển dịch sang các kiến trúc tính toán tách rời (disaggregated compute architectures), chia nhỏ quy trình suy luận (inference) thành hai giai đoạn: prefill và decode.

Prefill: Giai đoạn tính toán nặng. Nếu bạn từng dùng AI chatbot, đây là khoảng thời gian chờ đợi giữa lúc bạn gửi câu lệnh và khi mô hình bắt đầu phản hồi. Tính toán càng nhanh, thời gian chờ càng ngắn.
Decode: Giai đoạn tạo ra token phản hồi.

Các thao tác prefill vẫn tiêu thụ nhiều bộ nhớ, nhưng chúng chủ yếu bị giới hạn bởi khả năng tính toán (compute-bound). Điều này có nghĩa là bạn có thể sử dụng bộ nhớ GDDR hoặc LPDDR chậm hơn thay vì bộ nhớ HBM đắt đỏ mà không ảnh hưởng quá nhiều đến hiệu suất ở giai đoạn này.

Đây chính là ý tưởng đằng sau Rubin CPX của Nvidia khi được công bố vào mùa hè năm ngoái. Bộ tăng tốc này hứa hẹn 128 GB bộ nhớ GDDR7 và hiệu suất lên tới 30 petaFLOPS. Các khối lượng công việc nặng nề cần xử lý lượng token khổng lồ (ví dụ: trợ lý lập trình) sẽ chuyển giai đoạn prefill sang bộ tăng tốc CPX, trong khi việc tạo token vẫn chạy trên các siêu chip Vera Rubin trang bị HBM4 của Nvidia.

Tuy nhiên, vào tháng 3, Nvidia đã gác lại ý tưởng này để ưu tiên cho các giá đỡ LPX dựa trên LPU của Groq sau thương vụ mua lại. LPX giải quyết vấn đề ở phía ngược lại: thay vì tăng tốc prefill, các bộ tăng tốc Groq của Nvidia tập trung vào việc cải thiện trải nghiệm người dùng và hiệu quả kinh tế suy luận bằng cách tối ưu hóa việc tạo token.

Cơ hội cho Intel

Mặc dù Nvidia đã chuyển hướng, nhưng nhu cầu cho một sản phẩm kiểu Rubin CPX chưa hề biến mất. Trong một buổi thảo luận với báo chí vào mùa xuân này, Ian Buck, Phó chủ tịch mảng Hyperscale và HPC của Nvidia, đã nói rằng CPX vẫn là một ý tưởng tốt và chúng ta có thể thấy khái niệm này tái xuất hiện trong các thế hệ tương lai.

Intel rõ ràng nhìn thấy cơ hội để lấp đầy khoảng trống này. Công ty, vốn đã thân thiết hơn với Nvidia kể từ khi CEO Lip Bu Tan tiếp quản năm ngoái, chưa nói nhiều về trường hợp sử dụng dự kiến của Crescent Island, nhưng Intel đã gợi ý rằng Nvidia Dynamo sẽ được đưa lên nền tảng này.

Dynamo là khung framework của Nvidia để tách rời prefill và decode trên nhiều GPU.

"Việc Crescent Island có thực sự phù hợp với trường hợp sử dụng này hay không sẽ phụ thuộc rất nhiều vào hồ sơ hiệu suất của nó, thứ mà chúng ta hiện có rất ít dữ liệu."

Intel chưa chia sẻ con số FLOPS, nhưng chúng ta biết GPU này sẽ sử dụng vi kiến trúc Xe-3P, bổ sung hỗ trợ cho kiểu dữ liệu FP8 và FP4, và sẽ được bán dưới dạng thẻ PCIe làm mát bằng khí với công suất 350 Watt.

Mặc dù Intel đã tín hiệu hỗ trợ suy luận tách rời thông qua Dynamo, nhưng đây không phải là lựa chọn duy nhất. Vào tháng 2, Intel và các đối tác đã rót 350 triệu USD vào startup chip AI SambaNova. Sau đó vào tháng 4, công ty tiết lộ kế hoạch cho một nền tảng suy luận tách rời sử dụng Intel Xeons, SambaNova RDUs và GPU của Nvidia. Nền tảng đó đã đi vào hoạt động tuần này.

Tuy nhiên, hoàn toàn có lý để Intel sử dụng một giải pháp mã nguồn mở tương tự như Dynamo để kết hợp GPU của riêng mình với SambaNova RDUs thay vì phụ thuộc hoàn toàn vào công nghệ của đối thủ.