Intel tích hợp 36.864 nhân CPU vào rack 100kW để đón đầu xu hướng AI tác nhân

Intel đang hợp tác với Foxconn để phát triển các thiết kế tham chiếu rack dựa trên bộ xử lý Xeon mới, hỗ trợ tới 36.864 nhân trong giới hạn công suất 100kW. Những thiết kế này nhằm giải quyết nhu cầu tính toán tăng cao của các hệ thống AI tác nhân (Agentic AI). Bên cạnh đó, kiến trúc suy luận tách rời của Intel và SambaNova cũng đã đón được khách hàng đầu tiên là Together.AI.

Tại Computex 2026, Intel đã công bố hợp tác cùng Foxconn và các nhà cung cấp hạ tầng khác để phát triển các thiết kế tham chiếu quy mô rack dựa trên dòng bộ vi xử lý Xeon mới nhất.

Mục tiêu của những bản thiết kế này là cung cấp mật độ tính toán CPU cao hơn nhằm phục vụ các tác vụ của AI tác nhân (Agentic AI) ở quy mô lớn. Mặc dù các mô hình AI chủ yếu chạy trên GPU và các trình tăng tốc AI khác, nhưng các khung điều khiển tác nhân như OpenClaw — dùng để kết nối mô hình với công cụ, terminal, trình thông dịch mã và các API — vẫn yêu cầu sức mạnh từ CPU.

CEO của Intel, ông Lip Bu Tan, chia sẻ: "Khách hàng của chúng tôi đang yêu cầu chúng tôi tư duy ở cấp độ hệ thống để giúp họ phục vụ các khối lượng công việc thực tế của AI tác nhân ở quy mô lớn."

Đặc điểm kỹ thuật khủng khiếp

Trên sân khấu Computex, ông Tan đã giới thiệu hai mẫu thiết kế tham chiếu: một mẫu tối ưu cho các tác vụ AI tác nhân nhạy cảm về độ trễ (latency-sensitive) và một mẫu khác được thiết kế để tối đa hóa mật độ.

Cả hai thiết kế đều hỗ trợ lên tới 128 bộ xử lý, sử dụng dòng Intel Xeon 6 128 nhân (Granite Rapids) hoặc dòng Xeon 6+ 288 nhân (Clearwater Forest). Điều này tương đương tổng số nhân từ 16.384 nhân hiệu năng cao (P-cores) đến 36.864 nhân tiết kiệm điện (E-cores), đi kèm với lên tới 384 TB bộ nhớ DDR5, tất cả được gói gọn trong một khung rack với mức tiêu thụ điện năng giới hạn ở 100kW.

Cuộc đua hạ tầng cho AI tác nhân

Các thiết kế tham chiếu này xuất hiện chỉ vài tháng sau khi Nvidia công bố nền tảng CPU quy mô rack tương tự với 256 bộ vi xử lý Vera 88 nhân. Arm cũng không đứng ngoài cuộc khi đang phát triển cặp thiết kế tham chiếu rack cho AI tác nhân dựa trên CPU AGI mới của họ: một hệ thống tản nhiệt bằng không khí 36 kW với 8.160 nhân và một rack tản nhiệt bằng chất lỏng 200 kW với 45.696 nhân.

Ông Tan kỳ vọng các hệ thống dựa trên các thiết kế tham chiếu này sẽ có sẵn rộng rãi từ các đối tác ODM và OEM.

Kiến trúc suy luận tách rời và khách hàng đầu tiên

Song song với các khối lượng công việc AI tác nhân, Intel cũng tiết lộ rằng nhà cung cấp đám mây suy luận mới ra mắt Vector Core Compute sẽ là một trong những đơn vị đầu tiên triển khai nền tảng này. Hơn nữa, Together.AI đã được xác nhận là khách hàng thương mại đầu tiên.

Cách tiếp cận này dựa trên bản thiết kế AI tách rời (disaggregated AI blueprint) mà Intel trước đây đã cùng phát triển với đối tác SambaNova. Kiến trúc này tách biệt các tác vụ tính toán nặng nề (prefill operations) để chạy trên GPU của Nvidia, đồng thời sử dụng trình tăng tốc AI của SambaNova cho các tác vụ giải mã băng thông lớn (decode operations). Giải pháp này giúp tăng tốc độ đầu ra token trên mỗi người dùng từ 2 đến 3 lần.

Nếu nghe có vẻ quen thuộc, đây không quá khác biệt so với những gì Nvidia đang làm với LPU của Groq, hay cách AWS kết hợp Trainium và các trình tăng tốc AI quy mô wafer của Cerebras.

Intel tích hợp 36.864 nhân CPU vào rack 100kW để đón đầu xu hướng AI tác nhân

Đặc điểm kỹ thuật khủng khiếp

Cuộc đua hạ tầng cho AI tác nhân

Kiến trúc suy luận tách rời và khách hàng đầu tiên

Bài viết liên quan