Không thực sự tồn tại một loại "CPU tác nhân" (Agentic CPU) nào cả

Các tác nhân AI thực chất chỉ là một khối lượng công việc chung không khác biệt gì so với các tác vụ khác. Các chip mới được quảng cáo là "CPU cho tác nhân" thực ra chỉ là những bộ vi xử lý đa năng được nâng cấp thêm chút ánh hào quang AI.

Các tác nhân AI có thực sự cần một loại CPU mới không? Đó là điều mà Arm, Nvidia và ngày càng nhiều nhà thiết kế chip muốn bạn tin tưởng. Arm đặt tên cho chip trung tâm dữ liệu đầu tiên của mình là "AGI CPU". Giám đốc điều hành Nvidia Jensen Huang mô tả Vera là "CPU dành cho các tác nhân", và marketing của AWS cho Graviton 5 đầy rẫy các tham chiếu đến AI tác nhân.

Không một trong số các bộ vi xử lý dựa trên Arm này sẽ mang lại sự kỳ dích (singularity). Chúng thậm chí không phải là bộ tăng tốc AI. Đừng để những chiêu trò marketing đánh lừa bạn – những con chip này không gì khác hơn là bộ vi xử lý đa năng đã được nâng cấp thêm chút ánh hào quang AI.

Tất nhiên là các tác nhân AI và hệ thống quản lý chúng cần CPU. Không ai tranh cãi về điều đó. Nhưng các tác nhân không phải là một khối lượng công việc đơn lẻ. Chúng đơn giản là cầu nối giữa mô hình AI và cùng những ứng dụng mà chúng ta đã chạy trong nhiều thập kỷ qua.

Và những công cụ mà các tác nhân này chạy thường trông rất khác biệt. Một số sẽ được hưởng lợi từ tỷ lệ băng thông bộ nhớ trên sức tính toán cao hơn, một số sẽ hoạt động tốt hơn trên các chip có bộ nhớ đệm hợp nhất lớn hoặc động cơ nén dữ liệu chuyên dụng, trong khi những cái khác lại ưu tiên tần số cao hơn số lượng nhân, hoặc ngược lại.

Có một lý do khiến AMD và Intel không chỉ xây dựng một phiên bản Epyc hay Xeon duy nhất, và đó là lý do tại sao tất cả các "CPU tác nhân" được xây dựng cho mục đích cụ thể lại trông rất khác nhau.

Nếu nhìn vào những gì Nvidia đã xây dựng với chip CPU 88 nhân Vera của mình, con chip này hứa hẹn hiệu suất luồng đơn cao với lượng băng thông bộ nhớ và kết nối khổng lồ.

Như ông Huang đã giải thích trong bài phát biểu quan trọng tại GTC Đài Loan, sự kết hợp giữa sức tính toán và băng thông này là chìa khóa để giữ độ trễ ở mức thấp nhất có thể.

"Sẽ có hàng tỷ tác nhân và các tác nhân này sẽ sử dụng CPU với rất ít kiên nhẫn vì chi phí của GPU bên cạnh chúng quá cao", ông nói.

Nhưng tất nhiên ông Huang sẽ nói như vậy – ông kinh doanh bán GPU. Vera, cũng giống như Grace, được thiết kế để giữ dữ liệu lưu chuyển giữa CPU và GPU càng mượt mà càng tốt. Di chuyển dữ liệu theo nghĩa đen là thế mạnh của Vera.

Trong khi đó, AGI CPU của Arm trông giống như một bộ vi xử lý Neoverse V3 tiêu chuẩn với 136 nhân, đã được loại bỏ bất cứ thứ gì mà một tác nhân có khả năng không cần để giữ mức tiêu thụ điện năng thấp nhất có thể. Không có đa luồng đồng thời (simultaneous multithreading) hay bộ tăng tốc chuyên dụng, mở rộng vector tối thiểu, nhưng lại có rất nhiều băng thông bộ nhớ.

Các bộ vi xử lý Graviton 5 với 192 nhân của Amazon, được công bố vào mùa đông năm ngoái, về cơ bản là phiên bản mở rộng của AGI CPU của Arm, cho đến các nhân Neoverse V3, nhưng có lẽ còn chung chung hơn.

Để nhắc lại ý của Corey Quinn, "xin hãy, vì lòng thương hại tất cả những gì thiêng liêng, ngừng gọi chúng là 'chip AI'".

Không muốn bị bỏ lại phía sau cuộc vui, Intel và AMD cũng rất eager tái định nghĩa các flagship Xeon và Epyc của họ là nền tảng lý tưởng để chạy các tác nhân AI.

Tại Computex vào đầu tháng này, Intel đã giới thiệu một vài thiết kế rack tham chiếu đóng gói tới 36.864 nhân x86 vào một rack 100 kW.

Trong khi đó, AMD, sau vòng benchmark đầu tiên cho CPU Vera, đã chuyển sang thế phòng ngận vào tuần trước, lập luận rằng tính đồng thời (concurrency), không phải độ trễ, mới là chỉ số quan trọng nhất khi chạy các tác nhân ở quy mô lớn.

Nhà Zen dự đoán rằng với mức công suất 100 kW, các chip Epyc Venice 256 nhân sẽ ra mắt vào cuối năm nay sẽ mang lại thông lượng cao hơn 3,3 lần trên mỗi rack so với Vera.

Nếu bạn cảm thấy như mọi người có một ý kiến khác nhau về việc một CPU tác nhân lý tưởng trông như thế nào, thì đó là bởi vì, giống như bất kỳ khối lượng công việc trung tâm dữ liệu nào khác, hiếm khi có một câu trả lời đúng duy nhất.

Chúng ta thấy điều này trong các benchmark sớm của CPU Vera Nvidia. Vào cuối tháng trước, ấn phẩm thân thiện với FOSS Phoronix đã được tiếp cận sớm với con chip này và chạy một tập hợp con của bộ kiểm thử mà Nvidia rõ ràng cảm thấy đại diện cho thị trường mục tiêu của họ.

Con chip đạt được điểm số trung bình hình học (geo-mean) cao hơn 10% so với Epyc 9575F 128 nhân của AMD và cao hơn 55% so với Xeon 6980P 128 nhân của Intel. Đó là một màn thể hiện mạnh mẽ. Nhưng khi nhìn kỹ hơn vào kết quả, rõ ràng là Vera hoạt động tốt hơn ở một số ứng dụng hơn những cái khác.

Và đó là cốt lõi của vấn đề. Chưa bao giờ có một CPU cai trị tất cả, và khi chu kỳ cường điệu AI bước vào kỷ nguyên của các tác nhân, chắc chắn là bây giờ cũng không có.

Không thực sự tồn tại một loại "CPU tác nhân" (Agentic CPU) nào cả

Bài viết liên quan