Những "trái tim" phần cứng tạo nên cuộc cách mạng AI

Bài viết khám phá các loại chip quan trọng đằng sau sự bùng nổ của trí tuệ nhân tạo, bao gồm CPU, GPU, TPU và NPU, cũng như vai trò đặc thù của từng loại trong việc huấn luyện và vận hành mô hình AI hiện đại.

Khi nhắc đến Trí tuệ nhân tạo (AI), chúng ta thường mô tả nó như một cuộc cách mạng của phần mềm với những thuật toán thông minh. Từ những đột phá về mạng nơ-ron và transformer cho đến các mô hình ngôn ngữ lớn (LLM), ta dễ dàng mặc định rằng các thuật toán này chính là động lực chính của sự tiến bộ.

Tuy nhiên, sự thật là AI hiện đại chỉ có thể khả thi nhờ những bước tiến vượt bậc của phần cứng. Việc huấn luyện một mô hình ngôn ngữ lớn đòi hỏi thực hiện hàng nghìn tỷ phép tính trên các tập dữ liệu khổng lồ. Tạo ra một hình ảnh từ văn bản yêu cầu hàng tỷ phép tính chỉ trong vài giây. Chạy AI trên smartphone thì cần xử lý nhanh chóng và tiêu thụ ít điện.

Phần cứng máy tính truyền thống không được thiết kế cho việc đó. Khi các mô hình AI ngày càng lớn hơn, các kiến trúc phần cứng mới đã ra đời để đáp ứng yêu cầu này. Hôm nay, chúng ta sẽ cùng tìm hiểu về CPU, GPU, TPU và NPU - những "nhân vật chính" trong thế giới phần cứng AI.

Tại sao AI cần phần cứng chuyên dụng?

Để hiểu rõ hơn, hãy nhìn vào bản chất của máy học. Cốt lõi của việc huấn luyện một mạng nơ-ron là thực hiện lặp đi lặp lại các phép toán toán học trên một tập hợp các con số. Phần lớn các phép toán này liên quan đến nhân ma trận và tích tensor, phải được thực hiện hàng triệu hoặc hàng tỷ lần.

Điều này khác biệt hoàn toàn so với các ứng dụng phần mềm khác. Ví dụ, một trình duyệt web dành phần lớn thời gian để phản hồi đầu vào của người dùng và tải tài nguyên. Ngược lại, các ứng dụng AI thường liên tục áp dụng cùng một phép toán lên lượng dữ liệu khổng lồ.

Do đó, để AI hoạt động hiệu quả, nó cần thực hiện nhiều tính toán cùng một lúc (tính toán song song). Nhu cầu này đã dẫn đến sự phát triển của các phần cứng chuyên dụng được tối ưu hóa cho AI.

CPU: "Người tổng hợp" đa năng

Khi nói về phần cứng, không thể không nhắc đến Central Processing Unit (CPU) - đơn vị xử lý trung tâm. Đây là nền tảng của máy tính hiện đại, có mặt trong mọi laptop, smartphone hay máy chủ.

Vì là bộ xử lý đa dụng (general-purpose), CPU được thiết kế để linh hoạt. Nó có thể thực hiện hiệu quả nhiều loại lệnh khác nhau và nhanh chóng chuyển đổi giữa các tác vụ. Có thể hình dung CPU như một người chuyên gia đa năng, có thể làm nhiều việc và thích ứng với các yêu cầu thay đổi.

Để hỗ trợ sự linh hoạt này, CPU thường chứa một số lượng nhỏ các nhân (core) mạnh mẽ. Điều này khiến chúng trở thành lựa chọn hoàn hảo để chạy hệ điều hành, quản lý bộ nhớ, xử lý tương tác người dùng và điều phối các ứng dụng.

Minh họa về CPU

Tuy nhiên, CPU không được tối ưu hóa để thực hiện cùng một phép toán trên hàng nghìn hoặc hàng triệu điểm dữ liệu cùng lúc. Đây chính là hạn chế của CPU đối với khối lượng công việc AI. Trong các quy trình AI hiện đại, CPU thường đóng vai trò nạp và tiền xử lý dữ liệu, điều phối liên lạc giữa các thiết bị phần cứng, thay vì trực tiếp xử lý các phép toán toán học nặng nề.

GPU: Động cơ đằng sau cuộc cách mạng Deep Learning

Nếu có một thiết bị phần cứng gắn liền nhất với AI hiện đại, đó chính là Graphics Processing Unit (GPU).

GPU ban đầu được phát triển để kết xuất đồ họa trong trò chơi điện tử. Việc kết xuất một hình ảnh đòi hỏi thực hiện các tính toán tương tự trên hàng triệu điểm ảnh, một quy trình mang tính song song inherently. Để làm được điều này, GPU được thiết kế với hàng nghìn nhân xử lý nhỏ hơn, có thể thực hiện nhiều phép toán cùng lúc.

Các nhà nghiên cứu sớm nhận ra rằng mạng nơ-ron sử dụng các mô hình tính toán tương tự. Việc huấn luyện mạng nơ-ron liên quan đến việc lặp lại phép nhân ma trận trên các tập dữ liệu lớn. Vì các phép toán này có thể phân bổ qua nhiều nhân, GPU cực kỳ hiệu quả cho deep learning.

Trong khi CPU ưu tiên sự linh hoạt, GPU ưu tiên thông lượng (throughput). Sự khác biệt này đã thay đổi cách chúng ta nghĩ về nghiên cứu AI. Các tác vụ từng mất nhiều tuần hay tháng để hoàn thành nay có thể xong chỉ trong vài ngày hoặc vài giờ. Hầu hết các mô hình AI tiên tiến nhất hiện nay đều được huấn luyện trên các cụm máy gồm hàng trăm, thậm chí hàng nghìn GPU.

Minh họa về GPU

TPU: Phần cứng được thiết kế riêng cho AI

Sau khi GPU được điều chỉnh cho AI, một nhân vật mới đã bước vào sân chơi: Tensor Processing Unit (TPU). TPUs do Google phát triển để tăng tốc các phép toán tensor thường gặp trong mạng nơ-ron.

Thay vì hỗ trợ phạm vi rộng các tác vụ tính toán, TPUs chuyên biệt hóa một tập nhỏ các phép toán thường dùng trong quá trình huấn luyện máy học. Nhờ sự chuyên biệt hóa này, TPU mang lại nhiều lợi ích như thông lượng cao, hiệu quả năng lượng tốt hơn và chi phí thấp hơn.

Hiện nay, TPUs được sử dụng rộng rãi trong hệ sinh thái đám mây của Google và đã đóng góp vào việc huấn luyện một số mô hình AI lớn nhất thế giới.

Minh họa về TPU

NPU: Mang AI đến thực tế gần gũi hơn

Không phải mọi khối lượng công việc AI đều diễn ra trong trung tâm dữ liệu. Ngày nay, nhiều ứng dụng AI chạy trực tiếp trên thiết bị cá nhân như điện thoại hay laptop. Chạy AI tại chỗ (on-device) giúp giảm độ trễ, tăng tính riêng tư và giảm sự phụ thuộc vào kết nối đám mây.

Để hỗ trợ điều này, các nhà sản xuất đã giới thiệu Neural Processing Unit (NPU). NPUs là bộ xử lý chuyên dụng được thiết kế chủ yếu cho suy luận AI (inference). Khác với GPU thường tập trung vào huấn luyện quy mô lớn, NPUs ưu tiên việc thực thi các mô hình đã huấn luyện một cách tiết kiệm năng lượng.

Điều này khiến chúng đặc biệt có giá trị cho các ứng dụng máy tính hiện đại. Ví dụ, khi một smartphone cải thiện ảnh, nhận dạng giọng nói hoặc dịch văn bản theo thời gian thực, phép tính có thể được thực hiện trực tiếp trên NPU. Khi AI ngày càng được tích hợp sâu vào thiết bị tiêu dùng, NPUs có khả năng sẽ trở nên phổ biến như CPU và GPU.

Tổng kết

Các hệ thống AI hiện đại hiếm khi chỉ dựa vào một thành phần phần cứng duy nhất. Thay vào đó, chúng kết hợp nhiều công nghệ chuyên biệt, mỗi loại được thiết kế cho một vai trò cụ thể:

CPU: Sự linh hoạt - Quản lý hệ thống và điều phối.
GPU: Tính toán song song - Huấn luyện và suy luận quy mô lớn.
TPU: Chuyên môn hóa AI - Máy học quy mô lớn.
NPU: Hiệu quả năng lượng - Suy luận trên thiết bị.

Sự lựa chọn phần cứng phụ thuộc rất nhiều vào nhiệm vụ đang thực hiện. Không có một bộ xử lý AI "tốt nhất" duy nhất. Các hệ thống hiện đại được thiết kế bằng cách kết hợp nhiều thành phần phần cứng bổ sung cho nhau.

Sự tiến bộ nhanh chóng của AI thường được gán cho các thuật toán, nhưng phần cứng đã đóng một vai trò quan trọng ngang hàng, dù ở phía sau hậu trường. Hiểu rõ về các thành phần này giúp chúng ta có cái nhìn sâu sắc hơn về cách thức hoạt động của AI và lý do tại sao công nghệ này lại phát triển thần tốc trong thập kỷ qua.