Tại sao Google không phải trả "thuế Nvidia": Sức mạnh của TPU thế hệ thứ 8

Google vừa công bố thế hệ chip TPU thứ 8, bao gồm hai biến thể riêng biệt cho huấn luyện (TPU 8t) và suy luận (TPU 8i). Chiến lược tích hợp dọc này giúp Google tối ưu hóa chi phí trên mỗi token và tránh được "thuế Nvidia" mà các đối thủ đang phải gánh chịu.

Hiện tại, các phòng thí nghiệm AI hàng đầu đều đang phải phân bổ hai nguồn lực khan hiếm: điện năng và sức mạnh tính toán. Đa số họ mua sức mạnh tính toán để huấn luyện mô hình từ cùng một nhà cung cấp với biên lợi nhuận gộp cao, biến Nvidia thành một trong những công ty giá trị nhất thế giới. Tuy nhiên, Google không đi theo con đường đó.

Tối thứ Ba, tại một buổi họp riêng tư ở Las Vegas, Google đã giới thiệu trước các đơn vị xử lý Tensor (TPU) thế hệ thứ tám. Chiến lược của họ là hai thiết kế silicon tùy chỉnh sẽ ra mắt sau này trong năm, mỗi loại được xây dựng cho một nửa khối lượng công việc AI hiện đại. TPU 8t nhắm đến việc huấn luyện các mô hình tiên phong, trong khi TPU 8i tập trung vào thế giới suy luận của các tác nhân AI (agentic inference) và lấy mẫu thời gian thực đòi hỏi độ trễ thấp và bộ nhớ lớn.

Amin Vahdat, Phó Chủ tịch cấp cao và Giám đốc công nghệ AI và hạ tầng của Google, đã sử dụng thời gian trên sân khấu để làm rõ một điểm quan trọng hơn bất kỳ thông số kỹ thuật nào đối với người mua doanh nghiệp: Google thiết kế mọi tầng của ngăn xếp AI theo hướng đầu cuối. Sự tích hợp dọc này đang bắt đầu thể hiện rõ trong hiệu quả chi phí trên mỗi token mà Google khẳng định đối thủ không thể sao chép được.

"Một chip mỗi năm là không đủ": Chiến lược hai chip của Google vào năm 2024

Câu chuyện thú vị hơn đằng sau v8t và v8i là thời điểm quyết định chia nhỏ lộ trình được đưa ra. Theo Vahdat, quyết định này được đưa ra vào năm 2024 — một năm trước khi ngành công nghiệp chuyển dịch sang các mô hình lý luận (reasoning models), tác nhân và học tăng cường (reinforcement learning) làm khối lượng công việc chủ đạo.

Vào thời điểm đó, đây là một quan điểm trái chiều. "Chúng tôi nhận ra hai năm trước rằng một chip mỗi năm là không đủ," Vahdat chia sẻ trong buổi đối thoại. "Đây là lần đầu tiên chúng tôi thực sự thử nghiệm với hai chip chuyên dụng siêu mạnh."

Đối với người mua doanh nghiệp, hàm ý của việc này rất cụ thể. Khách hàng chạy tinh chỉnh (fine-tuning) hoặc huấn luyện quy mô lớn trên Google Cloud và khách hàng phục vụ các tác nhân sản xuất trên Vertex AI trước đây đều thuê cùng một bộ tăng tốc và phải chịu sự kém hiệu quả. V8 là thế hệ đầu tiên mà chính con chip silicon coi đây là hai vấn đề khác nhau với hai bộ chip riêng biệt.

TPU 8t: Nền tảng huấn luyện có khả năng mở rộng lên hàng triệu chip

Trên giấy tờ, TPU 8t là một bước tiến mạnh mẽ theo thế hệ. Theo Google, 8t cung cấp hiệu suất FP4 EFlops cao hơn 2.8 lần mỗi pod (121 so với 42.5) so với Ironwood, TPU thế hệ thứ bảy ra mắt năm 2025. Nó cũng tăng gấp đôi băng thông hai chiều lên 19.2 Tb/s mỗi chip và tăng gấp bốn lần mạng lưới mở rộng (scale-out networking) lên 400 Gb/s mỗi chip. Kích thước pod tăng nhẹ từ 9.216 lên 9.600 chip, được kết nối bởi cấu trúc 3D Torus của Google.

Con số quan trọng nhất đối với các lãnh đạo CNTT đang đánh giá nơi chạy các công việc huấn luyện quy mô tiên phong: các cụm 8t (Superpods) có thể mở rộng quy mô vượt quá 1 triệu chip TPU trong một công việc huấn luyện duy nhất thông qua kết nối mới mà Google gọi là Virgo networking.

8t cũng giới thiệu TPU Direct Storage, giúp di chuyển dữ liệu từ tầng lưu trữ được quản lý của Google trực tiếp vào HBM mà không cần các bước trung gian qua CPU như thông thường. Đối với các quá trình huấn luyện dài mà thời gian thực (wall-clock time) là yếu tố quyết định chi phí, việc rút ngắn đường dẫn dữ liệu này giúp giảm số giờ pod cần thiết để hoàn thành mỗi epoch.

TPU 8i và Boardfly: Thiết kế lại mạng lưới cho các tác nhân AI

Nếu 8t là một bước tiến hóa, thì TPU 8i là con chip thú vị hơn về mặt kiến trúc. Đây cũng là nơi câu chuyện trở nên hấp dẫn nhất đối với người mua CNTT.

Sự nhảy vọt về thông số kỹ thuật so với cùng kỳ năm ngoái, theo như Vahdat mô tả, là "đáng kinh ngạc". Theo Google, 8i cung cấp hiệu suất FP8 EFlops cao hơn 9.8 lần mỗi pod (11.6 so với 1.2), dung lượng HBM mỗi pod cao hơn 6.8 lần (331.8 TB so với 49.2), và kích thước pod tăng 4.5 lần từ 256 lên 1.152 chip.

Điều thúc đẩy các con số này là sự suy nghĩ lại về chính mạng lưới. Vahdat giải thích trực tiếp: cách kết nối mặc định của Google giữa các chip ưu tiên băng thông hơn độ trễ — tốt để di chuyển lượng lớn dữ liệu qua lại, nhưng không được xây dựng để tối thiểu hóa thời gian phản hồi. Hồ sơ này hoạt động tốt cho huấn luyện, nhưng không hiệu quả cho các tác nhân. Cùng với Google DeepMind, nhóm TPU đã xây dựng cấu trúc Boardfly topology cụ thể để giảm đường kính mạng — thu hẹp số lượng bước nhảy (hops) giữa bất kỳ hai chip nào trong một pod. Kết hợp với Collective Acceleration Engine và SRAM trên chip rất lớn mà Google mô tả, 8i mang lại cải thiện độ trễ được tuyên bố là 5 lần cho việc lấy mẫu LLM thời gian thực và học tăng cường.

Lợi thế của tích hợp dọc: Tại sao Google không phải trả "thuế Nvidia"

Tiềm ẩn trong bài thuyết trình của Vahdat là sơ đồ 6 tầng ngăn xếp AI của Google: năng lượng ở nền tảng, sau đó là đất và nhà chứa trung tâm dữ liệu, phần cứng hạ tầng AI, phần mềm hạ tầng AI, mô hình (Gemini 3), và các dịch vụ ở trên cùng. Vahdat lưu ý rằng việc thiết kế từng tầng một cách riêng lẻ sẽ buộc bạn phải chấp nhận giải pháp thấp nhất chung cho từng tầng. Google thiết kế chúng cùng nhau.

Đây là nơi câu chuyện cạnh tranh đối với người mua CNTT và các nhà phân tích trở nên rõ ràng. OpenAI, Anthropic, xAI và Meta đều phụ thuộc nhiều vào silicon của Nvidia để huấn luyện các mô hình tiên phong của họ. Mỗi GPU H200 và Blackwell họ mua đều mang lại biên lợi nhuận trung tâm dữ liệu của Nvidia — hay còn gọi là "thuế Nvidia" phi chính thức mà các nhà phân tích ngành đã cảnh báo trong hai năm qua như một bất lợi về chi phí cấu trúc đối với bất kỳ ai đi thuê thay vì tự thiết kế. Google chỉ trả chi phí sản xuất (fab), đóng gói và kỹ thuật trên các TPU của mình. Họ không phải trả biên lợi nhuận đó.

Ý nghĩa của v8 đối với cuộc đua tính toán: Bảng kiểm tra mới cho các lãnh đạo CNTT

Đối với các nhóm mua sắm và hạ tầng, TPUv8 định hình lại việc đánh giá đám mây (cloud) trong giai đoạn 2026–2027 theo những cách cụ thể.

Các nhóm đang huấn luyện các mô hình độc quyền quy mô lớn nên xem xét thời gian có sẵn của 8t, quyền truy cập mạng lưới Virgo và các cam kết SLA về hiệu suất thực tế (goodput) — không chỉ là các con số EFlops trên giấy. Các nhóm phục vụ các tác nhân hoặc khối lượng công việc lý luận nên đánh giá tính sẵn có của 8i trên Vertex AI, các điểm chuẩn độ trễ độc lập khi chúng xuất hiện, và xem kích thước HBM trên mỗi pod có phù hợp với cửa sổ ngữ cảnh (context windows) của họ hay không. Các nhóm sử dụng Gemini thông qua Gemini Enterprise sẽ được hưởng lợi từ nâng cấp 8i và có thể kỳ vọng giới hạn những gì họ có thể triển khai trong sản xuất sẽ tăng đáng kể trong năm 2026.

Tuy nhiên, các điều khoản bảo lưu là có thật. Tính sẵn sàng chung vẫn là "cuối năm 2026". V8 là một tín hiệu lộ trình, không phải là quyết định mua sắm hôm nay. Các điểm chuẩn của Google là tự báo cáo; chắc chắn các số liệu độc lập sẽ đến từ những khách hàng đám mây sớm và các bên đánh giá thứ ba trong hai quý tới. Và tính di động giữa hệ sinh thái JAX/XLA và CUDA/PyTorch vẫn là một chi phí ma sát đáng cân nhắc khi đàm phán bất kỳ cam kết dài hạn nào.

Nhìn xa hơn nữa, Vahdat đưa ra hai dự đoán đáng chú ý. Thứ nhất, CPU đa năng sẽ thấy sự trỗi dậy trong các hệ thống AI — không phải là bộ tăng tốc, mà là tính toán điều phối cho các sandbox tác nhân, máy ảo và thực thi công cụ. Thứ hai, được trình bày rõ ràng như một dự đoán của ngành thay vì bản xem trước lộ trình của Google, sự chuyên biệt hóa cũng sẽ tiếp tục mạnh mẽ. Khi CPU đa năng đạt đến đỉnh cao chỉ vài phần trăm mỗi năm, các khối lượng công việc quan trọng sẽ đòi hỏi silicon được xây dựng cho mục đích cụ thể. "Hai chip có thể sẽ trở nên nhiều hơn," Vahdat nói — mà không cụ thể hóa liệu "nhiều hơn" có nghĩa là các biến thể TPU trong tương lai hay các lớp bộ tăng tốc chuyên dụng khác.

Cuộc đua tính toán tiên phong từng là câu hỏi về việc ai có thể mua được nhiều H100 nhất. Bây giờ, đó là câu hỏi về việc ai kiểm soát ngăn xếp. Danh sách ngắn các công ty thực sự làm được điều này hiện tại chỉ có hai: Google và Nvidia.