Google khoe chiến tích "tokenmaxxing" và tung ra các tác nhân AI mới tại I/O 2026

Tại hội nghị Google I/O, CEO Sundar Pichai công bố mức xử lý kỷ lục 3,2 triệu tỷ token mỗi tháng và khoản đầu tư cơ sở hạ tầng lên tới 190 tỷ USD. Google cũng ra mắt mô hình Gemini 3.5 Flash với hiệu suất cao cùng dịch vụ tác nhân AI Gemini Spark hoạt động 24/7.

Tại hội nghị nhà phát triển Google I/O năm nay, CEO Sundar Pichai của Google và công ty mẹ Alphabet đã mở đầu bài phát biểu bằng việc ăn mừng sự gia tăng khổng lồ về số lượng token và chi phí vốn (capex). Token là đơn vị trao đổi dữ liệu cơ bản của các mô hình AI, và Google đã tăng đáng kể khả năng xử lý token của mình để đáp ứng nhu cầu suy luận AI (AI inference) từ cả nội bộ và bên ngoài.

Hai năm trước, Google xử lý 9,7 nghìn tỷ token mỗi tháng. Năm ngoái con số này là 480 nghìn tỷ. Hiện tại, "nhà máy Chocolate" đang xử lý 3,2 triệu tỷ token mỗi tháng.

"Bây giờ có thể có người gọi đây là việc 'tối đa hóa token' (tokenmaxxing) và có lẽ có một phần sự thật trong đó," ông Pichai chia sẻ. "Tôi vẫn nghĩ nó kể một câu chuyện quan trọng về sản phẩm của chúng tôi và cách những người khác đang xây dựng, đặc biệt là các nhà phát triển."

Đầu tư cơ sở hạ tầng quy mô lớn

Ông Pichai cho biết có hơn 8,5 triệu nhà phát triển đang xây dựng ứng dụng sử dụng họ mô hình Gemini của Google hàng tháng, tiêu thụ khoảng 19 tỷ token mỗi phút thông qua các cuộc gọi API. Trong 12 tháng qua, hơn 375 khách hàng đã tiêu thụ hơn 1 nghìn tỷ token mỗi người, cho thấy nhu cầu sử dụng AI trong doanh nghiệp là rất lớn.

Khả năng xử lý token này là nhờ những khoản chi tiêu vốn khổng lồ mà Google đã rót vào các trung tâm dữ liệu, dung lượng tính toán và phần cứng TPU.

"Hỗ trợ tất cả những điều này ở quy mô lớn cho người dùng của chúng tôi, đồng thời phục vụ các doanh nghiệp và nhà phát triển trên toàn thế giới đòi hỏi những khoản đầu tư khổng lồ vào cơ sở hạ tầng," Pichai nói. "Chúng tôi đã đầu tư cho hôm nay và cho tương lai. Năm 2022, chúng tôi chi 31 tỷ USD mỗi năm cho capex. Năm nay, chúng tôi dự kiến con số đó sẽ gấp sáu lần, khoảng 180 đến 190 tỷ USD."

Tiến bộ hướng tới AGI và mô hình mới

Demis Hassabis, CEO của Google DeepMind, đã cập nhật tiến độ của Google hướng tới Trí tuệ nhân tạo tổng quát (AGI). Ông giới thiệu Gemini Omni, một bước tiến mới trên hành trình này. Ông mô tả nó có thể "tạo ra bất kỳ thứ gì từ bất kỳ đầu vào nào".

Gemini Omni kết hợp trí thông minh của Gemini với các mô hình media generative tốt nhất của Google, mang lại mức độ hiểu biết thế giới mới, tính đa phương thức và khả năng chỉnh sửa. Mô hình kết hợp khả năng video, hình ảnh và mô phỏng tương tác của các mô hình như Veo, Nano Banana và Genie với mô hình hóa vật lý để các dự án mô tả chính xác tương tác vật thể involving động năng và trọng lực.

Mô hình đầu tiên trong dòng sản phẩm này, Gemini Omni Flash, hiện đã có mặt.

Pichai cũng công bố việc mở rộng SynthID, công nghệ đóng mờ AI của Google. Google sẽ hỗ trợ xác minh thông tin xác thực nội dung C2PA trên các sản phẩm của mình để giúp mọi người phân biệt nội dung do AI tạo ra và nội dung do máy ảnh chụp, cũng như biết liệu nó có được chỉnh sửa bằng Google Photos hay không.

"Chúng tôi đang mở rộng cả SynthID và xác minh thông tin xác thực nội dung cho Tìm kiếm và Chrome," Pichai thông báo. "Bạn có thể đơn giản là khoanh tròn để tìm kiếm hoặc nhấp chuột phải trong Chrome và hỏi 'điều này có được tạo bởi AI không?' và bạn sẽ nhận được câu trả lời rõ ràng cùng với các ngữ cảnh hữu ích khác."

Gemini 3.5 Flash: Nhanh hơn và tiết kiệm hơn

Một trong những điểm bán hàng lớn nhất của Gemini 3.5 Flash là hiệu suất tương đương với các mô hình tiên phong khác nhưng nhanh hơn nhiều. Mô hình này đạt khoảng 289 token mỗi giây, nhanh hơn gấp 4 lần so với các mô hình tiên phong khác theo tuyên bố của Google.

Những người sử dụng công cụ lập trình Antigravity của Google có thể mong đợi mức tăng tốc độ còn lớn hơn. "Chúng tôi đã tối ưu hóa Flash không chỉ nhanh gấp bốn lần mà còn nhanh gấp 12 lần trong Antigravity," kỹ sư DeepMind Varun Mohan cho biết.

Về chi phí, Pichai chỉ ra rằng các công ty hàng đầu trên Google Cloud đang xử lý khoảng 1 nghìn tỷ token mỗi ngày. "Nếu họ chuyển 80% khối lượng công việc từ các mô hình tiên phong khác sang 3.5 Flash, họ sẽ tiết kiệm được hơn 1 tỷ USD mỗi năm."

Tác nhân AI Gemini Spark và Tìm kiếm

Gemini 3.5 Flash cũng được tích hợp trong ứng dụng Google Gemini và Tìm kiếm thông qua Gemini Spark, một dịch vụ tác nhân (agent).

"Đó là tác nhân AI cá nhân giúp bạn điều hướng cuộc sống kỹ thuật số, thực hiện hành động thay mặt bạn và dưới chỉ đạo của bạn," Pichai giải thích. "Nó chạy trên các máy ảo chuyên dụng trên Google Cloud. Và nó hoạt động 24/7."

Dựa trên Gemini 3.5 Flash với sự hỗ trợ của Antigravity, Spark có thể thực hiện các tác vụ chạy dài trong nền. Spark sẽ có khả năng kết nối với các công cụ khác — ban đầu là các ứng dụng Google như Gmail và Chat, sau đó là các công cụ bên thứ ba qua MCP. Tích hợp Chrome, cho phép duyệt web theo tác nhân, được lên kế hoạch vào mùa hè này.

Spark ra mắt cùng với gói đăng ký Ultra mới giá 100 USD/tháng và giảm gói Ultra cao nhất từ 250 USD/tháng xuống còn 200 USD/tháng.

Liz Reid, Phó chủ tịch mảng Tìm kiếm, cũng đã chi tiết hơn về sự xâm nhập của AI vào dịch vụ Tìm kiếm của Google. Thay đổi lớn nhất là Tìm kiếm Tác nhân (Search Agents), giống như Gemini Spark, sẽ có thể truy cập từ Tìm kiếm và chạy khi bạn rời khỏi bàn phím.

"Bạn có thể thiết lập các tác nhân thông tin làm việc cho bạn 24/7 trong nền," Reid nói. "Chúng có thể tìm chính xác những gì bạn cần, đúng khi bạn cần, và giúp bạn hành động. Bạn có thể khởi chạy nhiều tác nhân trong tìm kiếm cùng lúc để nhận cập nhật và tiến triển trên tất cả những vấn đề quan trọng với bạn."

Google cũng áp dụng cách tiếp cận tương tự Anthropic bằng cách cung cấp các widget tương tác dựa trên mã hoặc ứng dụng nhỏ theo yêu cầu. Người dùng Tìm kiếm sẽ có thể tạo ra bố cục động, biểu đồ, đồ thị, v.v. thông qua tích hợp Gemini 3.5 Flash và Antigravity trong môi trường container hóa.

Google khoe chiến tích "tokenmaxxing" và tung ra các tác nhân AI mới tại I/O 2026

Đầu tư cơ sở hạ tầng quy mô lớn

Tiến bộ hướng tới AGI và mô hình mới

Gemini 3.5 Flash: Nhanh hơn và tiết kiệm hơn

Tác nhân AI Gemini Spark và Tìm kiếm

Bài viết liên quan