Google Ra Mới Hai Tier Inference Cho Gemini API: Cân Bằng Chi Phí và Độ Tin Cậy

Google giới thiệu hai tier mới là Flex và Priority cho Gemini API, giúp nhà phát triển tối ưu hóa chi phí và độ tin cậy. Tier Flex giảm giá 50% cho các tác vụ độ trễ cao, trong khi Priority đảm bảo độ tin cậy tối đa cho các ứng dụng thời gian thực.

Google Ra Mới Hai Tier Inference Cho Gemini API: Cân Bằng Chi Phí và Độ Tin Cậy

Google vừa bổ sung hai tier mới là Flex và Priority vào Gemini API. Các lựa chọn này mang lại quyền kiểm soát chi tiết hơn về chi phí và độ tin cậy thông qua một giao diện thống nhất.

Bối Cảnh: Từ Chatbot Đến Agent Tự Động

Khi AI phát triển từ các cuộc trò chuyện đơn giản thành các agent tự động phức tạp, các nhà phát triển thường phải quản lý hai loại logic riêng biệt:

Tác vụ nền (Background tasks): Các quy trình khối lượng cao như làm giàu dữ liệu hoặc xử lý "tư duy" mà không cần phản hồi tức thì.
Tác vụ tương tác (Interactive tasks): Các tính năng người dùng như chatbot và trợ lý ảo yêu cầu độ tin cậy cao.

Trước đây, việc hỗ trợ cả hai loại này thường đòi hỏi việc chia nhỏ kiến trúc giữa API đồng bộ tiêu chuẩn và Batch API không đồng bộ. Flex và Priority giúp lấp đầy khoảng trống này, cho phép bạn chuyển các tác vụ nền sang Flex và các tác vụ tương tác sang Priority, tất cả đều sử dụng các điểm cuối đồng bộ tiêu chuẩn.

Tier Flex: Tiết Kiệm Chi Phí 50%

Flex Inference là tier tối ưu chi phí mới, được thiết kế cho các tác vụ độ trễ chấp nhận được mà không cần chi phí xử lý hàng loạt (batch processing overhead).

Tiết kiệm 50% chi phí: Bạn chỉ phải trả một nửa giá API tiêu chuẩn bằng cách giảm mức độ ưu tiên của yêu cầu (làm cho chúng ít tin cậy hơn và thêm độ trễ).
Đơn giản hóa đồng bộ: Khác với Batch API, Flex là giao diện đồng bộ. Bạn sử dụng các endpoint quen thuộc mà không cần quản lý tệp đầu vào/đầu ra hoặc kiểm tra trạng thái công việc.
Ứng dụng phù hợp: Cập nhật CRM quy mô lớn, mô phỏng nghiên cứu quy mô lớn và các quy trình agentic mà mô hình "duyệt" hoặc "tư duy" trong nền.

Tier Priority: Độ Tin Cậy Tối Đa

Tier Inference Priority mới cung cấp mức đảm bảo cao nhất với mức giá cao cấp. Điều này giúp đảm bảo lưu lượng quan trọng nhất của bạn không bị ưu tiên thấp ngay cả trong thời gian cao điểm.

Tính ưu tiên cao nhất: Các yêu cầu Priority được ưu tiên cao nhất, đảm bảo độ tin cậy cao ngay cả khi tải cao.
Graceful downgrade: Nếu lưu lượng vượt quá giới hạn Priority, các yêu cầu vượt mức sẽ được tự động phục vụ ở tier tiêu chuẩn thay vì thất bại, giúp ứng dụng luôn hoạt động.
Minh bạch phản hồi: API phản hồi sẽ cho biết yêu cầu được phục vụ ở tier nào, giúp bạn theo dõi hiệu suất và thanh toán một cách chính xác.

Cách Sử Dụng

Để sử dụng, hãy cấu hình tham số service_tier trong yêu cầu của bạn.

Flex: Dành cho các yêu cầu không cần độ trễ thấp.
Priority: Dành cho các ứng dụng thời gian thực quan trọng.

Tier Flex sẽ có sẵn cho tất cả các tier trả phí và hỗ trợ cả GenerateContent và Interactions API. Priority Inference dành cho người dùng có dự án trả phí cấp độ 2/3.

Kết Luận

Việc này giúp các nhà phát triển tối ưu hóa hệ thống sản xuất của mình mà không cần quản lý phức tạp. Hãy truy cập tài liệu Gemini API để xem chi tiết giá và bắt đầu tối ưu hóa ngay hôm nay.

Google Ra Mới Hai Tier Inference Cho Gemini API: Cân Bằng Chi Phí và Độ Tin Cậy