Xiaomi MiMo-V2.5: Giảm giá API vĩnh viễn tới 99% và tối ưu hóa hiệu suất suy luận
Xiaomi vừa công bố đợt điều chỉnh giá lớn đối với dòng API MiMo-V2.5, với mức giảm tối đa lên tới 99%, đồng thời cải thiện hệ thống tính phí giúp tăng dung lượng sử dụng gấp 5-8 lần. Việc giảm giá này là kết quả của những cải tiến kỹ thuật sâu sắc trong hệ thống suy luận, nhằm mục đích đưa khả năng của AI đến tay nhiều nhà phát triển hơn.

Xiaomi vừa đưa ra thông báo quan trọng về việc điều chỉnh giá cho dòng sản phẩm MiMo-V2.5 và kết thúc chương trình khuyến mãi "Quadrillion Token Creator Incentive Plan". Đây được xem là bước đi chiến lược của hãng trong việc phổ ứng các mô hình trí tuệ nhân tạo quy mô lớn.
Xiaomi MiMo API Price Reduction
Giảm giá API vĩnh viễn tới 99%
Kể từ 0:00 ngày 27 tháng 5 năm 2026 (theo giờ Bắc Kinh), Xiaomi chính thức áp dụng mức giá mới cho API dòng MiMo-V2.5. So với mức giá ban đầu, mức giảm tối đa có thể lên tới 99%. Đặc biệt, cơ sở định giá mới sẽ không còn phân biệt dựa trên độ dài đầu vào (input length), giúp đơn giản hóa chi phí cho người dùng.
Động thái này được đồng bộ áp dụng trên toàn cầu, mời gọi các nhà phát triển tích hợp và trải nghiệm.
Tối ưu hóa hệ thống TokenPlan
Bên cạnh việc giảm giá, hệ thống tính phí TokenPlan cũng được cải thiện đáng kể:
- Tăng dung lượng sử dụng: Giữ nguyên giá nhưng tăng lượng token sử dụng lên gấp 5-8 lần so với trước đây.
- Quy tắc tính phí minh bạch: Quy định thanh toán được điều chỉnh rõ ràng, dễ hiểu hơn, đảm bảo "những gì bạn thấy là những gì bạn nhận được".
TokenPlan Optimization
Kết thúc chương trình khuyến mãi và Reset hạn mức
Chương trình "Quadrillion Token Creator Incentive Plan" đã chính thức kết thúc sớm vào ngày 26 tháng 5 sau khi phân phối hết 100 nghìn tỷ token. Để tri ân người dùng, Xiaomi thực hiện một bất ngờ lớn:
Tất cả hạn mức Credits của người dùng đã đăng ký TokenPlan và còn trong thời hạn hiệu lực sẽ được reset hoàn toàn vào 0:00 ngày 27 tháng 5. Điều này áp dụng cho cả người dùng tham gia chương trình khuyến mãi và thành viên của Apache Software Foundation.
Ngoài ra, những người dùng trả phí trước đây mà gói TokenPlan đã hết hạn cũng sẽ nhận được quà tặng đặc biệt trong tuần tới.
Đột phá công nghệ phía sau mức giảm giá
Việc giảm giá sâu này không phải là hy sinh chất lượng, mà là kết quả của sự tối ưu hóa liên tục từ đội ngũ kỹ thuật của Xiaomi.
Technical Optimization
Xiaomi đã triển khai các cải tiến quan trọng:
- Hỗ trợ SWA (Sliding Window Attention) dựa trên SGLang HiCache: Giảm lượng dữ liệu truyền tải của KV Cache giữa GPU, CPU và SSD xuống còn khoảng 1/7 so với trước.
- Tăng khả năng lưu trữ cache: Số lượng token có thể lưu cache tăng gấp gần 5 lần, nâng cao đáng kể tỷ lệ truy cập cache và hiệu suất suy luận.
- Tăng cường khả năng xử lý: Tối ưu hóa sơ đồ song song hóa chuyên gia (expert parallelism) và chiến lược phân nhóm độ dài đầu vào, giúp giảm chi phí phục vụ cho mỗi token mà vẫn đảm bảo chất lượng.
Kết luận
Giá trị của công nghệ cuối cùng nằm ở độ rộng của việc ứng dụng nó. Với những đổi mới này, Xiaomi hy vọng sẽ thúc đẩy nhu cầu suy luận AI quy mô lớn thông qua các dịch vụ mô hình kết hợp giữa chi phí thấp và khả năng hàng đầu.
"Giúp nhiều người hơn sử dụng các mô hình tốt hơn - đó là sứ mệnh bất di bất dịch của MiMo."
Cập nhật lần cuối: 27 tháng 5, 2026
Bài viết liên quan

Công nghệ
Chris Lehane: "Bậc thầy xử lý khủng hoảng" của OpenAI và nỗ lực cứu vãn danh tiếng AI
22 tháng 5, 2026

AI & ML
Alibaba ra mắt Qwen3.7-Max: Mô hình AI tự chủ chạy liên tục 35 giờ, hỗ trợ Claude Code
21 tháng 5, 2026

AI & ML
Nguy cơ bảo mật từ "Vibe-Coding": Hàng nghìn ứng dụng AI để lộ dữ liệu nhạy cảm trên mạng
07 tháng 5, 2026
