Moonshot AI ra mắt Kimi K2.7-Code: Tối ưu hóa chi phí suy luận nhưng gây tranh cãi về hiệu năng thực tế

Moonshot AI vừa phát hành Kimi K2.7-Code, phiên bản mã nguồn mở cải tiến của dòng mô hình lập trình K2, tuyên bố giảm 30% lượng token suy nghĩ và tăng hiệu suất đáng kể. Tuy nhiên, cộng đồng kỹ thuật đang đặt câu hỏi về tính xác thực của các điểm benchmark nội bộ so với các bài kiểm tra độc lập. Mô hình mới tập trung vào việc viết mã trực tiếp thay vì bọc thư viện, nhưng kết quả thực tế cho thấy sự thận trọng là cần thiết.

Moonshot AI đã tung ra Kimi K2.7-Code vào tuần này, một bản cập nhật mã nguồn mở cho dòng mô hình lập trình K2, với cam kết về khả năng suy luận gọn nhẹ hơn và cải thiện hiệu suất hai con số. K2.7-Code được xây dựng dựa trên kiến trúc Mixture-of-Experts (MoE) với một nghìn tỷ tham số, giống như người tiền nhiệm K2.6, và có thể tích hợp thông qua API tương thích OpenAI — một yếu tố quan trọng đối với các đội ngũ đang vận hành K2.6 trong các cổng sản xuất thực tế.

Khi K2.6 ra mắt vào tháng 4, nó đã đứng đầu bảng xếp hạng LLM hàng tuần của OpenRouter — một bảng xếp hạng dựa trên các quyết định định tuyến API thực tế của các nhà phát triển, không phải là điểm số benchmark tự báo cáo. Moonshot AI khẳng định K2.7-Code giải quyết vấn đề được gọi là "suy nghĩ quá mức" (overthinking), giúp giảm 30% việc sử dụng token suy nghĩ so với K2.6. Con số này sẽ ảnh hưởng trực tiếp đến chi phí suy luận (inference costs) cho các nhóm chạy quy trình làm việc tác nhân (agentic workflows). Tuy nhiên, việc liệu mức cải thiện hiệu quả này có giữ vững trên các benchmark độc lập hay không là câu hỏi mà các chuyên gia thực tế đã bắt đầu đặt ra công khai.

Kimi K2.7-Code là gì?

K2.7-Code được phát hành theo giấy phép Modified MIT, với các trọng số (weights) có sẵn trên HuggingFace. Mô hình có thể triển khai qua vLLM hoặc SGLang. Nó chỉ chạy ở chế độ suy nghĩ (thinking mode) và không hỗ trợ điều chỉnh nhiệt độ (temperature adjustment) — Moonshot AI đã cố định nó ở mức 1.0, nghĩa là các nhóm không thể tinh chỉnh tính xác định của đầu ra như cách họ có thể làm với các mô hình khác.

Thay đổi cốt lõi so với K2.6 nằm ở cách mô hình tạo ra mã cấp thấp. Trong khi K2.6 tạo ra các bản triển khai bằng cách bọc các thư viện hiện có và định tuyến qua các khung công tác đã thiết lập, K2.7-Code viết trực tiếp các bản triển khai. Moonshot AI cho biết điều này tạo ra khả năng khái quát hóa (generalization) đáng tin cậy hơn trên Rust, Go và Python, cũng như trên các loại nhiệm vụ bao gồm phát triển frontend, DevOps và tối ưu hóa hiệu suất.

Về hiệu suất benchmark, Moonshot AI tuyên bố mức tăng 21,8% trên Kimi Code Bench v2, 11% trên Program Bench và 31,5% trên MLS Bench Lite. Cả ba đều là các benchmark độc quyền do Moonshot AI vận hành. Mô hình chưa được gửi đến DeepSWE, một benchmark lập trình độc lập tạo ra sự chênh lệch 70 điểm giữa các mô hình — so với sự chênh lệch 30 điểm của SWE-Bench Pro — khiến nó trở thành tín hiệu phân biệt tốt hơn cho các nhóm cấu hình hệ thống định tuyến mô hình.

Trung thực hơn nhưng kém hiệu quả hơn?

Bức tranh từ bên ngoài các benchmark của riêng Moonshot phức tạp hơn. Nghiên cứu viên Elliot Arledge đã chạy K2.7-Code đối đầu với K2.6 và Claude Fable 5 trên KernelBench-Hard, một benchmark công khai tập trung vào tối ưu hóa kernel GPU, và công bố nhật ký chạy đầy đủ tại kernelbench.com.

"K2.7 trung thực hơn nhưng không có khả năng hơn," Arledge viết trên X.

Trong năm trong số sáu vấn đề, K2.7-Code đã tạo ra các kernel Triton thực sự được viết ra, trong khi K2.6 sử dụng các trình bao bọc thư viện. Hai trong số các kernel này đã thất bại do lỗi của chính mô hình. Kết quả kernel MoE đã giảm từ điểm số 0,222 của K2.6 xuống 0,157.

"Fable, để tham khảo, đứng đầu mọi ô mà nó không thất bại một cách trung thực," Arledge viết.

Sugumaran Balasubramaniyan, một nhà phát triển đã xây dựng bộ định tuyến nhiệm vụ mô hình cho nền tảng Hermes Agent bằng DeepSWE làm tín hiệu tham chiếu, đã phản hồi công khai trước bản phát hành K2.7-Code và thách thức trực tiếp Moonshot AI về các lựa chọn benchmark.

"Trân trọng, mọi mô hình đều 'cải thiện' hai con số trên bộ kiểm tra của chính mình," Balasubramaniyan viết trên X.

Ông lưu ý rằng K2.6 đạt 24% trên DeepSWE, ngang bằng với GPT-5.4-mini, và hỏi liệu Moonshot AI có gửi K2.7-Code đến cùng một benchmark đó hay không. Balasubramaniyan cho biết đã mất 13 vòng đánh giá để đưa dữ liệu benchmark đúng cho bộ định tuyến của mình và ông sẽ định tuyến các tác vụ lập trình đến K2.7-Code nếu các số liệu độc lập chứng minh được điều đó.

Ý nghĩa đối với doanh nghiệp

Lợi ích về hiệu quả token có thể sử dụng ngay lập tức. Các nhóm đang chạy K2.6 trong sản xuất có thể thay thế bằng K2.7-Code thông qua API tương thích OpenAI và mong đợi chi phí suy luận thấp hơn cho các quy trình tác nhân mà không cần thay đổi kiến trúc. Việc giảm 30% token suy nghĩ là con số của riêng Moonshot, nhưng lộ trình tích hợp đủ rủi ro thấp để kiểm tra với khối lượng công việc của riêng bạn trước khi cam kết.

Câu hỏi thực tế là liệu những lợi ích về hiệu quả đó có giữ vững trên phân phối nhiệm vụ của riêng một nhóm hay không. Chạy K2.7-Code đối đầu với khối lượng công việc của riêng bạn trước khi điều chỉnh trọng số cổng (gateway weights) là con đường rủi ro thấp để tìm ra câu trả lời.

Moonshot AI ra mắt Kimi K2.7-Code: Tối ưu hóa chi phí suy luận nhưng gây tranh cãi về hiệu năng thực tế

Kimi K2.7-Code là gì?

Trung thực hơn nhưng kém hiệu quả hơn?

Ý nghĩa đối với doanh nghiệp

Bài viết liên quan