Kimi K2.6 chạy tác nhân AI trong nhiều ngày — và bộc lộ giới hạn của công cụ điều phối doanh nghiệp

Các khung điều phối hiện tại thường được xây dựng cho các tác vụ diễn ra trong vài phút, nhưng model mới Kimi K2.6 của Moonshot AI đang đẩy giới hạn này lên tới hàng ngày liền. Sự phát triển của các "tác nhân đường dài" (long-horizon agents) đang đặt ra thách thức lớn về quản lý trạng thái, kiểm soát an ninh và kiến trúc hạ tầng cho doanh nghiệp.

Phần lớn các khung điều phối (orchestration frameworks) được xây dựng dựa trên giả định rằng các tác nhân AI (agents) sẽ chỉ chạy trong vài giây hoặc vài phút. Tuy nhiên, khi các tác nhân này nay đã có khả năng hoạt động liên tục trong nhiều giờ — và trong một số trường hợp là nhiều ngày — những khung nền tảng cũ kỹ đó bắt đầu lộ rõ những điểm gãy vỡ.

Một số nhà cung cấp model lớn như Anthropic với Claude Code hay OpenAI với Codex đã sớm hỗ trợ các tác nhân dài hạn thông qua các tác vụ đa phiên (multi-session), tác nhân phụ (subagents) và thực thi nền. Tuy nhiên, các hệ thống này đôi khi vẫn giả định rằng tác nhân đang hoạt động trong các quy trình công việc có giới hạn thời gian, dù thực tế chúng chạy trong thời gian dài.

Nhà cung cấp model mã nguồn mở Moonshot AI muốn vượt qua giới hạn đó với model mới nhất của mình: Kimi K2.6.

Moonshot cho biết model này được thiết kế cho việc thực thi liên tục, với các trường hợp sử dụng nội bộ bao gồm các tác nhân chạy trong nhiều giờ và thậm chí một trường hợp kéo dài 5 ngày liền mạch, tự chủ xử lý việc giám sát và phản ứng sự cố.

Sự gia tăng sử dụng loại tác nhân này đang bộc lộ một khoảng trống nghiêm trọng trong khả năng điều phối: hầu hết các khung điều phối hiện tại không được thiết kế cho kiểu thực thi liên tục và có trạng thái (stateful) như vậy. Các model mã nguồn mở như Kimi K2.6, dựa vào cơ chế "đàn tác nhân" (agent swarms), đang chứng minh rằng cách tiếp cận điều phối của họ có khả năng quản lý các tác nhân trạng thái tốt hơn.

Thách thức trong việc điều phối các tác nhân dài hạn

Mặc dù nhiều doanh nghiệp muốn tự xây dựng khung điều phối riêng cho hệ sinh thái tác nhân của mình, các nhà cung cấp model và nền tảng tác nhân vẫn nhận thấy việc cung cấp công cụ quản lý tác nhân là một lợi thế cạnh tranh.

Các nhà cung cấp khác cũng bắt đầu khám phá các tác nhân dài hạn, chủ yếu thông qua các tác vụ đa phiên và thực thi nền. Ví dụ, Claude Code của Anthropic điều phối các tác nhân bằng một tác nhân chính điều hướng các tác nhân khác dựa trên bộ định nghĩa do người dùng hướng dẫn. OpenAI Codex hoạt động tương tự.

Kimi K2.6 tiếp cận việc điều phối với phiên bản cải tiến của Agent Swarms, có khả năng quản lý tới 300 tác nhân phụ "thực thi qua 4.000 bước phối hợp đồng thời", Moonshot AI viết trong bài đăng trên blog. So với cả Claude Code và Codex, K2.6 dựa vào chính model để xác định điều phối thay vì dựa vào các vai trò được xác định trước.

Kimi K2.6 hiện đã có sẵn trên Hugging Face, thông qua API, Kimi Code và ứng dụng Kimi.

Các chuyên gia thực nghiệm cho rằng sự mong manh của hệ thống sâu hơn nhiều so với việc chỉ sửa đổi lời nhắc (prompt).

Như chuyên gia Maxim Saplin nhận định trong một bài blog: "Điều đó không có nghĩa là các tác nhân phụ vô dụng. Nó có nghĩa là việc điều phối vẫn mong manh. Hiện tại, cảm giác nó giống như một vấn đề về sản phẩm và đào tạo hơn là thứ bạn có thể giải quyết bằng cách viết một lời nhắc đủ nghiêm khắc."

Vấn đề mà các tác nhân dài hạn đặt ra là khó khăn trong việc duy trì trạng thái (state), đặc biệt khi môi trường xung quanh tiếp tục thay đổi trong khi chúng đang làm việc. Tác nhân sẽ liên tục gọi các công cụ và API khác nhau hoặc truy cập các cơ sở dữ liệu khác nhau trong thời gian chạy. Hầu hết các tác nhân hiện nay chỉ gọi các công cụ khác nhau trong tối đa một phút.

Mark Lambert, Giám đốc Sản phẩm tại ArmorCode — nền tảng an ninh tự chủ cho doanh nghiệp — cho biết trong email gửi VentureBeat rằng khoảng trống quản trị (governance gap) đang vượt tốc độ triển khai.

"Các hệ thống tác nhân này giờ đây có thể tạo ra mã và thay đổi hệ thống nhanh hơn nhiều so với khả năng xem xét, khắc phục hoặc quản lý của hầu hết các tổ chức. Điều này sẽ yêu cầu nhiều hơn là chỉ quét mã thêm. Các tổ chức sẽ cần quản trị AI mạnh mẽ hơn, cung cấp ngữ cảnh, sự ưu tiên và trách nhiệm giải trình mà các nhóm cần để quản lý rủi ro do Kimi và các AI khác tạo ra trước khi chúng trở thành lỗ hổng tích lũy," Lambert nói.

Các tác nhân chạy dài cũng có nguy cơ thất bại mà không có cơ chế hoàn tác (rollback) rõ ràng. Quan trọng hơn, các loại tác nhân này thường thiếu một bộ nhiệm vụ được xác định rõ ràng và điều chỉnh kế hoạch một cách linh động khi chạy.

Kunal Anand, Giám đốc Sản phẩm tại F5, cho biết các tác nhân đường dài đại diện cho sự thay đổi kiến trúc lớn hơn nhiều so với gì mà hầu hết các công ty đã chuẩn bị.

"Chúng ta đi từ script (kịch bản) đến dịch vụ, đến container, đến hàm, và bây giờ là tác nhân như là hạ tầng bền vững. Điều đó tạo ra các danh mục mà chúng ta chưa có tên gọi tốt: thời gian chạy tác nhân (agent runtime), cổng tác nhân (agent gateway), nhà cung cấp danh tính tác nhân (agent identity provider), lưới tác nhân (agent mesh). Mô hình cổng API đang biến thành thứ phải hiểu về mục tiêu và quy trình làm việc, không chỉ là các điểm cuối và động từ," Anand nhận định.

Chạy trong 13 giờ và thậm chí 5 ngày

Việc hiểu cách điều phối tác nhân trở nên quan trọng vì khả năng của model đã bắt đầu vượt qua các đổi mới điều phối, ngay khi các doanh nghiệp bắt đầu nhìn vào các tác nhân đường dài.

Moonshot AI cho biết model được xây dựng cho các tác vụ phản ánh "thách thức thực tế thường yêu cầu nhiều tuần hoặc tháng nỗ lực của con người". Trong một tài liệu kỹ thuật riêng gửi cho VentureBeat, Moonshot tuyên bố K2.6 đã xây dựng một trình biên dịch SysY hoàn chỉnh từ con số 0 trong 10 giờ — công việc được mô tả là tương đương với một đội gồm 4 kỹ sư trong 2 tháng — và vượt qua tất cả 140 bài kiểm tra chức năng mà không có sự can thiệp của con người.

Đội ngũ đã triển khai K2.6 cho các nhiệm vụ kỹ thuật phức tạp, bao gồm việc cải tổ hoàn toàn một động cơ đối sánh tài chính mã nguồn mở 8 năm tuổi. Các kỹ sư của Moonshot mô tả một quá trình thực thi kéo dài 13 giờ mà "đã lặp lại qua 12 chiến lược tối ưu hóa, khởi chạy hơn 1.000 lần gọi công cụ để sửa đổi chính xác hơn 4.000 dòng mã."

Moonshot cho biết một trong các đội ngũ của họ đã sử dụng K2.6 để xây dựng một tác nhân chạy tự chủ trong 5 ngày. Tác nhân đó đã quản lý việc giám sát, phản ứng sự cố và vận hành hệ thống.

Kimi K2.6 chạy tác nhân AI trong nhiều ngày — và bộc lộ giới hạn của công cụ điều phối doanh nghiệp

Thách thức trong việc điều phối các tác nhân dài hạn

Chạy trong 13 giờ và thậm chí 5 ngày

Bài viết liên quan