Cohere ra mắt North Mini Code: Mô hình AI lập trình mã nguồn mở chạy trên một GPU H100
Cohere vừa công bố North Mini Code, một mô hình AI lập trình mã nguồn mở được thiết kế để chạy trên một GPU H100 duy nhất hoặc thậm chí là Mac Studio. Mặc dù sở hữu tốc độ xử lý ấn tượng, mô hình này có nhược điểm là tạo ra lượng token đầu ra lớn gấp ba lần so với các đối thủ, gây áp lực về chi phí suy luận.
Cohere ra mắt North Mini Code: Mô hình AI lập trình mã nguồn mở chạy trên một GPU H100
Các đội ngũ kỹ thuật đang xây dựng các quy trình lập trình dựa trên tác nhân AI (agentic coding pipelines) giờ đây đã có một giải pháp mã nguồn mở cụ thể để thay thế cho các mô hình được quản lý như Claude Fable 5 — một giải pháp có thể chạy trên duy nhất một GPU H100. Tuy nhiên, sự đánh đổi ở đây là North Mini Code, vừa được Cohere tung ra vào thứ Ba, tạo ra lượng token đầu ra gấp ba lần so với các mô hình tương đương trong các thử nghiệm độc lập. Đây là một chi phí về độ dài văn bản (verbosity) có thể cộng dồn đáng kể trong các khối lượng công việc sản xuất lớn.
Mô hình mã nguồn mở mới này là một mô hình hỗn hợp chuyên gia (Mixture-of-Experts - MoE) với 30 tỷ tham số, trong đó chỉ có 3 tỷ tham số hoạt động cho mỗi token. Nó được xây dựng chuyên biệt cho kỹ thuật phần mềm dựa trên tác nhân, bao gồm điều phối tác nhân con, ánh xạ kiến trúc, xem xét mã (code review) và làm việc trên terminal. Mô hình hỗ trợ cửa sổ ngữ cảnh 256.000 token với độ dài tạo tối đa 64.000 token và hiện có sẵn trên Hugging Face theo giấy phép Apache 2.0.
Khả năng của North Mini Code
North Mini Code nhắm đến toàn bộ ngăn xếp lập trình tác nhân. Dưới đây là những gì mô hình này có thể làm và nền tảng nó hoạt động.
Kỹ thuật phần mềm. Cohere xây dựng North Mini Code cụ thể cho kỹ thuật phần mềm dựa trên tác nhân, không phải chuyển đổi từ một mô hình đa dụng. Nó có khả năng sử dụng công cụ tích hợp và hỗ trợ tư duy xen kẽ (interleaved thinking), điều mà Cohere cho là cải thiện hiệu suất trong các công việc đa bước của tác nhân.
Ánh xạ kiến trúc và xem xét mã. North Mini Code có thể phân tích và ánh xạ kiến trúc hệ thống, làm nổi bật các phụ thuộc và thực hiện xem xét mã trên các cơ sở mã lớn. Với cửa sổ ngữ cảnh 256.000 token, nó có thể chứa các dự án đa tệp đáng kể trong một lần xử lý ngữ cảnh duy nhất.
Tác nhân dựa trên Terminal. Mô hình được đào tạo cho các môi trường terminal, xử lý các tương tác shell, tập lệnh gói và công cụ dòng lệnh. Cohere đã benchmark nó trên Terminal-Bench v2, kiểm tra các tác nhân trong môi trường terminal thực tế thay vì các tác vụ tạo mã tổng hợp.
Cấu trúc và hiệu suất
North Mini Code là một mô hình hỗn hợp chuyên gia thưa thớt với 128 chuyên gia, trong đó 8 chuyên gia được kích hoạt cho mỗi token. Yêu cầu tính toán tại thời điểm suy luận gần giống với một mô hình 3 tỷ tham số dù tổng tham số lên tới 30 tỷ. Nick Frosst, đồng sáng lập Cohere, đã demo nó chạy trên Mac Studio thông qua MLX với khoảng 20 GB RAM — chính là chiếc máy anh ấy sử dụng cho công việc lập trình cục bộ của mình.
Cohere đã đào tạo mô hình này qua hai giai đoạn tinh chỉnh có giám sát, sau đó là học tập tăng cường với các phần thưởng có thể xác minh trên hơn 70.000 tác vụ trải dài khoảng 5.000 kho lưu trữ, được loại bỏ trùng lặp với SWE-Bench.
Thay vì tối ưu hóa dựa trên một khung tác nhân duy nhất, Cohere đã đào tạo trên ba khung. SWE-Agent sử dụng CLI phong phú với các lệnh chuyên biệt. Mini-SWE-Agent sử dụng một công cụ bash duy nhất với đầu ra shell thô. OpenCode sử dụng các công cụ được nhập riêng lẻ trả về JSON có cấu trúc. Cohere báo cáo mức tăng 10 điểm phần trăm trong đánh giá OpenCode từ cách tiếp cận đa khung này trong khi vẫn duy trì hiệu suất của SWE-Agent.
Đánh đổi và vị thế trên thị trường
North Mini Code bước vào một thị trường hiện nay bao gồm Mistral Devstral Small 2, GitHub Copilot, Cursor và Claude Fable 5 — mỗi cái đều có những đánh đổi chi phí và triển khai riêng biệt.
So sánh benchmark chính của Cohere là với Mistral Devstral Small 2, một mô hình dày đặc 24 tỷ tham số. Trong các thử nghiệm nội bộ do nhà cung cấp báo cáo, Cohere tuyên bố có tốc độ đầu ra cao hơn 2,8 lần và lợi thế độ trễ giữa các token (inter-token latency) cao hơn 30% so với Devstral Small 2 trong cùng cấu hình phần cứng. Cohere cũng tuyên bố trong bài đăng kỹ thuật trên Hugging Face của mình rằng North Mini Code vượt trội hơn các mô hình mã nguồn mở có số lượng tham số gấp 4 lần trên các benchmark được báo cáo, bao gồm cả các mô hình 120 tỷ tham số.
Artificial Analysis xếp hạng nó đứng thứ 8 trong số 127 mô hình có trọng số mở tương đương về tốc độ đầu ra ở mức 210 token mỗi giây, với thời gian đến token đầu tiên là 0,25 giây so với mức trung bình của lớp là 1,95 giây. Nó đứng thứ 18 trong số 127 trên Chỉ số Thông minh (Intelligence Index) của Artificial Analysis. Một cờ đỏ từ cùng dữ liệu này: mô hình đã tạo ra 75 triệu token đầu ra để hoàn thành Chỉ số Thông minh so với mức trung bình của lớp là 25 triệu. Trong các quy trình tác nhân khối lượng lớn, sự dài dòng này cộng dồn thành chi phí và độ trễ suy luận.
"Đột nhiên mọi người bắt đầu suy nghĩ như này: Này, liệu mình có đang nhận được đủ giá trị kinh tế từ các token của một mô hình không?" Frosst nói trong video ra mắt. "Triển khai cục bộ là một cách trao quyền cho con người và biến AI thực sự thành thứ hoạt động vì họ."
GitHub Copilot, Cursor và Claude Code hoạt động dựa trên giá trị theo mức sử dụng hoặc đăng ký thuê bao mà không có tùy chọn tại chỗ (on-premises). Claude Fable 5 của Anthropic, hiện là mô hình lập trình được quản lý công khai mạnh mẽ nhất, có giá 50 USD cho mỗi triệu token đầu ra. Đối với Frosst, mô hình này là đối lập hoàn toàn với Fable.
"Nó nhỏ gọn, tiết kiệm chi phí, apache 2.0 và có thể triển khai cục bộ. Đây là cách mà các LLM nên đi. Nhỏ gọn, mã nguồn mở, minh bạch và có chủ quyền, thay vì lớn, đắt đỏ, độc quyền và bá quyền," Frosst viết trong một bài đăng trên X.
Tác động đối với doanh nghiệp
Đối với các nhóm đang xây dựng các quy trình lập trình tác nhân sản xuất, sự ra mắt của North Mini Code làm rõ một tập hợp các quyết định đã được hình thành trong nhiều tháng qua.
Đào tạo chuyên biệt cho tác nhân hiện là tiêu chuẩn để đánh giá. Sự khác biệt giữa các mô hình được tinh chỉnh cho mã và các mô hình được đào tạo cụ thể cho quy trình tác nhân, với các lệnh gọi công cụ có thể xác minh và độ bền đa khung, hiện là một yếu tố vật chất trong các quyết định quy trình. Bất kỳ nhà cung cấp mô hình nào tuyên bố khả năng lập trình tác nhân đều cần phải trả lời được câu hỏi liệu việc đào tạo của họ có sử dụng các tác nhân tác vụ có thể xác minh hay chỉ được chuyển đổi từ một mô hình đa dụng.
Sự dài dòng là một chi phí ẩn của quy trình mà các benchmark không thể hiện. Artificial Analysis đo lường North Mini Code tạo ra gấp ba lần lượng token đầu ra so với các mô hình tương đương. Sự dài dòng đó cộng dồn qua chi phí suy luận và độ trễ trong các quy trình khối lượng lớn. Kiểm tra thông lượng dựa trên khối lượng công việc thực tế là bước đánh giá mà các bảng xếp hạng benchmark thường bỏ qua.
Sự phân chia giá trị biên giới (frontier pricing) hiện là một quyết định kiến trúc thực sự. Fable 5 với giá 50 USD mỗi triệu token đầu ra và North Mini Code trên một H100 duy nhất đại diện cho một sự đánh đổi thực sự giữa việc kiểm soát chi phí và nơi lưu trữ dữ liệu ở một phía, với chi phí hạ tầng được quản lý ở phía kia. Các nhóm chạy các quy trình lập trình tác nhân khối lượng lớn nên mô hình hóa cả hai đường chi phí dựa trên khối lượng công việc thực tế của họ trước khi cam kết theo một hướng nào.



