Z.ai, startup AI Trung Quốc, vừa trình làng GLM-5.1 - mô hình ngôn ngữ lớn (LLM) mã nguồn mở với 754 tỷ tham số, cho phép xử lý tác vụ tự động lên đến 8 giờ liên tục. GLM-5.1 vượt qua các thế hệ trước về năng lực tối ưu mã nguồn và hiệu suất, mở ra kỷ nguyên mô hình AI 'chạy marathon' thay vì chỉ 'chạy nước rút'.

Z.ai ra mắt GLM-5.1: Mô hình LLM mã nguồn mở với khả năng làm việc tự động 8 giờ liên tục

Z.ai (Zhupai AI), startup AI Trung Quốc nổi bật với dòng mô hình GLM, vừa giới thiệu GLM-5.1 — phiên bản LLM mới nhất sở hữu 754 tỷ tham số được phát hành dưới giấy phép MIT, cho phép doanh nghiệp tùy chỉnh và sử dụng cho mục đích thương mại. Đây là bước tiến đột phá khi GLM-5.1 có thể làm việc một cách tự động liên tục lên đến 8 giờ trên một tác vụ, đánh dấu chuyển đổi từ cách AI xử lý từng bước đơn giản sang kiểu "agentic engineering" — tức AI có khả năng tự vận hành, tự tinh chỉnh và tối ưu từng bước.

GLM-5.1: Mô hình “chạy marathon” của trí tuệ nhân tạo

Thay vì tập trung tăng số lượng token lý luận để cải thiện hiệu năng, GLM-5.1 hướng đến việc duy trì sự đồng bộ mục tiêu trong những chuỗi thực thi dài, với khả năng vượt qua hiệu ứng bão hòa thường thấy ở các LLM trước đây. Cụ thể, mô hình áp dụng mô hình Mixture-of-Experts, phân bổ tính toán linh hoạt nhằm xử lý một khối lượng lớn công việc có tính phức tạp cao lặp lại nhiều lần.

Theo lời nhà phát triển Lou trên nền tảng X, GLM-5.1 có thể thực hiện tới 1.700 bước tác vụ tự động, trong khi các hệ thống trước đó chỉ được khoảng 20 bước. Điều này giúp nó có thể thực hiện các công việc kỹ thuật phần mềm phức tạp với độ chính xác và tính liên tục cao.

Công nghệ đột phá: Mẫu tối ưu dạng “bậc thang”

GLM-5.1 không chỉ nổi bật với quy mô tham số lên tới 754 tỷ và cửa sổ ngữ cảnh 202.752 token, mà quan trọng nhất là khả năng tránh hiện tượng trì trệ hiệu suất — tình trạng thường thấy khi mô hình không thể tiếp tục cải tiến bằng các phương pháp hiện có.

Ở kịch bản tối ưu một cơ sở dữ liệu vector (VectorDBBench), GLM-5.1 đã thực hiện hơn 6.000 lần gọi công cụ và 655 vòng lặp tối ưu hóa, vượt xa con số của Claude Opus 4.6 (khoảng 3.500 truy vấn/giây). Mô hình tự động phát hiện và sửa chữa các nút thắt cổ chai trong kiến trúc, từ chuyển đổi kỹ thuật nén vector đến thiết kế pipeline xử lý hai bước, để tăng hiệu suất lên tới 21.500 truy vấn/giây — gấp 6 lần kết quả tốt nhất của các mô hình trước đó.

Mô hình có thể tự điều chỉnh linh hoạt, sửa chữa lỗi khi hiệu suất thấp bằng cách bù tham số và điều chỉnh chiến lược, thể hiện khả năng tự vận hành gần như một phòng R&D riêng biệt.

Kiểm thử hiệu năng với kernel machine learning

Trong bài kiểm tra KernelBench Level 3, GLM-5.1 được giao nhiệm vụ tối ưu hóa đầu cuối các kiến trúc ML như MobileNet, VGG, MiniGPT trên GPU H100, với giới hạn 1.200 lượt sử dụng công cụ cho mỗi bài toán.

Kết quả cho thấy GLM-5.1 đạt tốc độ tăng trung bình 3,6 lần so với baseline PyTorch, vượt trội đáng kể so với GLM-5 nguyên bản (2,6 lần). Mặc dù Claude Opus 4.6 vẫn dẫn đầu với tốc độ 4,2 lần, bước tiến của GLM-5.1 đã mở rộng đáng kể giới hạn cải tiến bền vững cho các mô hình mã nguồn mở.

Điều quan trọng là GLM-5.1 duy trì được sự đồng bộ mục tiêu trong quy trình thực thi dài, giảm thiểu sai số tích lũy và lệch chiến lược, và chủ động chạy các vòng thử nghiệm tối ưu hóa liên tục.

Chiến lược sản phẩm và mô hình kinh doanh

GLM-5.1 được thiết kế như một công cụ kỹ thuật dành cho lập trình viên và doanh nghiệp, không phải chatbot tiêu dùng đại trà. Z.ai triển khai mô hình này qua hệ sinh thái Coding Plan với 3 gói đăng ký:

Lite (27 USD/quý): Phù hợp khối lượng công việc nhẹ, gấp 3 lần so với kế hoạch Claude Pro.
Pro (81 USD/quý): Dành cho các tác vụ phức tạp, gấp 5 lần Lite, tăng tốc 40-60%.
Max (216 USD/quý): Cho nhóm phát triển có khối lượng lớn, đảm bảo hiệu suất vào giờ cao điểm.

Với người dùng API hoặc qua các nền tảng bên thứ ba, giá GLM-5.1 là 1,40 USD/một triệu token đầu vào và 4,40 USD/một triệu token đầu ra, có mức chiết khấu cache. Đây là mức giá cao hơn Turbo và GLM-5, nhưng đổi lại là khả năng tự vận hành và tối ưu lâu dài.

Ngoài ra, GLM-5.1 còn hỗ trợ triển khai local với nhiều framework inference như vLLM, SGLang, xLLM, phù hợp với doanh nghiệp muốn giữ dữ liệu và mô hình trong nội bộ.

Thành tích benchmark và phản hồi cộng đồng

Trên bộ benchmark SWE-Bench Pro (đánh giá giải pháp vấn đề thực tế từ GitHub), GLM-5.1 đạt 58,4 điểm, vượt qua GPT-5.4 (57,7), Claude Opus 4.6 (57,3), và Gemini 3.1 Pro (54,2).

Mô hình cũng ghi điểm cao ở các bài đánh giá reasoning như Terminal-Bench 2.0, CyberGym, MCP-Atlas, và các kỳ thi toán AIME 2026 (95,3 điểm). Đáng chú ý nhất là bài thử xây dựng môi trường desktop kiểu Linux từ đầu trong 8 giờ, GLM-5.1 đã tự phát triển đầy đủ trình duyệt file, terminal, soạn thảo, quản lý hệ thống, thậm chí cả game, và liên tục hoàn thiện sản phẩm theo từng bước, minh chứng cho khả năng làm việc tự động dài hạn thực sự.

Phản hồi từ cộng đồng lập trình viên rất tích cực, đáng tin cậy, nhiều người cho biết có thể giao phó các công việc phức tạp mà không cần can thiệp nhiều như với các mô hình trước. Một số người còn tiết kiệm được thời gian hoàn thành dự án từ một tuần xuống còn hai ngày.

Ý nghĩa và tương lai của AI làm việc tự động kéo dài

Sự ra đời của GLM-5.1 đánh dấu một bước ngoặt trong cạnh tranh AI, chuyển trọng tâm từ tốc độ xử lý token sang khả năng làm việc liên tục và độc lập trong thời gian dài.

Nếu AI có thể vận hành hiệu quả không cần giám sát hàng giờ đồng hồ, vòng đời phát triển phần mềm sẽ thay đổi căn bản, mở ra kỷ nguyên AI “hoàn tất dự án” thay vì AI “trả lời câu hỏi”.

Tuy nhiên, Z.ai cũng thừa nhận còn nhiều thách thức như đánh giá tự động độ chính xác khi không có thước đo định lượng, tránh rơi vào các cực tiểu địa phương, và giữ tính nhất quán trong chuỗi thao tác kéo dài hàng nghìn bước.

Với việc tương thích nhiều công cụ phát triển phổ biến như Claude Code, OpenCode, Kilo Code… GLM-5.1 không đơn thuần là chatbot, mà trở thành một trợ lý kỹ thuật đích thực, có thể nhận giao việc và lên kế hoạch thực hiện tự động trong nhiều giờ.

Đây chính là bước tiếp theo trong hành trình ứng dụng AI vào đời sống và sản xuất toàn cầu, hướng đến các hệ thống AI đa nhiệm, bền bỉ và thích ứng cao cấp hơn.

Z.ai với GLM-5.1 đã khẳng định vị thế chủ đạo của mình trong làn sóng AI nguồn mở tại khu vực châu Á và trên thế giới, đồng thời mở ra một kỷ nguyên mới cho các nhà phát triển và doanh nghiệp về khả năng tự động hóa phức tạp với AI.

Z.ai ra mắt GLM-5.1: Mô hình LLM mã nguồn mở với khả năng làm việc tự động 8 giờ liên tục

Z.ai ra mắt GLM-5.1: Mô hình LLM mã nguồn mở với khả năng làm việc tự động 8 giờ liên tục

GLM-5.1: Mô hình “chạy marathon” của trí tuệ nhân tạo

Công nghệ đột phá: Mẫu tối ưu dạng “bậc thang”

Kiểm thử hiệu năng với kernel machine learning

Chiến lược sản phẩm và mô hình kinh doanh

Thành tích benchmark và phản hồi cộng đồng

Ý nghĩa và tương lai của AI làm việc tự động kéo dài

Bài viết liên quan