Alibaba ra mắt Qwen3.7-Max: Mô hình AI tự chủ chạy liên tục 35 giờ, hỗ trợ Claude Code

Ngành công nghệ AI đã bước vào kỷ nguyên của các tác nhân tự chủ với sự ra mắt của Qwen3.7-Max từ Alibaba. Mô hình này có thể hoạt động liên tục trong 35 giờ để thực hiện các nhiệm vụ phức tạp, nhưng sẽ chỉ được phân phối dưới dạng thương mại thay vì mã nguồn mở.

Ngành công nghiệp AI đã chính thức bước vào "kỷ nguyên của các tác nhân" (agent era), một thời điểm mà các mô hình AI không chỉ đơn thuần tạo ra văn bản mà còn chủ động lập kế hoạch, thực thi và tự điều chỉnh các nhiệm vụ phức tạp trong nhiều ngày thay vì chỉ vài giây.

Điều này giải thích lý do đội ngũ nghiên cứu AI Qwen nổi tiếng của gã khổng lồ thương mại điện tử Trung Quốc Alibaba vừa công bố một mô hình có khả năng thực hiện công việc của tác nhân AI tự chủ trong nhiều ngày: Qwen3.7-Max. Theo bài đăng trên blog của công ty, mô hình này đã đạt được "~35 giờ thực thi tự chủ liên tục". Tuy nhiên, khác với các bản phát hành trước đây, Qwen3.7-Max là một mô hình độc quyền (proprietary), không phải mã nguồn mở.

Đây là bước đi có thể dự đoán được sau sự ra đi của một số lãnh đạo chủ chốt của đội ngũ Qwen vào đầu năm nay. Về mặt tài chính, việc đào tạo các mô hình AI, đặc biệt là những mô hình mạnh mẽ như Qwen3.7-Max, là rất tốn kém, và việc cung cấp chúng miễn phí như các mô hình mã nguồn mở không giúp thu hồi chi phí ngay lập tức. Theo cách này, Alibaba đang đồng bộ hóa nỗ lực của mình với các gã khổng lồ AI Mỹ như OpenAI và Google bằng cách chỉ cung cấp các mô hình mới nhất và tốt nhất thông qua các API trả phí và gói đăng ký.

Sự xuất hiện của Qwen3.7-Max mang lại nhiều lựa chọn hơn cho doanh nghiệp và người dùng cá nhân, đồng thời tạo ra sự cạnh tranh cho các phòng thí nghiệm AI Mỹ. Tuy nhiên, việc mô hình này chỉ có thể truy cập từ các điểm cuối (endpoints) đặt tại Trung Quốc có thể hạn chế sức hấp dẫn đối với các doanh nghiệp Mỹ và Châu Âu đang tìm cách tối đa hóa việc tuân thủ và bảo mật dữ liệu.

Kỷ nguyên AI Marathon

Để hiểu tại sao Qwen3.7-Max lại khác biệt so với các mô hình trước đây, chúng ta cần xem xét cách nó được đào tạo và cách nó hoạt động trong thực tế.

Các mô hình ngôn ngữ thường bị suy giảm chất lượng khi bị buộc duy trì một chuỗi suy nghĩ duy nhất qua hàng nghìn lượt hội thoại; chúng quên chỉ dẫn, ảo giác các biến số hoặc đơn giản là bị mắc kẹt trong các vòng lặp logic. Qwen3.7-Max được thiết kế cụ thể như một "nền tảng tác nhân đa năng" có khả năng "lý luận tầm xa" (long-horizon reasoning) để vượt qua chính điểm nghẽn này.

Minh chứng rõ ràng nhất cho khả năng này là một nhiệm vụ kỹ thuật tự chủ được đội ngũ Qwen chi tiết hóa. Mô hình được cấp quyền truy cập vào một máy chủ riêng biệt được trang bị T-Head ZW-M890 PPU — một kiến trúc phần cứng mà mô hình chưa từng gặp trong quá trình đào tạo. Nhiệm vụ của nó là tối ưu hóa một nhân (kernel) chú ý.

Trong suốt 35 giờ liên tục, Qwen3.7-Max hoạt động hoàn toàn tự chủ. Nó đã thực hiện 1.158 lệnh gọi công cụ riêng biệt, thực hiện 432 đánh giá nhân, chẩn đoán lỗi biên dịch và cải tiến mã lặp đi lặp lại để đạt tốc độ tăng trưởng trung bình hình học 10,0 lần.

So sánh với các đối thủ cạnh tranh Trung Quốc như GLM-5.1 của z.ai và Kimi K2.6 của Moonshot vốn chỉ đạt mức tăng tốc lần lượt là 7,3x và 5,0x (thường tự chấm dứt phiên làm việc khi không đạt được tiến bộ), Qwen3.7-Max thể hiện sự vượt trội rõ rệt.

Sự bền bỉ này đạt được thông qua những gì Alibaba gọi là "mở rộng quy mô môi trường". Giống như các LLM sớm trở nên thông minh hơn khi tiêu thụ văn bản đa dạng hơn, Qwen3.7-Max được đào tạo trên một mảng quy mô lớn các môi trường tác nhân động.

Nó có khả năng mô phỏng vòng đời một năm của một startup trong bài đánh giá "YC-Bench", điều hướng hàng trăm vòng ra quyết định bao gồm quản lý nhân sự và sàng lọc hợp đồng. Trong mô phỏng này, mô hình đã quản lý để tạo ra 2,08 triệu doanh thu ảo, gần gấp đôi hiệu suất của thế hệ trước, Qwen3.6-Plus.

Hơn nữa, mô hình có khả năng tự giám sát việc lợi dụng phần thưởng (reward-hacking), tự động phát hiện khi nó cố gắng gian lận môi trường đào tạo và thêm các quy tắc heuristic để sửa đổi hành vi của chính mình.

Bộ não cho mọi khung ứng dụng

Dưới góc độ sản phẩm, Qwen3.7-Max được thiết kế để trở thành động cơ nhận thức cho phát triển phần mềm hiện đại và tự động hóa doanh nghiệp.

Mô hình cung cấp cửa sổ ngữ cảnh khổng lồ lên tới 1 triệu token và giới hạn đầu ra tối đa 64K, cung cấp khả năng xử lý khổng lồ cho các cơ sở mã (codebase) khổng lồ hoặc các tài liệu kỹ thuật dài.

Một trong những tính năng hấp dẫn nhất là "tổng quát hóa đa khung" (cross-harness generalization). Thay vì được mã hóa cứng để hoạt động tốt nhất trong một giao diện độc quyền cụ thể, Qwen3.7-Max được xây dựng để hoạt động như một lớp thông minh có thể cắm vào cho các khung tác nhân đa dạng. Nó hỗ trợ giao thức API của Anthropic một cách gốc, cho phép các nhà phát triển cắm nó trực tiếp vào các công cụ hiện có như Claude Code hoặc OpenClaw.

Dữ liệu benchmark do Alibaba cung cấp cho thấy cách tiếp cận tổng quát này đã mang lại lợi ích to lớn.

Trên benchmark Apex Math Reasoning, Qwen3.7-Max đạt 44,5 điểm, vượt qua điểm số của Claude Opus-4.6 Max là 34,5 và DeepSeek V4-Pro Max là 38,3. Nó cũng ghi được các điểm số áp đảo trên Humanity's Last Exam (41,4) và benchmark tác nhân mã hóa thực tế MCP-Atlas (76,4).

Điều này chuyển hóa thành tiện ích hữu hình cho người dùng cuối. Thông qua các tích hợp Model Context Protocol (MCP) mã nguồn mở, mô hình có thể hoạt động như một trợ lý văn phòng tự chủ, có khả năng đọc các quy cách định dạng đại học và tự động định dạng lại một tài liệu Word lộn xộn thông qua các công cụ dòng lệnh mà không có sự can thiệp của con người.

Chi phí sử dụng

Việc chạy mức độ thông minh này đi kèm với một chi phí riêng biệt. Các nhà phát triển truy cập API thông qua Alibaba Cloud Model Studio sẽ trả 2,50 USD cho mỗi 1 triệu token đầu vào và 7,50 USD cho mỗi 1 triệu token đầu ra. Nền tảng cũng có tính giá rõ ràng cho việc tạo và đọc bộ nhớ đệm, cũng như phí 10 USD cho mỗi 1.000 lệnh gọi cho các tìm kiếm web tích hợp, mặc dù các công cụ thông dịch mã vẫn miễn phí trong một thời gian giới hạn.

Qwen3.7-Max chiếm một vị trí chiến lược ở mức trung bình trong nền kinh tế API hiện tại. Trong khi nó đòi hỏi mức phí cao hơn đáng kể so với các đối thủ trong nước giá rẻ — tốn gần gấp đôi DeepSeek V4 Pro (5,22 USD) và GLM-5.1 của Z.ai (5,80 USD) — thì nó lại rẻ hơn nhiều so với các gã khổng lồ phương Tây mà nó thường xuyên sánh ngang trên các benchmark.

Để so sánh, chạy các quy trình công việc tác nhân nặng thông qua GPT-5.4 của OpenAI hoặc Claude Opus 4.7 của Anthropic sẽ tốn của các nhà phát triển lần lượt là 17,50 USD và 30,00 USD cho mỗi triệu token.

Dưới đây là bảng giá so sánh các mô hình AI hàng đầu hiện nay:

Mô hình	Đầu vào	Đầu ra	Tổng chi phí	Nguồn
MiMo-V2.5 Flash	$0.10	$0.30	$0.40	Xiaomi MiMo
MiniMax M2.7	$0.30	$1.20	$1.50	MiniMax
Gemini 3.1 Flash-Lite	$0.25	$1.50	$1.75	Google
Kimi-K2.6	$0.95	$4.00	$4.95	Moonshot/Kimi
GLM-5.1	$1.40	$4.40	$5.80	Z.ai
DeepSeek V4 Pro	$1.74	$3.48	$5.22	DeepSeek
Qwen3.7-Max	$2.50	$7.50	$10.00	Alibaba Cloud
Gemini 3.5 Flash	$1.50	$9.00	$10.50	Google
GPT-5.4	$2.50	$15.00	$17.50	OpenAI
Claude Opus 4.7	$5.00	$25.00	$30.00	Anthropic

Bằng cách định vị Qwen3.7-Max ngay dưới Gemini 3.5 Flash của Google (10,50 USD) nhưng cao hơn nhiều so với các mô hình phân khúc ngân sách, Alibaba đang signaling rằng đây không phải là một bản phát hành hàng hóa; đó là một động cơ lý luận cờ bài (flagship) được định giá để lôi cuốn khối lượng công việc của doanh nghiệp khỏi các dịch vụ đắt đỏ nhất ở Thung lũng Silicon.

Giấy phép vẫn là độc quyền cho đến hiện tại

Đối với tất cả sự rực rỡ về mặt kỹ thuật, khía cạnh gây tranh cãi nhất của Qwen3.7-Max là cách nó được phân phối. Qwen đang gọi bản phát hành này là một "mô hình độc quyền". Nó chỉ hoạt động thông qua API.

Về mặt lịch sử, Qwen của Alibaba一直是 một người hùng của cộng đồng mã nguồn mở và LLM cục bộ (local LLM). Các phiên bản trước, như Qwen 2.5 và Qwen 3.6, đã công khai các trọng số (weights) của họ. Các trọng số mở cho phép các nhà phát triển, nhà nghiên cứu và doanh nghiệp tải xuống mô hình, chạy nó trên phần cứng của riêng họ và tinh chỉnh nó cho các trường hợp sử dụng cụ thể hoặc nhạy cảm về dữ liệu mà không cần gửi thông tin độc quyền cho máy chủ của bên thứ ba.

Bằng cách khóa Qwen3.7-Max sau một API, Alibaba đang chuyển sang chiến lược thương mại tiêu chuẩn được sử dụng bởi OpenAI (với GPT-4) và Anthropic (với Claude). Đối với người dùng doanh nghiệp, điều này có nghĩa là việc sử dụng Qwen3.7-Max yêu cầu tin tưởng Alibaba Cloud với các luồng dữ liệu của họ và dựa hoàn toàn vào kết nối internet để chạy các quy trình tác nhân của họ. Đối với cộng đồng mã nguồn mở, điều này có nghĩa là mất quyền truy cập vào một trong những mô hình có khả năng nhất hiện nay trên hành tinh.

Phản ứng của cộng đồng: Ngưỡng mộ và thất vọng

Phản ứng từ cộng đồng nhà phát triển đã diễn ra nhanh chóng, được đặc trưng bởi sự pha trộn giữa sự tôn trọng sâu sắc đối với thành tích kỹ thuật và sự thất vọng về mô hình cấp phép.

Nhà bình luận AI nổi tiếng Sudo su (@sudoingX) đã nắm bắt được tâm lý phổ biến trên X (trước đây là Twitter). "qwen thật phi thường," họ viết. "họ vừa tung ra 3.7 max và nó đang đánh bại opus 4.6 max trên hầu hết các benchmark họ chạy".

Các chỉ số kỹ thuật, đặc biệt là độ bền của mô hình, đã khiến nhiều người trong lĩnh vực này choáng váng. "con số apex math, 44,5 so với opus 34,5, đó không phải là một khoảng cách nhỏ," Sudo su lưu ý. "35 giờ thẳng trên một nhiệm vụ tối ưu hóa kernel với hơn 1000 lệnh gọi công cụ là phần tôi cứ đọc đi đọc lại. đó là điều kỷ nguyên tác nhân thực sự xảy ra, không phải trên slide".

Tốc độ lặp lại của Alibaba cũng đang thu hút sự chú ý. Với Qwen 3.6 được phát hành chỉ tháng trước, bước nhảy vọt lên 3.7-Max làm nổi bật một nhịp độ phát triển không ngừng nghỉ. Như Sudo su quan sát, "không ai khác đang di chuyển như thế này".

Tuy nhiên, lời khen ngợi đi kèm với nhiều điều cảnh báo do sự chuyển đổi sang hệ sinh thái khép kín. Việc mất các trọng số mô hình được coi là một đòn đánh vào phong trào AI cục bộ, phong trào này dựa vào các mô hình mở tiên tiến để đẩy mạnh ranh giới những gì có thể thực hiện trên phần cứng người tiêu dùng hoặc các cụm doanh nghiệp tư nhân.

"một điều thôi, vui lòng mã nguồn mở bản này nữa," Sudo su cầu xin trong bài đăng của mình. "3.6 dense đã làm cho toàn bộ hệ sinh thái llm cục bộ tốt hơn. việc cấp max chỉ qua api sẽ đóng lại một cánh cửa chúng ta đã giữ mở. hãy cho chúng tôi các trọng số vào một ngày nào đó".

Qwen3.7-Max chứng minh rằng kỷ nguyên tác nhân tự chủ không còn là một dự đoán lý thuyết; nó là một thực tế hiện tại có khả năng thực hiện các kỳ tích kỹ thuật phức tạp trong khi con người ngủ. Câu hỏi duy nhất bây giờ là whether ranh giới mới của AI này sẽ là một tài nguyên được dân chủ hóa mà bạn có thể tải xuống máy tính xách tay của mình, hay một tiện ích trí tuệ được thuê chặt chẽ từ đám mây. Hiện tại, với Qwen3.7-Max, đó chắc chắn là cái sau.