DeepSeek-V4 ra mắt: Hiệu suất gần như hàng đầu với chi phí chỉ bằng 1/6 so với GPT-5.5

DeepSeek-V4 đã chính thức ra mắt, mang đến hiệu suất gần như ngang bằng với các mô hình AI hàng đầu của Mỹ nhưng với chi phí API thấp hơn rất nhiều. Mô hình mã nguồn mở này sở hữu kiến trúc Mixture-of-Experts 1,6 nghìn tỷ tham số và hỗ trợ ngữ cảnh lên tới 1 triệu token.

Cá voi đã trồi lên mặt nước. DeepSeek, startup AI đến từ Trung Quốc và là công ty con của quỹ định lượng High-Flyer Capital Management, từng gây chấn động toàn cầu vào tháng 1/2025 với việc ra mắt mô hình mã nguồn mở R1 sánh ngang với các gã khổng lồ Mỹ.

Kể từ đó đến nay là một kỷ nguyên trong thế giới AI, và mặc dù DeepSeek đã phát hành một số bản cập nhật cho dòng mô hình V3, cộng đồng doanh nghiệp và AI quốc tế vẫn đang chờ đợi với sự hồi hộp cho bước tiến tiếp theo sau thành công của R1.

Giờ đây nó đã xuất hiện với việc ra mắt DeepSeek-V4 vào tối qua. Đây là mô hình Mixture-of-Experts (MoE) với 1,6 nghìn tỷ tham số, được cung cấp miễn phí theo giấy phép mã nguồn mở MIT thân thiện với thương mại. Mô hình này tiệm cận — và trên một số benchmark, vượt qua — hiệu suất của các hệ thống mã nguồn đóng tiên tiến nhất thế giới với chi phí qua API (giao diện lập trình ứng dụng) thấp hơn khoảng 1/6.

Bản phát hành này — mà nhà nghiên cứu AI của DeepSeek, Deli Chen, mô tả trên X là "tác phẩm của tình yêu" sau 484 ngày kể từ khi ra mắt V3 — đang được ca ngợi là "thời khắc DeepSeek thứ hai". Như Chen lưu ý trong bài đăng của mình, "AGI thuộc về tất cả mọi người". Mô hình hiện có sẵn trên cộng đồng chia sẻ mã AI Hugging Face và thông qua API của DeepSeek.

AI cấp tiến được đẩy xuống phân khúc giá thấp hơn

Tác động kinh tế tức thì của việc ra mắt DeepSeek-V4 là vô cùng lớn. Bảng giá đã được chỉnh sửa cho thấy DeepSeek không định giá mô hình Pro mới của họ ở mức gần như bằng không, nhưng họ vẫn đang đẩy quyền truy cập vào mô hình cao cấp vào một phân khúc chi phí thấp hơn nhiều so với các mô hình tiên phong hàng đầu của Mỹ.

DeepSeek-V4-Pro được định giá qua API ở mức 1,74 USD cho mỗi 1 triệu token đầu vào (cache miss) và 3,48 USD cho mỗi 1 triệu token đầu ra. Điều này đưa tổng chi phí cho một phép so sánh đơn giản gồm 1 triệu đầu vào và 1 triệu đầu ra lên mức 5,22 USD. Với đầu vào đã được lưu trong bộ nhớ đệm (cached), giá đầu vào giảm xuống 0,145 USD mỗi triệu token, đưa tổng chi phí so sánh đó xuống mức 3,625 USD.

Con số này rẻ hơn đáng kể so với mức giá cao cấp hiện tại của OpenAI và Anthropic. GPT-5.5 có giá 5,00 USD cho mỗi triệu token đầu vào và 30,00 USD cho mỗi triệu token đầu ra, với tổng cộng là 35,00 USD trong cùng một phép so sánh đơn giản. Claude Opus 4.7 có giá 5,00 USD đầu vào và 25,00 USD đầu ra, tổng cộng là 30,00 USD.

Với mức giá tiêu chuẩn (cache miss), DeepSeek-V4-Pro có giá khoảng một phần bảy chi phí của GPT-5.5 và khoảng một phần sáu (1/6) chi phí của Claude Opus 4.7. Với đầu vào đã được lưu trong bộ nhớ đệm, khoảng cách còn nới rộng hơn: DeepSeek-V4-Pro có giá khoảng một phần mười so với GPT-5.5 và khoảng một phần tám so với Claude Opus 4.7.

Câu chuyện giá gần như bằng 0 cực đoan hơn thuộc về DeepSeek-V4-Flash, không phải là mô hình Pro. Flash được định giá ở mức 0,14 USD cho mỗi triệu token đầu vào (cache miss) và 0,28 USD cho mỗi triệu token đầu ra, tổng cộng là 0,42 USD. Với đầu vào đã lưu trong bộ nhớ đệm, con số này giảm xuống 0,308 USD. Trong trường hợp đó, mô hình giá rẻ hơn của DeepSeek thấp hơn hơn 98% so với GPT-5.5 và Claude Opus 4.7 trong phép so sánh đầu vào cộng đầu vào đơn giản, hoặc gần như rẻ hơn 1/100 lần — mặc dù hiệu năng sẽ giảm đi đáng kể.

DeepSeek đang nén kinh tế của các mô hình tiên tiến vào một dải giá thấp hơn nhiều, buộc các nhà phát triển và doanh nghiệp phải xem lại tính toán chi phí-lợi ích xung quanh các mô hình độc quyền cao cấp.

Đối với các công ty chạy khối lượng suy luận (inference) lớn, khoảng cách giá đó có thể thay đổi những gì đáng để tự động hóa. Các nhiệm vụ có vẻ quá đắt đỏ trên GPT-5.5 hoặc Claude Opus 4.7 có thể trở nên khả thi về mặt kinh tế trên DeepSeek-V4-Pro, và thậm chí còn hơn thế nữa trên DeepSeek-V4-Flash. Lần ra mắt này không làm cho trí tuệ trở nên miễn phí, nhưng nó làm cho thị trường khó bảo vệ hơn đối với các nhà cung cấp cao cấp chỉ dựa vào hiệu năng.

Đánh giá hiệu năng: DeepSeek-V4-Pro tiệm cận, nhưng GPT-5.5 và Opus 4.7 vẫn dẫn đầu

DeepSeek-V4-Pro-Max được hiểu tốt nhất là một bước nhảy vọt lớn về trọng số mở (open-weight), không phải là một chiến thắng toàn diện trước các hệ thống mã nguồn đóng mới nhất. Các tuyên bố benchmark mạnh nhất của mô hình đến từ bảng so sánh của chính DeepSeek, nơi nó được so sánh với GPT-5.4 xHigh, Claude Opus 4.6 Max và Gemini 3.1 Pro High và vượt trội họ trên một số bài kiểm tra, bao gồm Codeforces và Apex Shortlist.

Nhưng điều đó không giống như một cuộc đối đầu trực tiếp với GPT-5.5 mới hơn của OpenAI hay Claude Opus 4.7 mới hơn của Anthropic.

Chỉ nhìn vào DeepSeek-V4 so với các mô hình độc quyền mới nhất, bức tranh khiêm tốn hơn. Trên bộ benchmark chung này, GPT-5.5 và Claude Opus 4.7 vẫn dẫn đầu hầu hết các danh mục.

Kết quả tốt nhất của DeepSeek-V4-Pro-Max là trên BrowseComp, benchmark đo khả năng duyệt web của AI tác nhân (đặc biệt là thông tin được đóng gói cao), nơi nó đạt 83,4%, xếp sau GPT-5.5 một chút ở mức 84,4% và trước Claude Opus 4.7 ở mức 79,3%.

Trên Terminal-Bench 2.0, DeepSeek đạt 67,9%, gần với mức 69,4% của Claude Opus 4.7, nhưng tụt xa phía sau mức 82,7% của GPT-5.5.

Kết quả lý học học thuật chung ủng hộ các mô hình mã nguồn đóng: Trên GPQA Diamond, DeepSeek-V4-Pro-Max đạt 90,1%, trong khi GPT-5.5 đạt 93,6% và Claude Opus 4.7 đạt 94,2%.

Vì vậy, về mặt cuối cùng, DeepSeek-V4-Pro-Max dường như không soán ngôi GPT-5.5 hay Claude Opus 4.7 trên các benchmark có thể so sánh trực tiếp qua các bảng đã công bố. Nhưng nó tiệm cận đủ tốt trên một số trong số đó — đặc biệt là BrowseComp, Terminal-Bench 2.0 và MCP Atlas — khiến việc định giá API thấp hơn nhiều của nó trở thành tiêu điểm.

Về mặt thực tế, DeepSeek không cần phải thắng mọi hạng mục trên bảng xếp hạng để trở nên quan trọng. Nếu nó có thể cung cấp hiệu năng gần như tiên phong trên nhiều nhiệm vụ lý luận và tác nhân liên quan đến doanh nghiệp với chi phí API tiêu chuẩn khoảng một phần sáu đến một phần bảy so với GPT-5.5 hoặc Claude Opus 4.7, nó vẫn buộc phải suy nghĩ lại về kinh tế của việc triển khai AI tiên tiến.

Bước nhảy vọt từ DeepSeek V3.2

Để hiểu rõ mức độ của bản phát hành này, ta phải nhìn vào sự cải thiện hiệu suất của các mô hình cơ sở. DeepSeek-V4-Pro-Base đại diện cho một bước tiến đáng kể so với thế hệ trước, DeepSeek-V3.2-Base. Về Kiến thức Thế giới, V4-Pro-Base đạt 90,1 trên MMLU (5-shot) so với 87,8 của V3.2, và một bước nhảy vọt lớn trên MMLU-Pro từ 65,5 lên 73,5.

Sự cải thiện trong lý luận cấp cao và sự thật đã được xác minh còn rõ rệt hơn: trên SuperGPQA, V4-Pro-Base đạt 53,9 so với 45,0 của V3.2, và trên benchmark FACTS Parametric, nó đã hơn gấp đôi hiệu suất của người tiền nhiệm, nhảy vọt từ 27,1 lên 62,6.

Khả năng Ngữ cảnh Dài (Long Context) cũng được tinh chỉnh. Trên LongBench-V2, V4-Pro-Base đạt 51,5, vượt xa mức 40,2 của V3.2-Base.

Một bộ điều khiển lưu thông thông tin mới: Manifold-Constrained Hyper-Connections (mHC)

Khả năng của DeepSeek trong việc cung cấp các con số về giá và hiệu suất này bắt nguồn từ những đổi mới kiến trúc đột phá được chi tiết trong báo cáo kỹ thuật của họ, "Towards Highly Efficient Million-Token Context Intelligence".

Thành tựu kỹ thuật nổi bật nhất của V4 là cửa sổ ngữ cảnh 1 triệu token gốc. Về mặt lịch sử, việc duy trì ngữ cảnh lớn như vậy yêu cầu bộ nhớ khổng lồ (bộ nhớ đệm key-value hoặc KV cache). DeepSeek đã giải quyết vấn đề này bằng cách giới thiệu Kiến trúc Attention Hybrid kết hợp Compressed Sparse Attention (CSA) để giảm tính chiều ban đầu của token và Heavily Compressed Attention (HCA) để nén mạnh dấu chân bộ nhớ cho các phụ thuộc tầm xa.

Để ổn định mạng lưới 1,6 nghìn tỷ tham số, DeepSeek đã vượt qua các kết nối dư truyền thống. Các nhà nghiên cứu của công ty đã kết hợp Manifold-Constrained Hyper-Connections (mHC) để tăng cường truyền tín hiệu qua các lớp trong khi vẫn bảo toàn tính biểu đạt của mô hình.

mHC cho phép AI có dòng chảy thông tin rộng hơn nhiều (để nó có thể học những điều phức tạp hơn) mà không có nguy cơ mô hình trở nên không ổn định hoặc "hỏng" trong quá trình huấn luyện.

Huấn luyện Mixture-of-Experts (MoE) để hoạt động như một thể thống nhất

DeepSeek-V4 không chỉ đơn giản được huấn luyện; nó được "nuôi dưỡng" thông qua một mô hình hai giai đoạn độc đáo.

Đầu tiên, thông qua Nuôi dưỡng Chuyên gia Độc lập, các chuyên gia cụ thể theo lĩnh vực được huấn luyện thông qua Supervised Fine-Tuning (SFT) và Reinforcement Learning (RL) sử dụng thuật toán GRPO. Điều này cho phép mỗi chuyên gia làm chủ các kỹ năng chuyên biệt như lý luận toán học hoặc phân tích cơ sở mã.
Thứ hai, Hợp nhất Mô hình Thống nhất tích hợp các năng lực riêng biệt này thành một mô hình duy nhất thông qua chưng cất on-policy, nơi mô hình thống nhất đóng vai trò là học sinh học cách tối ưu hóa mất mát KL ngược với các mô hình giáo viên.

Các khả năng lý luận của mô hình được chia nhỏ thêm thành ba chế độ "nỗ lực" tăng dần:

Chế độ "Non-think" cung cấp các phản ứng nhanh, trực quan cho các nhiệm vụ thường ngày.
"Think High" cung cấp phân tích logic có ý thức cho giải quyết vấn đề phức tạp.
Cuối cùng, "Think Max" đẩy mạnh giới hạn lý luận của mô hình, thu hẹp khoảng cách với các mô hình tiên phong trong các nhiệm vụ lý luận và tác nhân phức tạp.

Phá vỡ sự kìm kẹp của Nvidia GPU với NPU Huawei Ascend địa phương

Trong khi trọng số mô hình là tiêu đề, phần mềm stack được phát hành cùng với nó có lẽ còn quan trọng hơn đối với tương lai của "AI Chủ quyền". Nhà phân tích Rui Ma đã nhấn mạnh một câu duy nhất từ bản phát hành là quan trọng nhất: DeepSeek đã xác nhận sơ đồ Chuyên gia Song song (EP) tinh-grained của họ trên NPU Huawei Ascend (đơn vị xử lý thần kinh).

Bằng cách đạt được tốc độ tăng từ 1,50x đến 1,73x trên các nền tảng GPU không phải của Nvidia, DeepSeek đã cung cấp một bản thiết kế cho việc triển khai AI hiệu suất cao có khả năng chống chịu với chuỗi cung ứng GPU phương Tây và các biện pháp kiểm soát xuất khẩu.

Tuy nhiên, điều quan trọng cần lưu ý là DeepSeek vẫn khẳng định họ đã sử dụng GPU Nvidia được cấp phép hợp pháp để huấn luyện DeepSeek V4, ngoài các NPU của Huawei.

Cấp phép và triển khai cục bộ

DeepSeek-V4 được phát hành theo Giấy phép MIT, khung permissive nhất trong ngành. Điều này cho phép các nhà phát triển sử dụng, sao chép, sửa đổi và phân phối các trọng số cho mục đích thương mại mà không cần trả tiền bản quyền — một sự tương phản rõ ràng với các "giấy phép trọng số mở bị hạn chế" mà các công ty khác ưa chuộng.

Đối với triển khai cục bộ, DeepSeek khuyến nghị đặt các tham số lấy mẫu ở nhiệt độ = 1.0 và top_p = 1.0. Đối với những người sử dụng chế độ lý luận "Think Max", nhóm đề xuất đặt cửa sổ ngữ cảnh ít nhất là 384K token để tránh cắt ngắn các chuỗi lý luận nội bộ của mô hình.

Phản ứng của cộng đồng và điều gì sẽ đến tiếp theo

Phản ứng của cộng đồng là sự ngạc nhiên và xác nhận. Hugging Face đã chính thức chào đón "cá voi" trở lại, tuyên bố rằng kỷ nguyên độ dài ngữ cảnh 1M hiệu quả về chi phí đã đến.

Các chuyên gia trong ngành lưu ý rằng "thời khắc DeepSeek thứ hai" đã hiệu quả đặt lại quỹ đạo phát triển của toàn bộ lĩnh vực, đặt áp lực lớn lên các nhà cung cấp mã nguồn đóng như OpenAI và Anthropic để biện minh cho mức giá cao cấp của họ.

DeepSeek-V4 không chỉ là một mô hình mới; nó là một thách thức đối với hiện trạng. Bằng cách chứng minh rằng đổi mới kiến trúc có thể thay thế cho việc tối đa hóa tính toán thô, DeepSeek đã làm cho các cấp độ trí tuệ AI cao nhất trở nên dễ tiếp cận với cộng đồng nhà phát triển toàn cầu với chi phí thấp hơn nhiều.