Hugging Face giới thiệu Open R1: Dự án mã nguồn mở tái tạo DeepSeek-R1

Hugging Face chính thức ra mắt dự án Open R1, một nỗ lực nhằm tái tạo hoàn toàn quy trình phát triển của mô hình DeepSeek-R1. Dự án cung cấp các công cụ, tập dữ liệu và hướng dẫn chi tiết giúp cộng đồng AI tiếp cận và xây dựng các mô hình có khả năng suy luận (reasoning) mạnh mẽ.

Hugging Face đã công bố dự án Open R1, một sáng kiến mã nguồn mở đầy tham vọng nhằm tái tạo hoàn toàn quy trình xây dựng mô hình DeepSeek-R1. Với mục tiêu minh bạch hóa các kỹ thuật huấn luyện tiên tiến, dự án này cung cấp cho cộng đồng phát triển AI những công cụ cần thiết để tái hiện và cải thiện các mô hình có khả năng suy luận (reasoning) phức tạp.

Dự án hiện đang trong quá trình phát triển tích cực và mời gọi sự đóng góp từ cộng đồng để hoàn thiện các mảnh ghép còn thiếu trong quy trình R1.

Kế hoạch triển khai chi tiết

Để đạt được mục tiêu tái tạo DeepSeek-R1, nhóm phát triển đã đưa ra một lộ trình rõ ràng gồm ba bước chính:

Tái tạo R1-Distill: Chưng cất (distill) một kho ngữ liệu chất lượng cao từ DeepSeek-R1 để tạo ra các mô hình nhỏ hơn nhưng vẫn giữ được khả năng suy luận.
Tái tạo quy trình RL thuần túy: Xây dựng quy trình Học tăng cường (Reinforcement Learning) mà DeepSeek sử dụng để tạo ra R1-Zero, bao gồm việc biên soạn các tập dữ liệu quy mô lớn về toán học, lý luận và mã nguồn.
Huấn luyện đa giai đoạn: Chứng minh khả năng chuyển đổi từ mô hình cơ sở (base model) sang mô hình đã tinh chỉnh qua RL thông qua quy trình huấn luyện nhiều giai đoạn.

Kế hoạch triển khai dự án Open R1

Các cập nhật và tập dữ liệu mới

Dự án đã đạt được những tiến bộ đáng kể với việc phát hành các tập dữ liệu quan trọng:

Mixture-of-Thoughts: Một tập dữ liệu lý luận được biên soạn kỹ lưỡng gồm 350.000 dấu vết suy luận (traces) được chưng cất từ R1. Tập dữ liệu này bao gồm các nhiệm vụ trong toán học, lập trình và khoa học.
CodeForces-CoTs: Cung cấp 10.000 bài toán lập trình cạnh tranh và 100.000 giải pháp được chưng cất từ R1.
OpenR1-Math-220k: Tập dữ liệu gồm 220.000 dấu vết toán học trên phiên bản mới của NuminaMath.

Công nghệ và quy trình huấn luyện

Open R1 sử dụng các công nghệ hiện đại nhất để đảm bảo hiệu suất cao:

Môi trường: Yêu cầu CUDA 12.4, sử dụng uv để quản lý môi trường ảo, cùng với các thư viện như vLLM và FlashAttention.
Phương pháp: Hỗ trợ hai phương pháp huấn luyện chính là SFT (Supervised Fine-Tuning) và GRPO (Group Relative Policy Optimization).
Cấu hình: Các lệnh huấn luyện được tối ưu hóa cho các cụm máy chủ sử dụng GPU H100 (80GB), hỗ trợ cả DDP và DeepSpeed (ZeRO-2 và ZeRO-3).

Đặc biệt, dự án tích hợp khả năng huấn luyện với trình thông dịch mã (code interpreter) thông qua các sandbox như E2B và Morph, cho phép thực thi mã nguồn an toàn trong quá trình huấn luyện để đánh giá phần thưởng (reward function).

Đánh giá hiệu năng

Nhóm phát triển sử dụng Lighteval để đánh giá các mô hình và khẳng định đã tái tạo được kết quả của DeepSeek trên các benchmark tiêu chuẩn như AIME 2024, MATH-500, GPQA Diamond và LiveCodeBench. Các kết quả cho thấy mô hình OpenR1-Distill-7B đạt hiệu suất tương đương với DeepSeek-R1-Distill-Qwen-7B trên nhiều bài kiểm tra khó.

Cách thức tham gia

Để bắt đầu với Open R1, người dùng cần cài đặt các thư viện phụ thuộc và đăng nhập vào tài khoản Hugging Face cũng như Weights and Biases. Dự án cung cấp các file cấu hình YAML và lệnh make đơn giản hóa để chạy các quy trình huấn luyện, tạo dữ liệu và đánh giá.

Đây là một dự án quan trọng đối với cộng đồng AI mã nguồn mở, không chỉ giúp minh bạch hóa các kỹ thuật tạo ra các mô hình lý luận hàng đầu hiện nay mà còn tạo tiền đề cho sự phát triển của các ứng dụng AI thông minh hơn trong tương lai.