专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

0.5B小模型逆袭！不到50元，「X-R1」让每个人都能复现Aha Moment

PaperWeekly · 公众号 · 科研 · 2025-02-13 09:01

正文

X-R1开源仓库 ：https://github.com/dhcode-cpp/X-R1

1. 介绍

X-R1 目标是建设一个易入门和低成本的基于强化学习的训练框架。以加快Scaling Post-Training的发展进程。

受到 DeepSeek-R1 和 open-r1 的启发，为了降低 R1 的复现门槛，我们用最低的成本<50元在 0.5B 的预训练模型上复现了 R1-Zero 的“Aha Moment”（顿悟时刻）💡

2. X-R1 特点

项目的代码基础为 open-r1 ，由于官方例子需要 8x80G显卡，我们探索了一条更易训练的方案。 X-R1 聚焦于纯Reasoning-RL的端到端训练问题，不考虑做任何的继续预训练、指令微调和数据蒸馏操作。

效果：4x3090/4090 GPUs 训练总时间2小时以内,在第10分钟的 37步优化中输出了“aha Moment“ 💡
模型大小：0.5B尺寸的模型即可做R1-Zero
支持更大模型的配置：0.5B/1.5B/7B/32B...
为了更快训练，我们减少数据规模到750条数据，仍然能够提升数学推理能力
我们增加过程checkpoint采样打印，方便观察RL训练的模型行为。

3. X-R1 0.5B 训练结果

3.1 运行

在4x3090/4090(24G)的训练环境中，3张显卡用Zero-Stage 3做优化，1张显卡vLLM部署推理服务，训推分离使得GRPO优化更加高效。

实际实验 4x4090, 3epochs, 训练时间为：~1h20min

ACCELERATE_LOG_LEVEL=info \
accelerate launch \
--config_file recipes/zero3.yaml \
--num_processes=3 \
src/x_r1/grpo.py \
--config recipes/X_R1_zero_0dot5B_config.yaml \
> ./output/x_r1_0dot5_sampling.log 2>&1

3.2 准确性奖励

我们测试了0.5B和1.5B的实验，得到了符合预期曲线，并且在不到5步的优化中，模型就能快速到达饱和状态。

3.3 Aha Moment：

训练约10min左右观测到 Aha Moment 现象：

Wait , that doesn't match either of our options. It seems like I made a mistake in my assumptions . Let's go back to the original equations