专栏名称: 自动驾驶之心

自动驾驶开发者社区，关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！

Reasoning模型复现R1经验综述

自动驾驶之心 · 公众号 · · 2025-02-22 00:00

正文

作者 | xxx 编辑 | 自动驾驶之心

原文链接：xxxxx

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

>>点击进入→ 自动驾驶之心 『BEV感知』技术交流群

本文只做学术分享，如有侵权，联系删文

小小梦想的R1模型(复现R1)

作者复现R1基于HF的open-r1，底层使用trl库，在GSM8K数据集上进行了复现，使用了4张40G的A100和Qwen2.5 1.5B-Instruct模型。代码在https://github.com/Mryangkaitong/deepseek-r1-gsm8k

奖励：

格式奖励参考了Logic-RL的工作，格式检查了以下内容：

出现在之后，
在之后，
在之后，
以上三种任意一种都是格式错误，奖励值出-1，其他出+1；

accuracy_reward直接看结果是否正确，正确奖励值为1，错误奖励值为0。

参数：

作者使用了DeepSpeed Zero3，FlashAttention2，提示词长度最大512，回答长度最大1024，每张卡1个BS，梯度累计16步，每次采样3个回答，学习率3e-6，BF16，使用VLLM。

作者的复现效果：

来源于https://github.com/Mryangkaitong/deepseek-r1-gsm8k/blob/main/log/log.png

作者使用Qwen2.5 1.5B-Instruct在GSM8K训练完的准确率为74.29%。

HF的Open-R1(复现R1)

github.com/huggingface/open-r1/

作者复现的训练步骤：

首先对有指令遵循的模型蒸馏DeepSeek R1的训练数据，得到Open R1-Distill；
对Base 模型用GRPO训练得到OpenR1-Zero；
对Base模型先蒸馏Open R1-Zero的指令遵循数据，再使用GRPO训练得到Open R1。

作者的复现效果

作者的生成使用的温度系数为0.6。

Mini-R1 (基于GRPO的用来玩小游戏的模型)

作者希望能通过GRPO的训练，让模型精通Countdown游戏。Countdown 游戏是一个数字拼图游戏，玩家使用一组随机抽取的数字和基本的算术运算（+、-、×、÷）来达到或尽可能接近目标数字

作者的技术文章在 https://www.philschmid.de/mini-deepseek-r1

奖励设置

Format Reward ：检查生成的格式是否满足 [thinking] [answer] 的格式。满足奖励值为 1.0 ，否则为0。
Accuracy Reward ：从标签中提取方程式，并根据目标以及每个数字是否使用一次对其进行评估。

生成的回答必须包含且必须可以被 (. ?) 解析出内容，同时解析出的内容只能包含数字、运算符（+、-、 、/）、括号、点号（.）和空白字符。
数字使用正确：解析出的内容中的数字只能是输入的几种数字。
使用eval运行解析出的表达式，结果需要和答案的差异小于1e-5。
异常处理：报异常直接返回0.

参数设置

每个设备一个BatchSize，梯度累计8步，采样8次，使用VLLM。

请到「今天看啥」查看全文

推荐文章

艾儿天空 · 起点第1415本新增万订小说没找到，有知道的吗？

23 小时前

航空工业 · 外场日志：于平淡处见星河

昨天

航空工业 · 凌空炫舞！空军八一飞行表演队时隔十年再度赴泰飞行表演

昨天

艾儿天空 · 神秘的大西瓜高武电竞文《决斗之巅》上线，又一本不朽世家文万订，辰一十一《明尊》被抄袭

2 天前

航空工业 · 中航工业党组传达学习习近平总书记近期重要讲话和重要指示批示精神

3 天前

指尖阅读 · 情商最高的十种行为（深度好文）

8 年前

华尔街见闻 · 重磅信号！小城镇化战略或退出历史舞台

8 年前

中国教育报 · 你越舍得用孩子，孩子就越有出息！别不信 | 育儿

8 年前

日本流行每日速报 · 日本女生最想要的名牌钱包居然是这个牌子？

8 年前

最爱大北京 · 2月16日 | 京城事儿全知道

8 年前