来自Google DeepMind Research 科学家点评
#DeepSeek#
:
我在DeepSeek-R1论文发布当天就阅读了,并不认为GRPO是其成功的关键。真正重要的因素如下(按重要性排序):
技术层面:
1. 迭代式强化学习与监督微调
2. 混合奖励模型——将基于规则的奖励模型与神经奖励模型结合,适用于确定性任务
3. 高质量合成数据,仅在必要时进行人工后处理
4. 采用64个推理样本的评估方法
这些突破为计算资源有限的博士生们开启了激动人心的探索空间。后续我可能会在推特分享受此启发的潜在研究方向。
更值得称道的是非技术层面:
1/ 开放精神:没有公开透明,人们便不会追随
2/ 出色的写作能力:从概念验证到展示完整潜力的复杂过程,构建了强有力的叙事逻辑。方法论阐述清晰易懂
最后想说:英雄惜英雄,庸才恨庸才。让我们保持竞争,心怀感激!
我在DeepSeek-R1论文发布当天就阅读了,并不认为GRPO是其成功的关键。真正重要的因素如下(按重要性排序):
技术层面:
1. 迭代式强化学习与监督微调
2. 混合奖励模型——将基于规则的奖励模型与神经奖励模型结合,适用于确定性任务
3. 高质量合成数据,仅在必要时进行人工后处理
4. 采用64个推理样本的评估方法
这些突破为计算资源有限的博士生们开启了激动人心的探索空间。后续我可能会在推特分享受此启发的潜在研究方向。
更值得称道的是非技术层面:
1/ 开放精神:没有公开透明,人们便不会追随
2/ 出色的写作能力:从概念验证到展示完整潜力的复杂过程,构建了强有力的叙事逻辑。方法论阐述清晰易懂
最后想说:英雄惜英雄,庸才恨庸才。让我们保持竞争,心怀感激!