来自 DeepMind Research Scientist 对 DeepSeek-R1 论文的点评:
DeepSeek-R1 论文发布当天我就研读了,个人认为GRPO并非其成功关键。以下才是真正重要的要素(按重要性排序):
1. 迭代式强化学习与监督微调的协同
2. 混合奖励机制——针对确定性任务融合规则型RM与神经网络的RM
3. 高质量合成数据,仅在必要时进行人工后处理
4. 采用64次推理采样的评估体系
这些突破为计算资源有限的博士生们开辟了极具潜力的研究方向。后续我可能会在社交媒体分享基于DeepSeek-R1启发的若干研究课题。
除技术维度外,更值得称道的是:
1/ 开放精神:缺乏开放性的研究难以引发追随
2/ 卓越的学术叙事:从概念验证到展现完整潜力的复杂过程,论文构建了极具说服力的研究叙事。方法论阐述清晰易循,堪称典范。
结语:英雄之间惺惺相惜,而失败者之间则怨怼相生。让我们保持良性竞争,心怀感恩!
/x.com/sunjiao123sun_/status/1884044579864994129
DeepSeek-R1 论文发布当天我就研读了,个人认为GRPO并非其成功关键。以下才是真正重要的要素(按重要性排序):
1. 迭代式强化学习与监督微调的协同
2. 混合奖励机制——针对确定性任务融合规则型RM与神经网络的RM
3. 高质量合成数据,仅在必要时进行人工后处理
4. 采用64次推理采样的评估体系
这些突破为计算资源有限的博士生们开辟了极具潜力的研究方向。后续我可能会在社交媒体分享基于DeepSeek-R1启发的若干研究课题。
除技术维度外,更值得称道的是:
1/ 开放精神:缺乏开放性的研究难以引发追随
2/ 卓越的学术叙事:从概念验证到展现完整潜力的复杂过程,论文构建了极具说服力的研究叙事。方法论阐述清晰易循,堪称典范。
结语:英雄之间惺惺相惜,而失败者之间则怨怼相生。让我们保持良性竞争,心怀感恩!
/x.com/sunjiao123sun_/status/1884044579864994129