不得不说,DeepSeek 团队写的论文确实很好看,可能是因为开源开放的心态,有什么说什么,从来不藏着掖着,虽然数学公式部分看不太懂,但整体逻辑清晰,重点分明。
首先是 DeepSeek Math 的论文,大家的评价很高,要理解 R1 就要先看这篇,甚至可以只看这篇。
DeepSeek Math 确实暗藏玄机:
1. 显卡不够,算法来凑。
发明了 GRPO 的强化学习算法,这个算法属于PPO 的一种变体,去掉了 Value Model,从而
大幅降低训练资源
,为后续模型的训练奠定了基础。
2. 统一范式,归一RL。
提供了一个统一的范式来理解不同的代表性训练方法。
在此范式中,所有方法都被概念化为直接或简化的 RL 技术。
如公式 5 所示,存在三个关键组成部分:数据源、算法和奖励函数。提供了有关这三个组件的一些潜在未来方向。
统一到强化学习之后,再加上高效的 GRPO 算法,理论上就不需要海量标注数据和人工设计思维链,把一切问题转化为强化学习,让模型自己涌现推理能力。
这就是为什么最近数据标注公司 Scale AI 的 CEO 那么急。
3. 代码训练,提高推理。
纸上得来终觉浅,绝知此事要躬行。
之前有个坊间传闻说GPT
加入代码训练之后提高了推理能力
,但是从来没有人验证,很多算法朋友非常怀疑。DeepSeek 则是亲自做实验证明了这个传闻为真,而且可以定量分析到底提升了多少,为后续推理模型打定了实验基础。
4. 奖励函数不靠谱,继续想办法,也许这才有了 R1 Zero 那种激进的尝试?
「在某种程度上,现在所有方法都完全信任奖励函数的信号。但是,无法确保奖励信号始终可靠,尤其是在极其复杂的任务中。为此,我们将探索对嘈杂奖励信号具有鲁棒性的强化学习算法。我们相信这种从弱到强的对齐方法将给学习算法带来根本性的变化。」
「奖励模型必须有效地泛化以处理分布外问题和高级解码输出;否则,强化学习可能只是稳定了 LLM 的分布,而不是提高它们的基本能力。」
Math 的论文发表于2024年4月27日,比 o1 出来的要早很多,可以说强化学习做推理模型的大路线 DeepSeek 已经都基本掌握了。
万事俱备,只差资源。
DeepSeek V3 技术报告出现 R1:
这篇读的人很多了,2048张H800训练出V3的数据就源自这里,这篇报告的重点非常清晰,里面说了三遍:
模型性能一流,训练极其高效。
其中预训练阶段是成本的最大头,占了成本的95.5%。
有个有点意外的发现是 V3 蒸馏了 R1 的推理数据。意外是因为 V3 早于 R1 发布,并且 R1 也是基于 V3-base 训练的。所以现在看来 V3 和 R1 都是基于 V3-base 的基座。而且公司内部是先有了 R1 才有了 V3。
既然共用了 V3-base,预训练成本又是大头,那基本可以推断训练 R1 的成本虽然没有在报告里说明,但应该和 V3 成本相差不大,也就是说 R1 的成本也是 560 万美金左右。