藏在 DeepSeek 论文里的几处有趣的细节

橘子汽水铺 · 公众号 · · 2025-01-29 20:26

正文

不得不说，DeepSeek 团队写的论文确实很好看，可能是因为开源开放的心态，有什么说什么，从来不藏着掖着，虽然数学公式部分看不太懂，但整体逻辑清晰，重点分明。

首先是 DeepSeek Math 的论文，大家的评价很高，要理解 R1 就要先看这篇，甚至可以只看这篇。

DeepSeek Math 确实暗藏玄机：

1. 显卡不够，算法来凑。

发明了 GRPO 的强化学习算法，这个算法属于PPO 的一种变体，去掉了 Value Model，从而 大幅降低训练资源 ，为后续模型的训练奠定了基础。

2. 统一范式，归一RL。

提供了一个统一的范式来理解不同的代表性训练方法。 在此范式中，所有方法都被概念化为直接或简化的 RL 技术。 如公式 5 所示，存在三个关键组成部分：数据源、算法和奖励函数。提供了有关这三个组件的一些潜在未来方向。

统一到强化学习之后，再加上高效的 GRPO 算法，理论上就不需要海量标注数据和人工设计思维链，把一切问题转化为强化学习，让模型自己涌现推理能力。

这就是为什么最近数据标注公司 Scale AI 的 CEO 那么急。

3. 代码训练，提高推理。

纸上得来终觉浅，绝知此事要躬行。之前有个坊间传闻说GPT 加入代码训练之后提高了推理能力 ，但是从来没有人验证，很多算法朋友非常怀疑。DeepSeek 则是亲自做实验证明了这个传闻为真，而且可以定量分析到底提升了多少，为后续推理模型打定了实验基础。

4. 奖励函数不靠谱，继续想办法，也许这才有了 R1 Zero 那种激进的尝试？

「在某种程度上，现在所有方法都完全信任奖励函数的信号。但是，无法确保奖励信号始终可靠，尤其是在极其复杂的任务中。为此，我们将探索对嘈杂奖励信号具有鲁棒性的强化学习算法。我们相信这种从弱到强的对齐方法将给学习算法带来根本性的变化。」

「奖励模型必须有效地泛化以处理分布外问题和高级解码输出;否则，强化学习可能只是稳定了 LLM 的分布，而不是提高它们的基本能力。」

Math 的论文发表于2024年4月27日，比 o1 出来的要早很多，可以说强化学习做推理模型的大路线 DeepSeek 已经都基本掌握了。

万事俱备，只差资源。

DeepSeek V3 技术报告出现 R1：

这篇读的人很多了，2048张H800训练出V3的数据就源自这里，这篇报告的重点非常清晰，里面说了三遍： 模型性能一流，训练极其高效。

其中预训练阶段是成本的最大头，占了成本的95.5%。

有个有点意外的发现是 V3 蒸馏了 R1 的推理数据。意外是因为 V3 早于 R1 发布，并且 R1 也是基于 V3-base 训练的。所以现在看来 V3 和 R1 都是基于 V3-base 的基座。而且公司内部是先有了 R1 才有了 V3。

既然共用了 V3-base，预训练成本又是大头，那基本可以推断训练 R1 的成本虽然没有在报告里说明，但应该和 V3 成本相差不大，也就是说 R1 的成本也是 560 万美金左右。