专栏名称: 橘子汽水铺
橘子汽水铺 by orange.ai。 AI创始人, AI投资人,AI产品经理都在关注的AI科技自媒体。 聚焦最有商业价值的AI资讯,分享一线的AI产品经理经验。
目录
相关文章推荐
陈忻儿童心理  ·  成功案例背后有什么秘诀? ·  3 天前  
武志红  ·  成年人,可以为自己的委屈负责 ·  4 天前  
51好读  ›  专栏  ›  橘子汽水铺

藏在 DeepSeek 论文里的几处有趣的细节

橘子汽水铺  · 公众号  ·  · 2025-01-29 20:26

正文

不得不说,DeepSeek 团队写的论文确实很好看,可能是因为开源开放的心态,有什么说什么,从来不藏着掖着,虽然数学公式部分看不太懂,但整体逻辑清晰,重点分明。

首先是 DeepSeek Math 的论文,大家的评价很高,要理解 R1 就要先看这篇,甚至可以只看这篇。

DeepSeek Math 确实暗藏玄机:

1. 显卡不够,算法来凑。

发明了 GRPO 的强化学习算法,这个算法属于PPO 的一种变体,去掉了 Value Model,从而 大幅降低训练资源 ,为后续模型的训练奠定了基础。

2. 统一范式,归一RL。

提供了一个统一的范式来理解不同的代表性训练方法。 在此范式中,所有方法都被概念化为直接或简化的 RL 技术。 如公式 5 所示,存在三个关键组成部分:数据源、算法和奖励函数。提供了有关这三个组件的一些潜在未来方向。

统一到强化学习之后,再加上高效的 GRPO 算法,理论上就不需要海量标注数据和人工设计思维链,把一切问题转化为强化学习,让模型自己涌现推理能力。

这就是为什么最近数据标注公司 Scale AI 的 CEO 那么急。

3. 代码训练,提高推理。

纸上得来终觉浅,绝知此事要躬行。 之前有个坊间传闻说GPT 加入代码训练之后提高了推理能力 ,但是从来没有人验证,很多算法朋友非常怀疑。DeepSeek 则是亲自做实验证明了这个传闻为真,而且可以定量分析到底提升了多少,为后续推理模型打定了实验基础。

4. 奖励函数不靠谱,继续想办法,也许这才有了 R1 Zero 那种激进的尝试?

「在某种程度上,现在所有方法都完全信任奖励函数的信号。但是,无法确保奖励信号始终可靠,尤其是在极其复杂的任务中。为此,我们将探索对嘈杂奖励信号具有鲁棒性的强化学习算法。我们相信这种从弱到强的对齐方法将给学习算法带来根本性的变化。」

「奖励模型必须有效地泛化以处理分布外问题和高级解码输出;否则,强化学习可能只是稳定了 LLM 的分布,而不是提高它们的基本能力。」

Math 的论文发表于2024年4月27日,比 o1 出来的要早很多,可以说强化学习做推理模型的大路线 DeepSeek 已经都基本掌握了。

万事俱备,只差资源。

DeepSeek V3 技术报告出现 R1:

这篇读的人很多了,2048张H800训练出V3的数据就源自这里,这篇报告的重点非常清晰,里面说了三遍: 模型性能一流,训练极其高效。

其中预训练阶段是成本的最大头,占了成本的95.5%。

有个有点意外的发现是 V3 蒸馏了 R1 的推理数据。意外是因为 V3 早于 R1 发布,并且 R1 也是基于 V3-base 训练的。所以现在看来 V3 和 R1 都是基于 V3-base 的基座。而且公司内部是先有了 R1 才有了 V3。

既然共用了 V3-base,预训练成本又是大头,那基本可以推断训练 R1 的成本虽然没有在报告里说明,但应该和 V3 成本相差不大,也就是说 R1 的成本也是 560 万美金左右。







请到「今天看啥」查看全文