DeepSeek-R1，通过创新的无监督强化学习和开源策略展现了-20250122080918_黄建同学的专栏文章_微信文章

DeepSeek-R1，通过创新的无监督强化学习和开源策略展现了-20250122080918

黄建同学 · 微博 · AI · 2025-01-22 08:09

正文

2025-01-22 08:09
本条微博链接

DeepSeek-R1，通过创新的无监督强化学习和开源策略展现了其独特性，从某种角度来说，已经在模型研发方面从模仿到超越OpenAI了。

1. 后训练与强化学习: DeepSeek-R1在后训练阶段大规模应用了强化学习（RL）技术，尤其是其基础版本DeepSeek-R1-Zero，完全依赖于纯强化学习进行训练，而不使用监督微调（SFT）。这种方法使得模型在极少标注数据的情况下，依然能够显著提升推理能力。

2. 群组相对策略优化（GRPO）: 为了降低RL训练成本，DeepSeek-R1采用了GRPO算法，这一创新使得模型在训练过程中更加高效，避免了传统RL中需要与策略模型大小相同的评论家模型的限制。

3. 无监督强化学习: DeepSeek-R1的最大创新在于其完全依赖于无监督的强化学习进行训练，这一策略在大语言模型领域尚属首次。这种方法不仅降低了对标注数据的依赖，还展示了强化学习在推理能力提升中的潜力。

4. 开源策略使得开发者能够自由使用和改进模型。

DeepSeek-R1在数学、编程和自然语言推理等任务上表现出色，其性能在多个基准测试中与OpenAI o1相当，甚至在某些任务上略有超越。此外，DeepSeek-R1的API定价也非常低

#模型时代# Jim Fan：DeepSeek就是OpenAI最初的样子。

英伟达科学家刚发的一个长推，盛赞DeepSeek：
***
我们正身处这样的时间线上：一家非美国公司正在延续 OpenAI 最初的使命——真正的开源、前沿研究，惠及所有人。这听上去匪夷所思。但往往最有趣的结果才是最可能的。

DeepSeek-R1 不仅公开了一大批模型，还披露了所有训练细节。或许他们是首个在强化学习“飞轮”上实现重大且持续增长的开源项目。

DeepSeek-R1，通过创新的无监督强化学习和开源策略展现了-20250122080918

正文

请到「今天看啥」查看全文