【DeepSeek如何训练最前沿的推理模型】DeepSeek团队-20250122073330_爱可可-爱生活的专栏文章_微信文章

【DeepSeek如何训练最前沿的推理模型】DeepSeek团队-20250122073330

爱可可-爱生活 · 微博 · AI · 2025-01-22 07:33

正文

2025-01-22 07:33
本条微博链接

【DeepSeek如何训练最前沿的推理模型】

DeepSeek团队的这项研究展现了一个极其优雅的训练方案。他们抛弃了传统的复杂流程，采用了一个出人意料的简单方法：直接对基座模型进行强化学习训练。

这个被称为“RL-Zero”的方案有几个令人印象深刻的特点：

1. 极简设计：
- 完全跳过了常见的SFT/指令微调阶段
- 使用最基础的提示词
- 仅关注模型输出的演化过程

2. 创新突破：
- 通过直接强化学习提取模型能力
- 无需参考答案或指令
- 模型自主学习如何通过更长的思考链达到更高奖励

3. 完整训练流程：
- 首先导入少量高质量CoT+总结数据
- 执行RL-Zero训练
- 收集80万个精确样本
- 最后融合可验证奖励和偏好调优

最令人惊喜的是，这个仅有88亿参数的模型竟然达到了Sonnet级别，甚至超越了GPT-4的某些表现。这不仅证明了蒸馏技术的强大，更说明精心设计的工程方案可能比简单堆砌参数更有效。

特别值得一提的是，研究团队还很诚实地分享了他们的失败尝试。这种开放态度让这篇论文显得更加可贵。

这或许是近期最重要的论文之一，因为它展示了如何通过巧妙的方法论而不是靠堆料来推动AI进步。

#人工智能##AI创造营##deepseek#