专栏名称: 创乎
创乎-专注为创业者解决创业痛点的平台、一个只对创业者提供的社交网站,让人们相互验证创业点子,创业者可以在社区中提出自己创业中所遇到的困惑和难题,有资深的创始人、投资人、创业者为大家解答、给创业者足够的验证、让创业之路不再困惑,让创业更成功。
目录
相关文章推荐
创乎  ·  启动大型活动要提前确权、交押金 ·  昨天  
元素和同位素地球化学  ·  斯坦福大学和华盛顿大学的李飞飞领导,成功地以 ... ·  昨天  
思诺财富  ·  两个方向:左手YS+右手DS ·  3 天前  
思诺财富  ·  两个方向:左手YS+右手DS ·  3 天前  
51好读  ›  专栏  ›  创乎

深入解析DeepSeek-R1丨以惊人低成本实现与o1比肩的推理能力

创乎  · 公众号  · 科技创业  · 2025-02-06 12:00

正文

欢迎加入创乎终身VIP会员和CEO私董会群


加入创乎终身VIP与千人CEO一对一交流
免费提供投融资服务、项目合作、资源对接
加入创乎:1搞流量 2搞项目 3搞圈层



目前,能做出像 o1 一样的推理模型,被坊间成为留成大模型牌桌的一道门槛,当前市场主导的观点认为,推理能力是模型扩展定律的自然产物,换句话说,实现高效推理需要大型模型。


而 DeepSeek-R1 则打破了这一传统认知,通过巧妙的训练后处理流程,以极低的计算成本实现了与 GPT-o1 相当的性能。这无疑是一项令人惊叹的突破。


本文将深入探讨 DeepSeek-R1 架构和训练过程的技术细节,重点介绍关键创新和贡献。



01 DeepSeek-R1 简介及动机


大型语言模型 (LLM) 领域取得了显著的进步,但实现强大的推理能力仍然是一项重大挑战。许多模型依赖于广泛的监督微调 (SFT),这可能计算成本高昂,并且可能无法完全释放模型的自我改进潜力。DeepSeek-R1 及其前身 DeepSeek-R1-Zero 代表了对这种范式的背离,探索了强化学习 (RL) 的力量,以开发和增强 LLM 中的推理能力。


DeepSeek-R1 的开发目标是探索 LLM 的潜力,在不依赖监督数据的基础上发展推理技能。研究始于纯 RL 的想法,以允许模型自我进化。这种方法产生了 DeepSeek-R1-Zero,该模型展示了纯粹通过 RL 激励推理能力的可能性。


DeepSeek-R1 的创建是为了解决 DeepSeek-R1-Zero 中观察到的可读性差和语言混合问题,同时进一步提高推理性能。DeepSeek-R1 在 RL 之前结合了多阶段训练和冷启动数据方法。DeepSeek 项目的目标是创建更好的模型并与研究社区共享。


02 DeepSeek-R1-Zero:

一种纯粹的强化学习方法


DeepSeek-R1-Zero 是一款通过大规模强化学习 (RL) 训练的模型,无需任何事先监督微调 (SFT)。(这种方法旨在探索模型在推理中的自我进化能力。)


  • 强化学习算法: DeepSeek-R1-Zero 利用组相对策略优化 (GRPO)。GRPO 是一种具有成本效益的 RL 方法,它省略了 critic 模型的使用,而是根据组分数估计基线。给定一个问题 q,GRPO 从旧策略中抽取一组输出,并通过最大化定义的目标函数来优化策略。目标函数包括一个优势项,使用组产出的奖励和一个 Kullback-Leibler (KL) 背离项计算,以确保策略更新不会太大。

  • 奖励建模: DeepSeek-R1-Zero 的奖励系统侧重于准确性和格式。

  • 准确率奖励 评估响应的正确性。例如,数学问题需要特定格式的精确答案,这允许基于规则的验证。

  • 格式奖励 强制将模型的思维过程包含 和标签中。值得注意的是,DeepSeek-R1-Zero 不使用基于过程或结果神经的奖励模型。

  • 培训模板: 一个简单的模板指导模型产生一个推理过程,然后是最终答案。该模板旨在消除特定于内容的偏差,以观察模型在 RL 期间的自然进展。



在训练期间,DeepSeek-R1-Zero 在 AIME 2024 基准测试中显示出显著的改进,pass@1从 15.6% 提高到 71.0%,与 OpenAI 的 o1-0912 相当。


在多数投票的情况下,其得分进一步提高到 86.7%。该模型还通过随着训练的进行增加其思考时间(响应长度)来展示自我进化,从而实现更复杂的问题解决策略,例如反思和探索替代方法。该模型还展示了一个 “顿悟时刻”,它学会了通过分配更多的思考时间来重新思考其最初的方法。



03 DeepSeek-R1:

整合冷启动数据和多阶段训练


虽然 DeepSeek-R1-Zero 展示了纯 RL 的潜力,但它存在可读性差和语言混合等问题。DeepSeek-R1 的开发是为了解决这些问题,并通过包含少量“冷启动”数据的多阶段训练管道进一步提高性能。


  • 冷启动数据: DeepSeek-R1 在 RL 训练之前对数千个长思维链 (CoT) 示例进行了微调,这充当了“冷启动”。这些示例是使用长 CoT 的 few-shot 提示、通过反射和验证直接提示模型获得详细答案、完善 DeepSeek-R1-Zero 的输出以及由人工注释者进行后处理等方法收集的。此冷启动数据通过使用可读的输出格式来帮助解决可读性问题,该格式在每个响应的末尾包含摘要,并筛选掉对用户不友好的响应。

  • 输出格式 定义 为 :|special_token| |special_token|,推理过程是查询的 CoT 和总结推理结果的摘要。

  • 面向推理的强化学习: 在对冷启动数据进行微调后,DeepSeek-R1 经历了与 DeepSeek-R1-Zero 相同的大规模 RL 训练。此阶段侧重于增强编码、数学、科学和逻辑推理任务的推理能力。引入了语言一致性奖励来减少 RL 训练期间的语言混合,尽管消融实验表明该奖励会导致性能小幅下降。

  • 拒绝抽样和监督微调: 在面向推理的 RL 过程中达到收敛后,通过使用 RL 检查点的拒绝抽样生成 SFT 数据,并结合来自 DeepSeek-V3 的监督数据,例如写作和事实 QA。通过使用 DeepSeek-V3 的生成式奖励模型来判断真实情况和模型预测,数据扩展到基于规则的奖励评估之外。DeepSeek-V3 中还包含非推理数据,以增强模型的通用功能。

  • 适用于所有场景的强化学习: 第二个 RL 阶段使模型与人类偏好保持一致,侧重于有用性和无害性。基于规则的奖励用于推理数据,而奖励模型则捕获一般数据中的偏好。


04 蒸馏和评估


DeepSeek-R1 的推理能力也通过蒸馏转移到更小、更高效的模型中。


  • 蒸馏过程: Qwen 和 Llama 等开源模型使用 DeepSeek-R1 中的 800k 样本直接进行了微调。这种方法可以有效地提高较小模型的推理能力。使用的基本模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。仅将 SFT 应用于蒸馏模型,没有 RL 阶段。

  • 评估指标和基准: 模型根据一系列基准进行评估,包括 MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、中国全国高中数学奥林匹克竞赛 (CNMO 2024) 和 2024 年美国数学邀请赛考试 (AIME 2024)。此外,开放式生成任务是使用 LLM 来评判的,特别是 AlpacaEval 2.0 和 Arena-Hard。评估提示遵循 DeepSeek-V3 中的设置,使用 simple-evals 框架或其原始协议。

  • 主要发现: DeepSeek-R1 在一系列任务上实现了与 OpenAI-o1–1217 相当的性能。与 DeepSeek-V3 相比,它在 STEM 相关问题中表现出卓越的性能,证明了大规模强化学习的有效性。DeepSeek-R1 还展示了强大的文档分析能力以及基于事实的查询能力。该模型在编写任务和开放域问答方面也表现出色。在数学任务上,DeepSeek-R1 与 OpenAI-o1–1217 相当。提炼模型显示出显着的改进,DeepSeek-R1-7B 的性能优于 GPT-4o-0513。此外,DeepSeek-R1–14B 在所有指标上都超过了 QwQ-32B-Preview。蒸馏的 32B 和 70B 模型在大多数基准测试中明显优于 o1-mini,突出了蒸馏的有效性。



05 主要贡献、讨论和未来方向


DeepSeek-R1 的开发突出了几个关键贡献:


  • 用于推理的纯 RL: 它验证了 LLM 中的推理能力可以纯粹通过 RL 来激励,而无需 SFT。

  • 有效的多阶段 RL 训练管道: 该方法结合了两个 RL 和两个 SFT 阶段,以改进推理模式并与人类偏好保持一致。

  • 推理的提炼: DeepSeek-R1 表明,可以将较大模型的推理模式提炼成较小的模型,从而提高性能。


R1 论文还讨论了一些不成功的尝试,包括流程奖励模型 (PRM) 和 Monte Carlo Tree Search (MCTS)。


  • 发现过程奖励模型 (PRM) 存在局限性,例如难以在一般推理中定义细粒度步骤、对中间步骤的具有挑战性的评估以及奖励黑客攻击。

  • Monte Carlo Tree Search (MCTS) 遇到了困难,因为搜索空间呈指数级增长,并且存在训练用于令牌生成的精细价值模型的挑战。


未来的研究方向包括:


  • 一般能力增强: 扩展了 DeepSeek-R1 在函数调用、多轮交互、复杂角色扮演和 JSON 输出方面的能力。

  • 语言混合缓解: 解决处理英语和中文以外的语言的查询时的语言混合问题。

  • 提示工程: 提高模型对提示变化的鲁棒性,超越其对小样本提示的敏感性。

  • 软件工程任务: 通过实施拒绝抽样或异步评估以提高效率,将 RL 扩展到软件工程任务。


Last but not least


DeepSeek-R1 代表了具有增强推理能力的大语言模型开发的一项重要突破。通过创新地结合强化学习技术、多阶段训练管道和高效的蒸馏方法,DeepSeek-R1 不仅展现出卓越的性能,还为 AI 的自我进化与知识迁移潜力提供了重要启示。其模型及提炼版本的开源,将为学术研究和行业应用带来深远影响,进一步推动这一领域的快速发展。


DeepSeek,牛逼!


黄金时间:
我有两个老板社群,群里总计 1200多号人 ,一直在持续加入!我创乎终身VIP会员和创乎CEO私懂会付费群有960多人。在加上我合伙人老李付费社群240多人。都是给我 打过款的客户 ,打款金额从几千、几万、几十万不等,关键是,95%都是公司老板。如果你在寻找老板客户,欢迎了解加入 【2025新版】欢迎加入创乎终身VVIP和VIP会员,创乎CEO私董会,送8万人‮脉‬资源,朋友圈终身推广,享受35项终身服务‎
大家 确定 加入在加我 微信
因为我这个主号只通过VIP和付费客户
其他不通过或者可以加我副号:cy168811


想要做生意,就来私董会。

创乎合伙人【 老李企业家私董会 】,群里的 240位老板。
他们 都是给我打过款的客户,打款几千、几万、到几十万不等。
如果你在创业,或者想寻找“创业者优质客户”,欢迎加入我的社群。


大家好:我是创乎创始人张浩
大家想线上线下约见我可以在在行约见我
也可以看到我的介绍
也可以成为我终身VIP会员终身免费约见


END


如果您想打造个人IP加我 微信:chuanghuceo

手把手教你打造个人品牌 一步一步带你做个赚钱的IP

如何让你的IP价值百万
如何从默默无闻,到身价百倍

个人品牌是未来最大的商业入口和增长引擎

也是私域流量的集合体

这个时候,普通人最正确的逆袭方式就是打造创始人IP+小团队+高利润+私域高质量用户就是这个时代最正确的赚钱方式。

已帮助5000+客户,成功创建百度百科!做百度百科,就找创乎团队!
案例发布:百度百科56个案例发布
创乎帮助更多用户专业做百度百科、每位创业者,企业、个人、产品都值得拥有自己的百科。
项目一:百度百科创建服务


项目2:百度聚合名片打造

个人百度名片

品牌百度名片

手机端展示

企业百度名片


从不同位置,去突显了“聚合名片”的价值。

通过聚合名片,实现了官网、自媒体、电话、小程序、新产品等信息,在同一个页面聚合。同时实现涨粉。

聚合名片的权重排名,仅次于百度花钱的竞价广告。见图2

所以,这是一个永久的免费广告位,价值巨大。







请到「今天看啥」查看全文