「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

人工智能学家 · 公众号 · AI · 2025-01-24 16:34

正文

来源：前沿科技分享圈

近日，AI领域迎来了一次重大突破，DeepSeek正式推出了其最新研发的开源推理模型——DeepSeek-R1。这一模型在数学、代码和自然语言推理等关键任务上的表现，已经能够与OpenAI的o1正式版相媲美，引发了AI研究者和从业者的广泛关注。

多阶段训练：创新的模型架构

DeepSeek-R1的训练方式采用了多阶段循环的策略，具体包括基础训练、强化学习（RL）、微调等多个阶段。这种独特的训练方式使得模型在推理能力上有了显著提升。例如，AutoAWQ的作者Casper Hansen指出，DeepSeek-R1通过这种多阶段训练，能够在较少标注数据的情况下，极大提升模型的推理能力。

行业领先的性能表现

DeepSeek-R1的推出，标志着AI行业在推理模型领域的又一次飞跃。UC Berkeley教授Alex Dimakis甚至认为，DeepSeek已经在某些方面处于领先地位，美国公司可能需要迎头赶上。DeepSeek-R1不仅在网页端、App端和API端全面上线，还提供了开源的模型权重，允许用户基于R1训练其他模型，极大地推动了AI技术的普及和应用。

性能对比：超越行业标杆

在性能方面，DeepSeek-R1的表现令人瞩目。与OpenAI的o1-1217、o1-mini以及自家的DeepSeek-V3相比，R1在多个数据集上的表现不相上下，甚至在某些任务上超越了现有模型。此外，DeepSeek-R1还蒸馏出了六个不同参数规模的小模型，包括1.5B、7B、8B、14B、32B和70B版本，这些模型同样完全开源，旨在回馈开源社区，推动AI技术的发展。

开源与性价比：推动行业进步

DeepSeek-R1的开源策略不仅体现在模型权重的开放，还体现在其极具竞争力的API定价上。与OpenAI的API定价相比，DeepSeek-R1的API服务价格仅为每百万输入tokens 1元（缓存命中）/4元（缓存未命中），每百万输出tokens 16元，远低于OpenAI的定价。这种高性价比的策略，无疑将吸引更多开发者和企业使用DeepSeek-R1，进一步推动AI技术的商业化应用。

技术细节：强化学习的创新应用

DeepSeek-R1的技术核心在于其对强化学习的创新应用。开发团队摒弃了传统的监督微调（SFT）作为冷启动的方式，而是通过大规模强化学习直接提升模型的推理能力。这种全新的思路不仅降低了训练成本，还提高了模型的适应性和灵活性。例如，DeepSeek-R1-Zero采用了群组相对策略优化（GRPO）来降低训练成本，通过从群组分数中估算基线，避免了使用与策略模型同样大小的评估模型，从而提高了训练效率。

奖励机制与训练模板

在奖励机制方面，DeepSeek-R1采用了准确度和格式两种互补的奖励机制。准确度奖励用于评估回答的正确性，而格式奖励则用于规范模型的输出格式。这种奖励机制的设计，使得模型能够在推理过程中更加注重思考过程的规范性和正确性。此外，开发团队还设计了简单的训练模板，引导模型先给出推理过程，再提供最终答案，这种设计不仅规范了模型的输出结构，还避免了对内容施加过多限制，使得模型能够在训练过程中自然发展出高级的解题策略。

自我进化能力：训练中的“灵光一现”

在训练过程中，DeepSeek-R1-Zero展现出了显著的自我进化能力。例如，在处理2024年的AIME数学奥赛试卷时，其平均pass@1分数从最初的15.6%显著提升到了71.0%，达到了与OpenAI-o1-0912相当的水平。更令人惊讶的是，在多数投票机制中，DeepSeek-R1-Zero的成功率进一步提升到了86.7%，甚至超过了OpenAI-o1-0912的表现。这种自我进化能力的背后，是强化学习的魅力——只要提供正确的奖励机制，模型就能自主发展出高级的解题策略。

冷启动数据的应用

为了防止基础模型在强化学习训练早期出现不稳定的冷启动阶段，开发团队针对R1构建并收集了少量的长CoT数据，以作为初始RL actor对模型进行微调。这些冷启动数据不仅提高了模型的可读性，还提升了模型的性能。开发团队通过精心设计具有人类先验知识的冷启动数据模式，观察到相较于DeepSeek-R1-Zero更好的性能表现。

模型的局限性与改进

尽管DeepSeek-R1在推理能力上取得了显著的突破，但仍然存在一些局限性。例如，DeepSeek-R1-Zero的回答可读性较差，语言混杂等问题。为了解决这些问题，开发团队在训练过程中引入了语言一致性奖励，以缓解语言混合的问题。此外，开发团队还通过拒绝采样和监督微调，进一步提升了模型的性能。

蒸馏技术：小模型的推理能力提升

为了使更高效的小模型具备DeepSeek-R1那样的推理能力，开发团队直接使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行了微调。这种简单的蒸馏方法显著增强了小模型的推理能力，使得它们能够在推理任务上表现出色。

未来展望：推动AI技术的边界

DeepSeek-R1的推出，不仅在技术上实现了突破，更在开源和性价比上为行业树立了新的标杆。通过开源模型权重和训练技术，DeepSeek为全球的AI研究者和开发者提供了强大的工具和资源，推动了AI技术的边界。未来，随着更多开发者和企业的参与，DeepSeek-R1有望在更多领域实现应用，为AI行业的发展注入新的动力。

DeepSeek-R1的出现，不仅是AI技术的一次重大突破，更是开源精神的胜利。它不仅为AI研究者提供了新的思路和方法，也为AI技术的商业化应用提供了新的可能性。随着DeepSeek-R1的不断优化和改进，我们有理由相信，它将在未来的AI领域中扮演更加重要的角色。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

2024 美国众议院人工智能报告：指导原则、前瞻性建议和政策提案
未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇
Deepmind：AI 加速科学创新发现的黄金时代报告
Continental 大陆集团：2024 未来出行趋势调研报告
埃森哲：未来生活趋势 2025
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
哈尔滨工业大学：2024 具身大模型关键技术与应用报告
爱思唯尔（Elsevier）：洞察 2024：科研人员对人工智能的态度报告
李飞飞、谢赛宁新作「空间智能」等探索多模态大模型性能
欧洲议会：2024 欧盟人工智能伦理指南：背景和实施
通往人工超智能的道路：超级对齐的全面综述
清华大学：理解世界还是预测未来？世界模型综合综述
Transformer 发明人最新论文：利用基础模型自动搜索人工生命
兰德公司：新兴技术监督框架发展的现状和未来趋势的技术监督报告
麦肯锡全球研究院：2024 年全球前沿动态（数据）图表呈现
兰德公司：新兴技术领域的全球态势综述
前瞻：2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战
美国国家标准技术研究院（NIST）：2024 年度美国制造业统计数据报告（英文版）
罗戈研究：2024 决策智能：值得关注的决策革命研究报告
美国航空航天专家委员会：2024 十字路口的 NASA 研究报告
中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告
GenAI 引领全球科技变革关注 AI 应用的持续探索
国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告