专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
三联生活周刊  ·  70后的我,学会做一个“退场”的父母 ·  21 小时前  
三联生活周刊  ·  越来越多的年轻人,开始“同居不领证”了? ·  21 小时前  
三联生活周刊  ·  孩子不想上学,大人不想上班,还有救吗? ·  2 天前  
王开东  ·  少年情怀总是诗 ·  2 天前  
王开东  ·  少年情怀总是诗 ·  2 天前  
为你读诗  ·  龙凤美玉,同心佑平安 ·  2 天前  
51好读  ›  专栏  ›  FightingCV

DeepSeek-R1:基于强化学习激励大语言模型的推理能力

FightingCV  · 公众号  ·  · 2025-02-10 09:00

正文

摘要

我们介绍了我们第一代推理模型:DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 模型通过大规模强化学习 (RL) 进行训练,无需监督微调 (SFT) 作为预备步骤,展现出显著的推理能力。 通过强化学习,DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。 然而,它也面临一些挑战,例如可读性差和语言混合。 为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它在强化学习之前结合了多阶段训练和冷启动数据。 DeepSeek-R1 在推理任务上的性能可与 OpenAI-o1-1217 相媲美。 为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 和六个基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出的稠密模型 (1.5B、7B、8B、14B、32B、70B)。

Refer to caption
图 1: DeepSeek-R1 的基准性能。

近年来,大型语言模型 (LLM) 经历了快速迭代和发展 (OpenAI, 2024a; Anthropic, 2024; Google, 2024) ,逐渐缩小了与人工通用智能 (AGI) 的差距。

最近,后训练已成为完整训练流程中的一个重要组成部分。 它已被证明可以提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时与预训练相比需要相对较少的计算资源。 在推理能力的背景下,OpenAI 的 o1 (OpenAI, 2024b) 系列模型率先通过增加思维链推理过程的长度引入了推理时间缩放。 这种方法在各种推理任务(如数学、编码和科学推理)中取得了显著改进。 然而,有效的测试时间缩放的挑战仍然是研究界的一个开放性问题。 先前的一些工作已经探索了各种方法,包括基于过程的奖励模型 (Uesato et al., 2022; Lightman et al., 2023; Wang et al., 2023) 、强化学习 (Kumar et al., 2024) 以及蒙特卡洛树搜索和束搜索等搜索算法 (Feng et al., 2024; Xin et al., 2024; Trinh et al., 2024) 然而,这些方法都没有达到与 OpenAI 的 o1 系列模型相当的通用推理性能。

在本文中,我们朝着使用纯强化学习 (RL) 提高语言模型推理能力迈出了第一步。 我们的目标是探索 LLM 在没有任何监督数据的情况下发展推理能力的潜力,重点关注其通过纯 RL 过程的自我进化。 具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO (Shao et al., 2024) 作为 RL 框架来提高模型在推理方面的性能。 在训练过程中,DeepSeek-R1-Zero自然而然地展现出许多强大而有趣的推理行为。 经过数千步的强化学习后,DeepSeek-R1-Zero在推理基准测试上表现出超群的性能。 例如,在AIME 2024上的pass@1得分从15.6%提高到71.0%,并且通过多数投票,得分进一步提高到86.7%,与OpenAI-o1-0912的性能相匹配。

然而,DeepSeek-R1-Zero也面临着可读性差和语言混合等挑战。 为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。 具体来说,我们首先收集数千条冷启动数据来微调DeepSeek-V3-Base模型。 之后,我们执行类似于DeepSeek-R1-Zero的定向推理强化学习。 在强化学习过程接近收敛时,我们通过对强化学习检查点进行拒绝采样,并结合来自DeepSeek-V3在写作、事实性问答和自我认知等领域的监督数据,创建新的SFT数据,然后重新训练DeepSeek-V3-Base模型。 使用新数据微调后,检查点将进行额外的强化学习过程,同时考虑来自所有场景的提示。 完成这些步骤后,我们得到了一个名为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217不相上下。

我们进一步探索了从DeepSeek-R1到更小的稠密模型的知识蒸馏。 使用Qwen2.5-32B (Qwen, 2024b) 作为基础模型,直接从DeepSeek-R1进行知识蒸馏优于对其应用强化学习。 这表明,由更大的基础模型发现的推理模式对于提高推理能力至关重要。 我们开源了蒸馏后的Qwen和Llama (Dubey et al., 2024) 系列。 值得注意的是,我们蒸馏后的14B模型大幅超越了最先进的开源模型QwQ-32B-Preview (Qwen, 2024a) ,而蒸馏后的32B和70B模型在稠密模型的推理基准测试中创造了新的记录。

1.1 贡献

后训练阶段:基于基础模型的大规模强化学习
  • 我们直接将强化学习应用于基础模型,无需依赖监督微调 (SFT) 作为预备步骤。 此方法允许模型探索用于解决复杂问题的思维链 (CoT),从而开发出 DeepSeek-R1-Zero。 DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力,这标志着研究领域的一个重要里程碑。 值得注意的是,这是第一个公开的研究验证了大语言模型 (LLM) 的推理能力可以通过纯强化学习来激励,而无需 SFT。 这一突破为该领域的未来发展铺平了道路。

  • 我们介绍了开发 DeepSeek-R1 的流程。 该流程包含两个强化学习阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。 我们相信该流程将通过创建更好的模型造福行业。

蒸馏:小型模型也能强大
  • 我们证明,大型模型的推理模式可以蒸馏到小型模型中,这与在小型模型上通过强化学习发现的推理模式相比,性能更好。 开源的 DeepSeek-R1 及其 API 将使研究界能够在未来蒸馏出更好的小型模型。

  • 使用 DeepSeek-R1 生成的推理数据,我们微调了研究界广泛使用的几个密集模型。 评估结果表明,蒸馏后的较小型密集模型在基准测试中表现出色。 DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩,超过了 QwQ-32B-Preview。 此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%。 这些结果显著优于之前的开源模型,并且与o1-mini相当。 我们向社区开源了基于Qwen2.5和Llama3系列的15亿、70亿、80亿、140亿、320亿和700亿参数的蒸馏检查点。

1.2 评估结果摘要

  • 推理任务 : (1) DeepSeek-R1在AIME 2024上取得了79.8%的Pass@1得分,略高于OpenAI-o1-1217。 在MATH-500上,它获得了令人印象深刻的97.3%的得分,与OpenAI-o1-1217不相上下,并且显著优于其他模型。 (2) 在与编码相关的任务中,DeepSeek-R1在代码竞赛任务中展现出专家级水平,因为它在Codeforces上获得了2029分的Elo等级,超过了竞赛中96.3%的人类参与者。 对于与工程相关的任务,DeepSeek-R1的表现略优于DeepSeek-V3,这可以帮助开发人员完成现实世界中的任务。

  • 知识 : 在MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek-R1取得了优异的成绩,其得分显著优于DeepSeek-V3,在MMLU上得分90.8%,在MMLU-Pro上得分84.0%,在GPQA Diamond上得分71.5%。 虽然其在这些基准测试上的性能略低于OpenAI-o1-1217,但DeepSeek-R1超过了其他闭源模型,展示了其在教育任务中的竞争优势。 在事实基准SimpleQA上,DeepSeek-R1优于DeepSeek-V3,证明了其处理基于事实查询的能力。 在此基准测试中,OpenAI-o1超过4o的趋势也类似。

  • 其他 :DeepSeek-R1还在各种任务中表现出色,包括创意写作、一般性问答、编辑、摘要等等。 它在AlpacaEval 2.0上取得了令人印象深刻的87.6%的长度控制胜率,在ArenaHard上取得了92.3%的胜率,展示了其智能处理非考试导向查询的强大能力。 此外,DeepSeek-R1在需要长文本理解的任务中表现出色,在长文本基准测试中大大优于DeepSeek-V3。

2 方法

2.1 概述

以往的工作严重依赖大量的监督数据来提高模型性能。 在本研究中,我们证明了即使不使用监督微调(SFT)作为冷启动,也可以通过大规模强化学习(RL)显著提高推理能力。 此外,通过加入少量冷启动数据,可以进一步提高性能。 在接下来的章节中,我们将介绍:(1)DeepSeek-R1-Zero,它直接将RL应用于基础模型,无需任何SFT数据;(2)DeepSeek-R1,它从使用数千个长链式思维(CoT)示例微调的检查点开始应用RL。 3) 将DeepSeek-R1中的推理能力蒸馏到小型稠密模型中。

2.2 DeepSeek-R1-Zero:基于基础模型的强化学习

强化学习在推理任务中已显示出显著的有效性,正如我们之前的作品所证明的 (Wang et al., 2023; Shao et al., 2024) 然而,这些工作严重依赖于监督数据,而收集监督数据非常耗时。 在本节中,我们探讨了大语言模型(LLM)在 没有任何监督数据的情况下 发展推理能力的潜力,重点关注它们通过纯强化学习过程的自我进化。 我们首先简要概述我们的RL算法,然后介绍一些令人兴奋的结果,并希望这能为社区提供宝贵的见解。

2.2.1 强化学习算法

分组相对策略优化

为了节省RL的训练成本,我们采用分组相对策略优化(GRPO) (Shao et al., 2024) ,它放弃了通常与策略模型大小相同的评判模型,而是从分组分数中估计基线。 具体来说,对于每个问题 q ,GRPO从旧策略 π θ o l d 中采样一组输出 { o 1 , o 2 , , o G } ,然后通过最大化以下目标来优化策略模型 π θ

其中 ε β 是超参数, A i 是优势,它使用对应于每个组内输出的一组奖励 { r 1 , r 2 , , r G } 计算:

表1: DeepSeek-R1-Zero 模板。 prompt 将在训练期间替换为具体的推理问题。

2.2.2 奖励建模

奖励是训练信号的来源,它决定了强化学习的优化方向。 为了训练DeepSeek-R1-Zero,我们采用了一个基于规则的奖励系统,该系统主要包含两种类型的奖励:

  • 准确性奖励 :准确性奖励模型评估响应是否正确。 例如,对于具有确定性结果的数学问题,要求模型以指定的格式(例如,在方框内)提供最终答案,从而能够可靠地基于规则验证其正确性。 同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。

  • 格式奖励 :除了准确性奖励模型外,我们还采用了格式奖励模型,该模型强制模型将其思考过程放在 ‘ ’ 和 ‘ ’标签之间。

在开发DeepSeek-R1-Zero时,我们没有采用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励作弊的影响,而重新训练奖励模型需要额外的训练资源,并且会使整个训练流程复杂化。

2.2.3 训练模板

为了训练DeepSeek-R1-Zero,我们首先设计了一个简单的模板,指导基础模型遵守我们指定的指令。 如表 1 所示,此模板要求DeepSeek-R1-Zero首先生成推理过程,然后给出最终答案。 我们故意将约束限制在这个结构化格式上,避免任何内容相关的偏差——例如要求反思推理或提升特定的问题解决策略——以确保我们能够准确地观察模型在强化学习过程中的自然进展。

2.2.4 DeepSeek-R1-Zero的性能、自我进化过程和顿悟时刻

DeepSeek-R1-Zero的性能

Model AIME 2024 MATH-500 GPQA LiveCode CodeForces
Diamond Bench
pass@1 cons@64 pass@1 pass@1 pass@1 rating
OpenAI-o1-mini 63.6 80.0 90.0 60.0 53.8 1820
OpenAI-o1-0912 74.4 83.3 94.8 77.3 63.4 1843
DeepSeek-R1-Zero 71.0 86.7 95.9 73.3 50.0 1444


表 2: DeepSeek-R1-Zero 和 OpenAI o1 模型在推理相关基准上的比较。
Refer to caption
图 2: DeepSeek-R1-Zero 在训练期间的 AIME 准确率。 对于每个问题,我们采样 16 个答案并计算整体平均准确率以确保评估的稳定性。

2 描述了DeepSeek-R1-Zero在整个强化学习训练过程中在AIME 2024基准测试上的性能轨迹。 如图所示,随着强化学习训练的推进,DeepSeek-R1-Zero 的性能展现出稳定且持续的提升。 值得注意的是,AIME 2024 上的平均 pass@1 分数显着提高,从最初的 15.6% 跃升至令人印象深刻的 71.0%,达到了与 OpenAI-o1-0912 相当的性能水平。 这一显著改进突显了我们的强化学习算法在优化模型性能方面的有效性。

2 对DeepSeek-R1-Zero和OpenAI的o1-0912模型在各种推理相关基准上的进行了比较分析。 研究结果表明,强化学习使 DeepSeek-R1-Zero 能够获得强大的推理能力,而无需任何监督微调数据。 这是一个值得注意的成就,因为它强调了模型仅通过强化学习就能有效学习和泛化的能力。 此外,DeepSeek-R1-Zero 的性能可以通过应用多数投票进一步增强。 例如,当在 AIME 基准测试上采用多数投票时,DeepSeek-R1-Zero 的性能从 71.0% 上升到 86.7%,从而超过了 OpenAI-o1-0912 的性能。 DeepSeek-R1-Zero 能够在使用和不使用多数投票的情况下都获得如此具有竞争力的性能,这突显了其强大的基础能力及其在推理任务中进一步发展的潜力。

Refer to caption
图 3: RL过程中DeepSeek-R1-Zero在训练集上的平均响应长度。 DeepSeek-R1-Zero能够自然地学会利用更长的思考时间来解决推理任务。
DeepSeek-R1-Zero的自进化过程

DeepSeek-R1-Zero的自进化过程是强化学习如何驱动模型自主提升其推理能力的一个引人入胜的案例。 通过直接从基础模型启动强化学习,我们可以密切监控模型的进展,而不会受到监督微调阶段的影响。 这种方法清晰地展现了模型如何随着时间的推移而进化,尤其是在处理复杂推理任务的能力方面。

如图 3 所示,DeepSeek-R1-Zero的思考时间在整个训练过程中持续改进。 这种改进并非外部调整的结果,而是模型内部发展的体现。 DeepSeek-R1-Zero通过利用更长的测试时间计算,自然地获得了解决越来越复杂的推理任务的能力。 这种计算方式涉及生成数百到数千个推理 token,使模型能够更深入地探索和优化其思维过程。

此次自进化最显著的方面之一是,随着测试时间计算的增加,复杂行为的出现。 诸如反思——模型重新审视和重新评估其之前的步骤——以及探索解决问题的替代方法等行为会自发出现。 这些行为并非显式编程,而是模型与强化学习环境交互的结果。 这种自发发展显著增强了DeepSeek-R1-Zero的推理能力,使其能够更高效、更准确地处理更具挑战性的任务。

DeepSeek-R1-Zero的“顿悟”时刻

在DeepSeek-R1-Zero的训练过程中观察到一个特别有趣的现象,即“顿悟”时刻的出现。 如表 3 所示,这一时刻出现在模型的中间版本中。 在此阶段,DeepSeek-R1-Zero 通过重新评估其初始方法来学习将更多思考时间分配给问题。 这种行为不仅证明了模型推理能力的增强,也是强化学习如何带来意想不到和复杂结果的一个引人入胜的例子。

这一时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。 它强调了强化学习的强大和美丽:我们不是显式地教模型如何解决问题,而是简单地为其提供正确的激励,它会自主开发先进的问题解决策略。 “顿悟时刻”有力地提醒了强化学习在释放人工智能系统新智能水平方面的潜力,为未来更自主和自适应的模型铺平了道路。

DeepSeek-R1-Zero的缺点

尽管DeepSeek-R1-Zero表现出强大的推理能力,并自主发展出意想不到且强大的推理行为,但它也面临一些问题。 例如,DeepSeek-R1-Zero难以应对可读性差和语言混合等挑战。 为了使推理过程更具可读性并与开放社区共享,我们探索了DeepSeek-R1,这是一种利用具有用户友好型冷启动数据的强化学习的方法。

表3: DeepSeek-R1-Zero中间版本的一个有趣的“顿悟时刻”。 模型学习使用拟人化的语气重新思考。 这也是我们自己的一个顿悟时刻,让我们见证了强化学习的强大和美丽。

2.3 DeepSeek-R1:具有冷启动的强化学习

受DeepSeek-R1-Zero令人鼓舞的结果启发,出现了两个自然问题:1)通过加入少量高质量数据作为冷启动,能否进一步提高推理性能或加快收敛速度? 2) 如何训练一个用户友好的模型,使其不仅能够生成清晰连贯的思维链 (CoT),而且展现强大的通用能力? 为了解决这些问题,我们设计了一个训练 DeepSeek-R1 的流程。 该流程包含四个阶段,概述如下。

2.3.1 冷启动

与 DeepSeek-R1-Zero 不同,为了避免强化学习训练从基础模型开始的早期不稳定冷启动阶段,对于 DeepSeek-R1,我们构建并收集少量长的 CoT 数据来微调模型作为初始 RL 执行器。 为了收集此类数据,我们探索了几种方法:使用少样本提示,其中包含一个长 CoT 作为示例;直接提示模型生成包含反思和验证的详细答案;以可读格式收集 DeepSeek-R1-Zero 的输出;以及通过人工标注者的后期处理来细化结果。

在这项工作中,我们收集了数千条冷启动数据,以微调 DeepSeek-V3-Base 作为 RL 的起点。 与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:

  • 可读性:DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。 响应可能会混合多种语言,或者缺乏 markdown 格式来突出显示用户的答案。 相反,在为 DeepSeek-R1 创建冷启动数据时,我们设计了一种可读的模式,它在每个响应末尾包含一个摘要,并且过滤掉不适合阅读的响应。 这里,我们将输出格式定义为|special_token| |special_token|

    ,其中 reasoning_process 是查询的 CoT,summary 用于总结推理结果。

  • 潜力:通过利用人类先验知识精心设计冷启动数据的模式,我们观察到比 DeepSeek-R1-Zero 更好的性能。 我们认为迭代训练是推理模型的更好方法。

2.3.2 面向推理的强化学习

在冷启动数据上微调 DeepSeek-V3-Base 后,我们应用了与 DeepSeek-R1-Zero 中相同的规模化强化学习训练过程。 本阶段侧重于增强模型的推理能力,尤其是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及具有明确解决方案的明确定义的问题。 在训练过程中,我们观察到,当强化学习提示涉及多种语言时,思维链(CoT)经常表现出语言混合现象。 为了减轻语言混合问题,我们在强化学习训练过程中引入了一种语言一致性奖励,该奖励计算为思维链中目标语言单词的比例。 尽管消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类偏好,使其更易于阅读。 最后,我们通过直接将推理任务的准确性和语言一致性奖励相加来形成最终奖励。 然后,我们对微调后的模型应用强化学习训练,直到其在推理任务上达到收敛。

2.3.3 拒绝采样和监督微调

当面向推理的强化学习收敛时,我们利用生成的检查点为后续轮次收集监督微调 (SFT) 数据。 与主要关注推理的初始冷启动数据不同,此阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。 具体来说,我们按照如下描述生成数据并微调模型。

推理数据

我们整理推理提示,并通过对上述强化学习检查点进行拒绝采样来生成推理轨迹。 在上一阶段,我们只包含可以使用基于规则的奖励进行评估的数据。 然而,在本阶段,我们扩展了数据集,引入了额外的数据,其中部分数据使用生成式奖励模型,通过将真实答案和模型预测结果输入 DeepSeek-V3 进行判定。 此外,由于模型输出有时混乱且难以阅读,我们过滤掉了包含混合语言、长段落和代码块的思维链。 对于每个提示,我们对多个响应进行采样,并仅保留正确的响应。 总共,我们收集了大约 60 万个与推理相关的训练样本。

非推理数据

对于非推理数据,例如写作、事实性问答、自我认知和翻译,我们采用 DeepSeek-V3 管道并复用 DeepSeek-V3 的 SFT 数据集的部分内容。 对于某些非推理任务,我们在回答问题之前,通过提示调用 DeepSeek-V3 生成潜在的思维链(CoT)。 但是,对于更简单的查询,例如“你好”,我们不会提供思维链作为回应。 最后,我们总共收集了大约 20 万个与推理无关的训练样本。

我们使用上述约 80 万个样本的精选数据集,对 DeepSeek-V3-Base 进行两个 epoch 的微调。

2.3.4 所有场景的强化学习

为了进一步使模型符合人类偏好,我们实施了一个二次强化学习阶段,旨在提升模型的有用性和无害性,同时优化其推理能力。 具体来说,我们使用奖励信号和多样化的提示分布组合来训练模型。 对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。 对于一般数据,我们采用奖励模型来捕捉复杂和细微场景中的人类偏好。 我们基于 DeepSeek-V3 管道并采用类似的偏好对和训练提示分布。 对于有用性,我们只关注最终摘要,确保评估强调响应对用户的实用性和相关性,同时最大限度地减少对底层推理过程的干扰。 对于无害性,我们评估模型的整个响应,包括推理过程和摘要,以识别和减轻生成过程中可能出现的任何潜在风险、偏差或有害内容。 最终,奖励信号和多样化数据分布的整合使我们能够训练一个在推理方面表现出色,同时优先考虑有用性和无害性的模型。

2.4 蒸馏:赋予小型模型推理能力

为了使更有效率的小型模型具备像DeepSeek-R1这样的推理能力,我们使用DeepSeek-R1整理的800k个样本对开源模型,例如Qwen (Qwen, 2024b) 和Llama (AI@Meta, 2024) 进行了直接微调,详情见§ 2.3.3 。我们的研究结果表明,这种直接的蒸馏方法显著增强了小型模型的推理能力。我们在此使用的基础模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我们选择Llama-3.3是因为其推理能力略优于Llama-3.1。

对于蒸馏后的模型,我们只应用监督微调(SFT),不包括强化学习(RL)阶段,即使加入RL可以大幅提升模型性能。 我们这里的主要目标是证明蒸馏技术的有效性,将RL阶段的探索留给更广泛的研究群体。

3 实验

基准测试

我们在MMLU (Hendrycks et al., 2020) 、MMLU-Redux (Gema et al., 2024) 、MMLU-Pro (Wang et al., 2024) 、C-Eval (Huang et al., 2023) 、CMMLU (Li et al., 2023) 、IFEval (Zhou et al., 2023) 、FRAMES (Krishna et al., 2024) 、GPQA Diamond (Rein et al., 2023) 、SimpleQA (OpenAI, 2024c) 、C-SimpleQA (He et al., 2024) 、SWE-Bench Verified (OpenAI, 2024d) 、Aider 1 、LiveCodeBench (Jain et al., 2024) (2024-08 – 2025-01)、Codeforces 2 、中国全国高中数学奥林匹克竞赛(CNMO 2024) 3 和美国邀请赛数学考试2024 (AIME 2024) (MAA, 2024) 上评估模型。除了标准基准测试外,我们还使用大型语言模型作为评判者来评估模型在开放式生成任务上的表现。具体来说,我们遵循AlpacaEval 2.0 (Dubois et al., 2024) 和Arena-Hard (Li et al., 2024) 的原始配置,它们利用GPT-4-Turbo-1106作为评判者进行成对比较。在这里,我们只提供最终摘要进行评估,以避免长度偏差。对于蒸馏后的模型,我们在AIME 2024、MATH-500、GPQA Diamond、Codeforces和LiveCodeBench上报告了具有代表性的结果。

评估提示

遵循DeepSeek-V3中的设置,使用simple-evals框架中的提示评估MMLU、DROP、GPQA Diamond和SimpleQA等标准基准测试。 对于MMLU-Redux,我们在零样本设置中采用Zero-Eval提示格式 (Lin, 2024) 对于MMLU-Pro、C-Eval和CLUE-WSC,由于原始提示是少样本的,我们将其稍作修改为零样本设置。 少样本中的思维链(CoT)可能会损害DeepSeek-R1的性能。 其他数据集遵循其原始评估协议,使用创建者提供的默认提示。 对于代码和数学基准测试,HumanEval-Mul数据集涵盖八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash)。 LiveCodeBench上的模型性能使用思维链(CoT)格式进行评估,数据收集时间为2024年8月至2025年1月。 Codeforces数据集使用来自10场Div.2竞赛的问题以及专家设计的测试用例进行评估,之后计算预期的评分和竞争对手的百分比。 SWE-Bench 验证结果通过无代理框架获得 (Xia et al., 2024) AIDER 相关的基准测试使用“diff”格式进行测量。 DeepSeek-R1 的输出每个基准测试最多限制为 32,768 个 token。

基线

我们针对多个强大的基线进行了全面的评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。 由于在中国大陆访问 OpenAI-o1-1217 API 具有挑战性,我们根据官方报告报告其性能。 对于蒸馏模型,我们还比较了开源模型 QwQ-32B-Preview (Qwen, 2024a)

评估设置

我们将模型的最大生成长度设置为 32,768 个 token。 我们发现,使用贪婪解码来评估长输出推理模型会导致更高的重复率以及不同检查点之间存在显著差异。 因此,我们默认使用 pass@ k 评估 (Chen et al., 2021) 并使用非零温度下报告 pass@1 结果。 具体来说,我们使用 0.6 的采样温度和 0.95 的 top- p 值来生成 k 响应(通常在 4 64 ,具体取决于每个问题的测试集大小。 然后,pass@1 计算为

其中 p i 表示第 i 个响应的正确性。 此方法提供了更可靠的性能估计。 对于 AIME 2024,我们还报告了使用 64 个样本的一致性(多数投票)结果 (Wang et al., 2022) ,表示为 cons @ 64

3.1 DeepSeek-R1 评估


Benchmark (Metric) Claude-3.5- GPT-4o DeepSeek OpenAI OpenAI DeepSeek

Sonnet-1022 0513 V3 o1-mini o1-1217 R1

Architecture - - MoE - - MoE

# Activated Params - - 37B - - 37B

# Total Params - - 671B - - 671B
English MMLU (Pass@1) 88.3 87.2 88.5 85.2 91.8 90.8
MMLU-Redux (EM) 88.9 88.0 89.1 86.7 - 92.9
MMLU-Pro (EM) 78.0 72.6 75.9 80.3 - 84.0
DROP (3-shot F1) 88.3 83.7 91.6 83.9 90.2 92.2
IF-Eval (Prompt Strict) 86.5 84.3 86.1 84.8 - 83.3
GPQA Diamond (Pass@1) 65.0 49.9 59.1 60.0 75.7 71.5
SimpleQA (Correct) 28.4 38.2 24.9 7.0 47.0 30.1
FRAMES (Acc.) 72.5 80.5 73.3 76.9 - 82.5
AlpacaEval2.0 (LC-winrate) 52.0 51.1 70.0 57.8 - 87.6
ArenaHard (GPT-4-1106) 85.2 80.4 85.5 92.0 - 92.3
Code LiveCodeBench (Pass@1-COT) 38.9 32.9 36.2 53.8 63.4 65.9
Codeforces (Percentile) 20.3 23.6 58.7 93.4 96.6 96.3
Codeforces (Rating) 717 759 1134 1820 2061 2029
SWE Verified (Resolved) 50.8 38.8 42.0 41.6 48.9 49.2

Aider-Polyglot (Acc.) 45.3 16.0 49.6 32.9 61.7 53.3
Math AIME 2024 (Pass@1) 16.0 9.3 39.2 63.6 79.2 79.8
MATH-500 (Pass@1) 78.3 74.6 90.2 90.0 96.4 97.3
CNMO 2024 (Pass@1) 13.1 10.8 43.2 67.6 - 78.8
Chinese CLUEWSC (EM) 85.4 87.9 90.9 89.9 - 92.8
C-Eval (EM) 76.7 76.0 86.5 68.9






请到「今天看啥」查看全文


推荐文章
三联生活周刊  ·  70后的我,学会做一个“退场”的父母
21 小时前
三联生活周刊  ·  越来越多的年轻人,开始“同居不领证”了?
21 小时前
王开东  ·  少年情怀总是诗
2 天前
王开东  ·  少年情怀总是诗
2 天前
为你读诗  ·  龙凤美玉,同心佑平安
2 天前
点点星光  ·  人,需要一个真心的异性朋友
7 年前
禅语心苑  ·  千金难买,知己一人
7 年前
牛熊交易室  ·  投资,就像骑在大象背上奔跑
7 年前