DeepSeek-R1是DeepSeek团队推出的第一代推理模型,通过强化学习(RL)和蒸馏技术显著提升了语言模型的推理能力。DeepSeek-R1-Zero模型在没有监督微调(SFT)的情况下,通过大规模强化学习训练展现出强大的推理能力,但存在可读性和语言混合问题。为了解决这些问题,DeepSeek-R1引入了冷启动数据和多阶段训练,推理性能与OpenAI的GPT o1-1217相当。此外,团队还开源了六个基于Qwen和Llama的蒸馏模型,帮助小型模型提升推理能力。
“集智百科精选”是一个长期专栏,持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目,集智百科希望打造复杂性科学领域最全面的百科全书,欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入,文末可以扫码报名加入百科志愿者!
关键词:大模型语言,强化学习,蒸馏模型,组相对策略优化,规则化奖励
冉天枢、范卓仪、宁定扬、王志鹏、Ricky、
潘琳莉、袁冰、张江
| 作者
目录
1.1
DeepSeek系列模型
2.1 DeepSeek-R1-Zero与强化学习
2.2 DeepSeek-R1-Zero 的顿悟时刻
3. DeepSeek-R1发布带来的社会影响
该模型的开发背景源于传统语言模型在复杂推理任务中的局限性,尤其是在需要多步逻辑推理的场景中。尽管现有的语言模型在生成文本和理解语言方面表现出色,但在数学推理、代码生成等需要精确逻辑推理的任务中,表现仍然有限。
为了解决这一问题,DeepSeek团队提出了基于强化学习的训练方法,开发了DeepSeek-R1系列模型。该模型的核心目标是通过强化学习和大规模训练,提升模型在复杂推理任务中的表现。DeepSeek-R1-Zero是这一系列中的第一个模型,它通过纯强化学习训练,无需监督微调
(SFT)
,展现出强大的推理能力。然而,DeepSeek-R1-Zero 在训练过程中也暴露出一些问题,如可读性差、语言混合等。
为了进一步优化模型,DeepSeek团队引入了冷启动数据和多阶段训练方法,开发了DeepSeek-R1。冷启动数据的使用使得模型在训练初期能够更快地收敛,并且通过多阶段训练,模型的推理能力和可读性得到了显著提升。此外,团队还探索了蒸馏技术,将大型模型的推理能力传递到小型模型,使得小型模型在推理任务中也能表现出色。
总的来说,DeepSeek-R1 的开发背景是为了解决传统语言模型在复杂推理任务中的不足,通过强化学习和蒸馏技术,提升模型在数学推理、代码生成等任务中的表现,并为研究社区提供开源的推理模型资源。
1.1 DeepSeek系列模型
2023年7月,国内大型私募基金幻方量化成立了子公司深度求索,他们储备了过万张A100和H800计算显卡,开启了半年迭代一版大模型的探索历程:
-
2024年1月,深度求索发布了第一代模型,DeepSeekMoE系列,最大的版本有67B参数,确立了混合专家模型
(MoE)
架构路线,能大幅减少训练和生成期间的成本。另外,DeepSeekMoE发现了细粒度多数量Expert模块以及设立独立的共享Expert模块能获得更加稳定且更好的效果。
-
2024年5月,深度求索发布了第二代模型,DeepSeek-v2,最大的版本有273B参数。其中最重要的创新是多头潜在注意力机制
(Multi-head Latent Attention,MLA)
。MLA能大幅降低模型在生成
(推理)
阶段的显卡缓存占用,据报告可降到原先的5%-13%,因而可以大大提高其在生成阶段的效率。这一创新,配合其他创新使得DeepSeek-v2的生成文字的成本降到只有每百万token一块钱。
-
2024年12月,深度求索发布了第三代模型,DeepSeek-v3,最大的版本有671B参数。v3采用了多token预测训练
(Multi-Token Prediction, MTP)
技术以及无损负载均衡技术,在训练过程大幅提高模型能力,最终使得其模型能力比肩GPT-4o的最新版本。此外,DeepSeek-v3还第一次证明了大规模fp8混合精度训练的可行性,提出了DualPipe算法来重叠集群间计算和通信的开销,以及针对MoE架构的PD分离策略等各种技术。
2.1 DeepSeek-R1-Zero与强化学习
DeepSeek-R1-Zero模型通过纯强化学习训练,无需监督微调
(SFT)
,展现出强大的推理能力。且模型在训练过程中表现出“顿悟时刻”,即自发地重新评估和优化推理步骤。
在以往的研究中,模型的性能提升主要依赖于大量的监督数据,或者在预训练模型的基础上通过监督微调
(SFT)
来实现。监督微调是指在预训练模型的基础上,使用带有标注的数据进行进一步训练,使模型更好地适应特定任务
(如文本分类、图像识别等)
,从而提升其在该任务上的性能。然而,DeepSeek-R1-Zero模型的出现打破了这一传统模式,证明了即使不使用监督微调作为冷启动,也能通过大规模强化学习
(RL)
显著提高推理能力。这一方法可以类比DeepMind的Alpha-Zero,后者通过自我对弈生成数据,在围棋对弈中实现了无需人类先验知识的强大决策能力。
DeepSeek-R1-Zero模型的创新主要体现在两个方面:组相对策略优化
(GRPO)
和规则化奖励
(Rule-based reward)
。
- 组相对策略优化(GRPO):
GRPO方法放弃了通常与策略模型大小相同的批评者模型,而是通过组得分来估计基线。这种方法类似于多个科研小组共同攻关同一个课题,当某个小组取得领先时,其他小组会复制其方法,从而节省强化学习的训练成本。
- 基于规则的奖励(Rule-based reward):
即训练过程中的奖励由一个规则系统给出
(而非神经网络)
。例如,确定性的数学题答案可以和事先给定的标准答案对比,确定奖惩信号,二代码题的答案还可以直接丢尽编译器,由编译器给出通过与否的奖惩信号。除此了答案正确与否的奖惩信号,奖励系统中还引入了格式的奖惩信号,即希望模型输出遵守给定的格式,即整个思考过程并放在“
...
”里,而最终答案放在“
...
”。基于规则的奖励实现起来简单高效,也避免了基于神经网络的奖励系统在大规模强化学习过程中可能出现的“奖励操纵”
(reward hacking)
。
基于上述策略,DeepSeek-R1-Zero的训练展示了两个显著效果。首先,模型自然而然地学会了用更多的思考时间来解决推理任务。这一变化并非通过外部压力实现,而是模型内在发展的结果。其次,模型进化出了复杂性,并产生了引人注目的“顿悟时刻”。这些结果表明,DeepSeek-R1-Zero在推理能力上取得了重要突破。
推理过程中DeepSeek-R1-Zero在训练集上的平均响应时间。DeepSeek-R1-Zero⾃然⽽然地学会了⽤更多的思考时间来解决推理任务
然而,DeepSeek-R1-Zero也面临一些挑战。由于在预训练阶段完全放弃了对计算资源消耗巨大的监督学习,模型具有明显的成本优势。但与此同时,完全放弃监督学习也导致输出结果不稳定,且可读性较差。这一问题的存在引发了DeepSeek团队对模型优化的进一步思考。
受到DeepSeek-R1-Zero成果的启发,研究人员提出了两个未来研究方向。首先,作为冷启动,纳入少量高质量数据能否进一步提高推理性能或加速收敛?其次,如何才能训练出一个用户友好型模型,不仅能生成清晰连贯的思维链
(CoT)
,还能展示强大的通用能力?这些问题的探索将为模型的发展提供新的思路和可能性。
2.2 DeepSeek-R1-Zero 的顿悟时刻
顿悟时刻
(Aha Moment)
体现了模型能自发地重新评估和优化推理步骤的能力。如下图所示。模型重新评估了其初始解题方法,并学会了为解题分配更多的思考时间。使用强化学习方法,人们不需要明确教导模型解决问题方法,只需要提供适当的激励,即可让模型自主发展出问题解决策略。这种自主性不仅展示了模型推理能力的提升,还显示了强化学习在解锁AI智能水平方面的潜力。
2.3 冷启动数据与多阶段训练
为了解决可读性和语言混合问题,DeepSeek-R1引入了冷启动数据和多阶段训练方法。这些改进使得模型在推理任务中的表现与OpenAI的o1-1217模型相当。
尽管DeepSeek-R1-Zero显示出了强大的推理能力,但其输出不符合人类的阅读习惯,且会混杂中英文甚至代码和数学符号,所以人类的阅读体验并不好。而要使模型的输出符合人类习惯,人们使用微调技术就会比较适合。于是DeepSeek团队在一定程度上又把监督微调
(SFT)
技术请了回来,在最初使用少量标注数据对基模进行监督微调,作为模型的冷启动,然后再进行DeepSeek-R1-Zero所经历的大规模强化学习。
2.3.1 冷启动数据
“冷启动”是人工智能领域的一个术语,用于描述人工智能模型在没有任何先前训练数据的情况下从头开始学习的情况。与DeepSeek-R1-Zero不同,为了避免从基础模型开始的强化学习训练早期不稳定的冷启动阶段,DeepSeek-R1构建和收集了少量长思维链数据,收集的过程主要注重过滤掉不易读的结果。
这次冷启动阶段的监督微调和以往的“先监督微调后强化学习”训练过程有显著区别,最大的区别在于二者的数量上。比如DeepseekMath在RL前的监督微调阶段使用了77.6万个样本,而这次的冷启动阶段只使用了几千个。也正因为冷启动阶段用于微调的样本量相对较少,所以工程人员可以精心挑选这些样本,因此它们的质量也比以往监督微调阶段用到的数据要高得多。事先使用高质量数据微调后,模型在开始就会使用人类偏好的语言和思维风格进行思考,并输出对人类阅读体验友好的结果。且由于这些微调数据一般都有高质量的思维链
(Chain of Thoughts)
,在后续的强化学习之始可以跳过不断随机摸索的阶段,快速发展出使用思维链进行复杂推理的能力。因此,少批量高质量数据的冷启动不仅能使模型输出符合人类的阅读偏好,还能使模型更快收敛,获得更强的推理能力。不过即便经过了冷启动,大模型在第二阶段的在大规模强化学习过程中还是显示出了语言混杂的现象。为了解决这一问题,Deepseek团队还在训练过程中加入了“语言一致性奖励”,即奖励模型尽可能使用一致的语言来思考和回答。
2.3.2 多阶段训练
经过第一阶段的冷启动和第二阶段的大规模强化学习后,第三和第四阶段的训练分别是提高模型各方面能力的大规模微调和增强模型有用性及无害性的进一步的强化学习。
第三阶段和第一阶段虽然都是微调,但在目的和规模上都不一样。第一阶段的冷启动微调是为了使模型的输出更具可读性和激发其后续的思维推理潜力,而第三阶段的微调是为了提升模型的其他的通用能力,比如写作,问答、翻译、角色扮演、自我反思等。为此,相比于冷启动所需的几千个数据样本,第三阶段的微调使用了80多万个样本数据。这里面包括各种来源的数据,比如说训练Deepseek-v3时用到的监督微调数据集。
有趣的是,这80多万个样本中,有60多万个是从之前R1的训练过程中所得的checkpoints中得来。团队人员使用prompt去让checkpoint模型做出回答,然后使用一个训练好的奖励模型来判断哪些回答质量高可以保留,哪些质量差要被拒绝、丢弃掉,如此获得一个由这些checkpoint生成的,但质量又高于这些checkpoint平均水平的数据集,从而继续训练。这个过程也被称为拒绝采样
(Rejection Sampling)
。
使用这80多万个数据样本对模型进一步微调后,模型不仅有了强大的思维推理能力,还具备了其它各方面的能力。现在最后一步就是要进一步提高模型的推理能力以及有用性,并使其输出无害。这也是第四阶段的进一步强化学习要做的事情。对用于提升其推理能力的数据,可以遵循DeepSeek-R1-Zero的方法获得,而用于提升有用性和无害性的数据,就需要收集模型对于prompt的回答并人工分析,标注出有害部分的数据,使用这些标注好的数据去做强化学习。这也被称作从人类反馈中的强化学习
(Reinforcement Learning from Human Feedback)
。
总的来说,Deepseek-R1的训练分为四阶段,两个监督式微调阶段,两个RL阶段:
-
第一阶段:冷启动监督微调,培养正确
(符合人类偏好)
的语言习惯、激发模型的推理潜能。
-
第二阶段:大规模强化学习,本阶段专注于提升模型的推理密集任务的能力,并训练模型在回答问题时应保持语言一致。
-
第三阶段:大规模监督微调,结合更广阔领域的数据,提高模型其他方面的通用能力。本阶段还对推理任务和非推理任务进行分开训练。
-
第四阶段:进一步强化学习,从而进一步提高推理能力和响应的有效性,并减少其输出的有害内容。
可见模型的主要推理能力涌现自第一和第二阶段,第三第四阶段更像都是后训练
(post-training)
。理论上还可以有第五阶段监督微调、第六阶段强化学习,第七阶段监督微调、第八阶段强化学习……,从而不断迭代提高模型的能力。
2.4 蒸馏技术
DeepSeek团队开源了六个基于Qwen和Llama的蒸馏模型,帮助小型模型提升推理能力。蒸馏技术将大型模型的推理能力传递到小型模型,使得小型模型在推理任务中表现优异。
2015年,Geoffrey Hinton、Oriol Vinyals 和Jeff Dean等学者[1]提出了在AI领域的知识蒸馏技术,即将大型、复杂模型
(教师模型)
的知识转移到小型、简单模型
(学生模型)
上去的技术。DeepSeek团队发现,不仅仅是知识,推理能力也可以从大模型蒸馏传递到小模型。
DeepSeek团队用DeepSeek-R1第三阶段整理得到的80万个样本对一些开源模型如Qwen2.5和Llama3.3的小模型版本进行了直接微调。它们发现,仅仅是如此简单的微调就能大大提升小模型的推理能力,而且这种提升的幅度是仅凭大规模强化学习所不能得到的。为此,它们使用Qwen-32B-Base做了一个实验,对其分别做了与Deepseek-R1-Zero相同大规模的强化学习[2],以及从Deepseek-R1做蒸馏。实验结果是,大规模强化学习后得到的版本,DeepSeek-R1-Zero-Qwen-32B,与目前32B最强的推理模型QwQ-32B-Preview能力相似,然而从Deepseek-R1蒸馏得到的DeepSeek-R1-Distill-Qwen-32B表现却远超前两者。
至此我们也能暂且得出结论:模型蒸馏技术非常有用,相比之下,小模型做大规模强化学习不仅消耗大量算力,而且结果还不如从大模型蒸馏所得。然而,这一切的前提是有这么一个有强能力的大模型。因此,要获得更强的推理能力,还是需要更强的大模型和更大规模的强化学习。
2.5 性能表现
下图显示了 DeepSeek 进行的测试结果,该测试针对 OpenAI 的 o1 模型在数学、编码和推理任务上测试了其大型语言模型的三个版本。DeepSeek-R1 在数学和编码基准测试中击败或与o1相媲美。[3]
2.5.1 教育领域任务
在MMLU、MMLU-Pro和GPQA Diamond等知识基准测试表明,DeepSeek-R1 在STEM
(科学、技术、工程和数学)
相关问题上相比 DeepSeek-V3 具有显著的改进。研究者将其归因于大规模强化学习
(reinforcement learning, RL)
的使用。
-
MMLU
(Massive Multitask Language Understanding)
是一项涵盖多学科、多领域的大规模基准测试,旨在评估语言模型在不同任务和学科中的表现。这些任务包括人文、科学、社会科学和数学等多个领域的高中至专业水平的问题。DeepSeek-R1在MMLU基准测试中取得了 90.8% 的Pass@1准确率,显著优于 DeepSeek-V3,展示了其强大的知识处理和推理能力。
-
MMLU-Pro是一个更加复杂和鲁棒的多任务语言理解基准,设计用于挑战模型在更高难度任务中的表现。与MMLU相比,MMLU-Pro更强调推理能力和跨领域的综合性。DeepSeek-R1 在这一基准中取得了 84.0% 的准确率,超越了 DeepSeek-V3,并在挑战性更高的任务中展现了卓越的推理能力。
-
GPQA Diamond
(Graduate-Level Google-Proof Q&A Benchmark)
是一个针对研究级问答任务设计的基准,问题往往需要复杂的推理和深度分析才能回答。DeepSeek-R1 在这一基准中的表现达到 71.5% 的 Pass@1 准确率,显著高于 DeepSeek-V3,进一步证明了其在处理复杂问题上的潜力。
2.5.2 长上下文任务
DeepSeek-R1 在FRAMES
(依赖长上下文的问答任务)
基准测试中展现了强大的文档分析能力。
-
FRAMES 是一项评估模型在长上下文环境中问答能力的基准测试,旨在检测其文档分析和信息提取能力。DeepSeek-R1 在该测试中取得了 82.5% 的准确率,远超 DeepSeek-V3,展现了其在复杂文档分析任务中的显著优势。
2.5.3 事实性问答
在SimpleQA基准测试中,DeepSeek-R1 超越了 DeepSeek-V3,证明了其处理基于事实查询的能力。但是在中文 SimpleQA 基准上,DeepSeek-R1 的表现不如 DeepSeek-V3,主要由于安全强化学习
(safety RL)
导致模型拒绝回答某些问题。
2.5.4 指令执行与规范化输出
DeepSeek-R1 在IF-Eval基准测试中表现优异。这个测试专注于评估模型遵循格式指令
(format instructions)
的能力。这些改进主要归因于监督微调
(supervised fine-tuning, SFT)
和强化学习
(RL)
后期阶段中指令遵循数据的引入:
-
IF-Eval
(Instruction Following Evaluation)
旨在评估模型遵循格式化指令的能力,是衡量其在严格指令执行中的表现的重要基准。DeepSeek-R1 在 IF-Eval 中表现卓越,得益于训练过程中加入了指令遵循数据。这种改进显示出 DeepSeek-R1 在格式化和结构化任务中的显著优势。
2.5.5 写作和开放问答任务
在AlpacaEval2.0和ArenaHard基准测试中,DeepSeek-R1 表现出色,进一步表明其在写作任务和开放问答
(open-domain question answering)
中的优势,强调了大规模强化学习的泛化优势,不仅增强了推理能力,还提升了跨领域的表现能力。此外,DeepSeek-R1 生成的摘要长度简洁,表明 DeepSeek-R1 在基于 GPT 的评估中避免了引入长度偏差
(length bias)
,进一步巩固了其在多任务中的稳健性。
2.5.6 数学和编程任务
在数学
(如AIME 2024 和MATH-500)
和编程任务
(如LiveCodeBench和Codeforces)
中,DeepSeek-R1 的表现显著优于其他模型,并与OpenAI-o1-1217 相当。
-
AIME,全称 American Invitational Mathematics Examination,是一项面向中学生的高水平数学竞赛,其难度介于 AMC
(美国数学竞赛)
和 IMO
(国际数学奥林匹克竞赛)
之间,享有极高的声誉与含金量。与 AMC 相比,AIME 的试题更具挑战性,需要参赛者具备更强的数学推理能力和问题解决技巧。同时,AIME 也是选拔美国数学奥林匹克竞赛
(USAMO)
和国际数学奥林匹克竞赛
(IMO)
国家队的重要环节之一。在这一测试中,DeepSeek-R1 达到了 79.8% 的 Pass@1 准确率,略高于 OpenAI o1-1217 模型的 79.2%。这一结果表明,DeepSeek-R1 具备以较高准确率解决高中生水平复杂数学问题的能力。
-
MATH-500 数据集收录了 500 道难度极高的数学竞赛题,涵盖代数、几何、数论、组合数学等多个领域。这些题目要求深厚的数学知识储备以及复杂的推理步骤才能解答。在这一测试中,DeepSeek-R1 以 97.3% 的惊人成绩表现出色,与 OpenAI 的 o1-1217 模型持平,并显著超越了其他对比模型。这一表现表明,DeepSeek-R1 已经能够胜任大学水平的数学竞赛题解答,展现了其卓越的数学推理能力。
-
Codeforces 是全球知名的编程竞赛平台,以高难度和强竞争性闻名,吸引了来自世界各地的顶尖程序员参赛。其竞赛题目通常需要选手具备扎实的算法和数据结构知识,以及优秀的编程能力。在 Codeforces 平台上,DeepSeek-R1 获得了 2029 的 Elo 评分,超过了 96.3% 的人类程序员。这一结果表明,DeepSeek-R1 的编程能力已经超越了绝大多数人类程序员,成为算法和编程领域的强大竞争者。
2.5.7 蒸馏模型的性能评价
蒸馏 DeepSeek-R1 的输出使小型模型
(如 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-32B)
在多个基准上超越了 GPT-4o-0513 等非推理模型和其他对比模型。这表明蒸馏技术的有效性。
2.6 开源贡献
DeepSeek团队开源了以下模型,可以在 GitHub 主页下载:
-
DeepSeek-R1-Zero
-
DeepSeek-R1
-
这些开源模型为研究社区提供了宝贵的资源,帮助进一步探索语言模型的推理能力。
2.7 应用场景
-
推理密集型任务:例如编程任务中的代码生成、算法设计,以及数学问题求解、科学推理和逻辑分析等需要复杂推理的场景。
-
教育与知识应用:可用于解决教育领域的问题,支持知识理解与解答。
-
文档分析与长上下文理解:适合处理需要深入文档分析和理解长上下文的任务,例如复杂信息提取与整合。
-
开放领域问答与写作:在内容生成、问题回答以及创造性写作中具有广泛应用,例如生成高质量文本或进行内容编辑。
-
数据分析与搜索:在数据处理与智能搜索中展现出应用潜力,能够高效解析复杂信息。
2.8 未来展望
DeepSeek团队计划进一步优化强化学习在推理任务中的应用,并探索更多蒸馏技术的潜力,以提升小型模型的推理能力。
DeepSeek-R1 模型的发布确实引发了广泛关注,尤其是在中美科技竞争背景下,其影响不仅限于技术层面,还涉及经济、政治和国际关系等多个领域。
3.1 社会影响
以下是该模型发布所产生的主要社会影响:
-
技术突破的象征:DeepSeek-R1 的发布被视为中国在人工智能领域取得重大突破的标志,尤其是在推理能力方面,展示了中国在高端技术研发上的实力。
-
国际影响力的提升:该模型的成功发布进一步巩固了中国在全球人工智能领域的地位,被视为中国科技创新崛起的重要里程碑。
-
科技股票波动:DeepSeek-R1 的发布引发了美国科技股票市场的震荡,尤其是英伟达等公司的股价出现下跌。市场担忧中国在人工智能领域的快速进步可能削弱美国企业的竞争优势。
-
企业调查与竞争压力:OpenAI 等美国科技公司对 DeepSeek-R1 的技术细节展开调查,试图了解其技术优势并制定应对策略。这加剧了中美科技企业之间的竞争。
-
技术封禁的讨论:有报道称,美国政府正在考虑对 DeepSeek-R1 模型实施封禁或限制,以防止其技术在美国的广泛应用。这一举措反映了美国对中国技术崛起的警惕。
-
出口管制与制裁:美国政府可能进一步加强对人工智能相关技术的出口管制,限制中国获取高端芯片和关键技术,以遏制中国在人工智能领域的发展。
-
技术竞争加剧:DeepSeek-R1 的发布加剧了中美两国在人工智能领域的技术竞争,促使其他国家加快相关技术的研发和投资。
3.2 相关事件
-
2025年1月27日,DeepSeek超越ChatGPT,登顶苹果App Store美国区免费APP下载排行榜。[4]
-
2025年1月27日起,DeepSeek的服务器受到大规模网络攻击,许多用户无法登录或注册,或者进行对话。[5]
-
2025年1月28日,DeepSeek表示,为持续提供服务,暂时限制中国以外号码的注册。[5][6]
-
OpenAI表示,其有证据表明DeepSeek使用OpenAI的专有模型来训练自己的开源模型,这违反了OpenAI的服务条款。[7]
参考文献
1. HINTON G, VINYALS O, DEAN J. Distilling the Knowledge in a Neural Network[J/OL]. 2015. DOI:10.48550/arxiv.1503.02531. https://arxiv.org/pdf/1503.02531
2. 这里有点微妙。原文是“we conduct large-scale RL training on Qwen-32B-Base using math, code, and STEM data, training for over 10K steps”。很难说1万步的训练到底够不够大规模,也许对于671B的模型来说足够了,但对于32B的模型就不知道了。
3. DeepSeek-AI, Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., Zhang, X., Yu, X., Wu, Y., Wu, Z. F., Gou, Z., Shao, Z., Li, Z., Gao, Z., … Zhang, Z. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (No. arXiv:2501.12948). arXiv. https://doi.org/10.48550/arXiv.2501.12948
4. 李潇潇, 胡含嫣 (2025-01-27). "DeepSeek超越ChatGPT,登顶苹果美国区免费APP下载排行榜". 澎湃新闻. Retrieved 2025-01-29.
5. "攻击DeepSeek数量激增 中国网安专家:IP均来自美国". 联合早报. 2025-01-28. Retrieved 2025-01-29.
6. "360宣布无偿为DeepSeek提供安全服务". 齐鲁晚报. 2025-01-28. Retrieved 2025-01-29.
7. "OpenAI称有证据表明DeepSeek利用其模型训练竞争对手". RFI - 法国国际广播电台. 2025-01-29. Retrieved 2025-01-29.
冉天枢
,清华大学社会学系本科毕业、哥大教师学院国际比较教育硕士毕业,现从事AI素养企业培训课程开发。