专栏名称: 云中江树

云中江树的 AI 内容分享

24篇顶尖论文揭秘DeepSeek的进化之路 | 收藏级论文清单

云中江树 · 公众号 · · 2025-02-24 11:01

正文

国产开源模型DeepSeek-R1最近在AI圈掀起了巨大波澜。这个由中国团队打造的AI模型，在多项关键性能测试中展现出与OpenAI旗舰产品相媲美的表现，而投入的资源仅为对手的一小部分，让整个科技圈为之震撼。

研究DeepSeek系列论文时，江树发现了一份宝藏级的论文清单。这份由Oxen.ai CEO Greg Schoeninger精心整理的资料，通过精选的24篇经典论文，为我们还原了DeepSeek-R1从理论突破到技术创新的完整进阶之路。

想深入了解这个改变游戏规则的AI模型吗？

论文清单如下，快来和江树一起学习吧~

江树已将完整论文资料整理到ima知识库，文末领取完整资料。

Transformer 基础：AI 的“心脏”

DeepSeek 的核心技术基于 Transformer 神经网络，这是现代 AI 模型（如 ChatGPT）的基石。如果你是新手，建议从以下几篇经典论文开始，这些内容虽然有点学术，但我会用简单语言解释。

01 “注意力机制就是一切”

论文标题： Attention Is All You Need
链接： https://arxiv.org/abs/1706.03762

这篇 2017 年的论文首次提出了 Transformer 架构，最初用于机器翻译。它就像给 AI 装上了一双“眼睛”，让它能更聪明地理解语言。这项技术后来被用在很多大模型上，包括 DeepSeek 和 ChatGPT， 大模型的奠基之作 。

简单解释 ：以前的 AI 模型处理语言很慢，靠复杂的循环或卷积计算。Transformer 用“注意力”机制替代这些复杂步骤，让计算更快、更高效。这篇论文证明，Transformer 在翻译任务中表现更好，训练时间也更短。

02 语言模型是无监督的多任务学习者（GPT-2）

论文标题： Language Models are Unsupervised Multitask Learners
链接： https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

这篇论文展示了如何用大量数据训练一个大模型，让它学会很多任务，而不需要专门的训练。它就像让 AI 自己“摸索”出如何回答问题。

还可以看看 GPT-3 论文，了解用简单提示让模型完成各种任务，以及数据和计算规模的重要性。

03 训练语言模型遵循指令（InstructGPT）

论文标题： Training Language Models to Follow Instructions
链接： https://arxiv.org/abs/2203.02155

这篇论文解释了 OpenAI 如何把基础模型变成像 ChatGPT 这样的聊天机器人。他们通过收集人类反馈，教模型听懂并执行指令。

简单解释 ： 大模型可能胡说八道或回答不相关的内容。这篇论文通过“监督学习”和“强化学习”调整模型，让它更贴近用户需求，输出更真实、更安全。

04 Llama-3：Meta 的开源大模型家族

论文标题： Llama-3 Herd Of Models
链接： https://arxiv.org/abs/2407.21783

Meta 的 Llama-3 系列是与 GPT-4 竞争的开源模型，包含 405B 参数的巨型版本和一些较小的模型。这篇论文详细介绍了他们的训练过程。

简单解释 ： Llama-3 能处理多种语言、编码、推理和工具使用，性能接近顶级闭源模型。他们把大模型和安全工具一起开源，方便大家使用。

05 Transformer 的数学框架

论文标题： A Mathematical Framework For Transformers Circuits
链接： https://transformer-circuits.pub/2021/framework/index.html

Anthropic 的这篇论文从最基本的“电路”入手，拆解 Transformer 怎么工作的。虽然有点复杂，但它很详细，适合想深入了解的人。

思维链推理：让 AI 像人一样思考

DeepSeek-R1 和 OpenAI o1 都用“思维链”技术，让 AI 像人类一样逐步推理。这是一种通过提示或训练让模型记录中间步骤的方法，解决复杂问题。以下是相关研究论文：

06 思维链提示：让大模型学会推理

论文标题： Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
链接： https://arxiv.org/abs/2201.11903

这篇论文发现，只用几组示例提示，模型就能生成推理步骤，大幅提升算术、常识和符号推理能力，超越当时微调的 GPT-3。

简单解释 ： 比如给 AI 一个数学问题，通过提示它“一步步思考”，它的答案准确率能提高很多，像学生写草稿一样。

07 思维树：让 AI 更聪明地解决问题

论文标题： Tree of Thoughts: Deliberate Problem Solving with Large Language Models
链接： https://arxiv.org/abs/2305.10601
代码：https://github.com/princeton-nlp/tree-of-thought-llm

“思维树”让模型尝试多种推理路径，并自我评估，特别适合需要规划的任务（如 24 点游戏）。它让 GPT-4 的成功率从 4% 提高到 74%。

08 思维图：更高效地解决复杂问题

论文标题： Graph of Thoughts: Solving Elaborate Problems with Large Language Models
链接： https://arxiv.org/abs/2308.09687

基于思维链和思维树，思维图用图结构优化推理，降低计算成本。比如在排序任务中，质量提升 62%，成本减少 31%。

09 万物之思：多解问题的突破

论文标题： Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation
链接： https://arxiv.org/abs/2311.04254

“万物之思”结合蒙特卡洛树搜索和外部知识，一次调用生成多种答案，适合需要多种解决方案的任务。

10 提示报告：总结提示技术

论文标题：The Prompt Report
链接：https://arxiv.org/abs/2406.06608

这篇综述介绍了“思维”提示和其他提示技术，教你如何用这些方法优化模型，或用它们生成数据提升性能。

专家混合技术：聪明分工的秘诀

DeepSeek-V3 是一款“专家混合（MoE）”模型，总共有 671B 参数，但每次任务只激活 37B 参数。这种技术就像一个团队，每个“专家”负责不同任务，既高效又强大。

11 GShard：用条件计算扩展巨型模型

论文标题： GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
链接： https://arxiv.org/abs/2006.16668

早期 MoE 论文，用“分片”技术训练巨型模型，节省资源，翻译质量更高。