大家好,我是章北海
推荐 10 篇优质文章,花上个把小时认真读完,对 DeepSeek 的理解就能超过 99% 的人了。
围绕 DeepSeek 的谣言实在太多了
🚀全文直达
本文围绕 DeepSeek 的大模型 R1 展开讨论,驳斥了关于 DeepSeek 的一系列误解。
重要亮点
-
DeepSeek 的影响力与发展历程
:2025 年 1 月,DeepSeek 的 R1 模型引发全球大讨论。DeepSeek 并非突然出现,其个开源模型于 2023 年 11 月发布,一年来持续推出新产品。罗马不是一天建成的,DeepSeek 在人工智能领域发展迅速,拥有出色的团队。
-
训练成本的争议
:有人质疑 DeepSeek 训练 R1 的成本,认为其隐瞒真实成本并通过非法途径获取算力。但实际上,550 万美元的成本估算有依据,且未计入强化学习训练的额外成本、小规模实验和研究人员薪资等成本。与其他 AI 前沿实验室相比,这种比较是不公平的。
-
对
Nvidia
的影响
:有人认为 DeepSeek 价格便宜,使所有US AGI 公司浪费钱且对
Nvidia
不利。但 DeepSeek 在训练效率上高,不意味着拥有更多计算资源是坏事。所有大的 AGI 公司都在押注扩展律,获取更多计算资源是合理举措,且 DeepSeek 的成功与
Nvidia
的地位无关。
-
创新之处
:DeepSeek 在语言模型的设计及其训练方式上有许多创新,如 Multi-latent 注意力(MHA)、GRPO 与可验证奖励、DualPipe 等。DeepSeek 完全开源并详细记录了这些创新,让每个人都能受益。
-
是否从 ChatGPT 吸取知识的争议
:OpenAI 声称 DeepSeek 从 ChatGPT 吸取知识,但缺乏证据。如果 DeepSeek 使用了来自其他来源的数据,这种形式的训练不违反服务条款。DeepSeek 的成就不应被忽视,其在工程、效率和架构创新方面有实际成果。
-
zh-us AI 竞争态势
:在 AI 领域一直有竞争力,DeepSeek 的出现让不容忽视。封闭技术是否能带来显著优势尚不明确,US的前沿 AI 实验室和都将在 AI 上投入大量资金,竞争正在加剧。
4000 字!深度解析 DeepSeek 的蒸馏技术
🚀全文直达
本文主要介绍了 DeepSeek 蒸馏技术,包括其定义、原理、关键创新、模型架构与训练、性能表现以及面临的挑战。
重要亮点
-
DeepSeek 蒸馏技术概述
:模型蒸馏是将大型复杂模型(教师模型)的知识迁移到小型模型(学生模型)的技术,其核心在于知识的传递和压缩,包括教师模型训练、数据准备、学生模型训练和优化调整等步骤。
-
关键创新
:将数据蒸馏与模型蒸馏结合,提升模型性能并降低计算成本;采用知识迁移策略,如基于特征的蒸馏和特定任务蒸馏,优化蒸馏模型性能。
-
蒸馏模型架构与训练
:架构设计考虑效率与性能平衡,选择大型语言模型作为教师模型,基于 Qwen 和 Llama 系列架构设计学生模型,采用层次化特征提取和多任务适应性机制,通过参数共享与压缩、轻量化模块设计等优化策略;训练过程包括数据准备、监督微调、损失函数设计和优化方法等关键步骤。
-
性能表现
:蒸馏模型在推理效率方面显著提升,计算资源优化、内存占用减少、推理速度提升;在性能上能接近甚至超越原始大型模型,通过多种策略保持性能,在基准测试中表现优异。
-
技术挑战
:面临突破蒸馏的“隐性天花板”挑战,学生模型性能难以超越教师模型固有能力;多模态数据的蒸馏挑战,包括数据融合难度大、语义对齐困难和计算资源需求高。
3 个 DeepSeek 复现经验心得汇总
🚀全文直达
V3 版本开源模型 DeepSeek 的发布在外网刷屏,引发全球复现热潮。它以低成本芯片训练出突破性模型,可能威胁美国 AI bq,使大模型比拼不再是算力战。文中介绍了多个围绕 DeepSeek 的项目,包括 HuggingFace 的 Open R1 项目,旨在构建 R1 pipeline 中缺失部分并分三步完成;伯克利团队用 30 美元成本在 CountDown 游戏中复现 DeepSeek R1 - Zero 的 TinyZero 项目;港科大团队只用 8K 样本在 7B 模型上复刻 DeepSeek - R1 - Zero 和 DeepSeek - R1 的训练。
一场关于 DeepSeek 的高质量闭门会:比技术更重要的是愿景
🚀全文直达
本文围绕神秘的 AI 模型 DeepSeek 展开,内容涵盖其技术特点、组织模式、与其他模型的对比、对行业的影响等多个方面。文章还探讨了 AI 技术的发展趋势,如 2025 年技术的分化、开源与闭源之争等问题,并分析了 DeepSeek 对二级市场的影响。
重要亮点
-
DeepSeek 的技术特点
:DeepSeek 在技术上有诸多特点,如在推理层面可能不需要做 SFT(有监督微调),但在其他任务中可能仍需 SFT;其 R1 本质是 SFT 训练出来的,数据用 RLHF 训练出来的模型生成;其长上下文能力提升快,用常规方法就能做到 Long context 10K;在数据标注上非常重视,这是模型效率好的关键之一;在蒸馏技术上有优势也有隐患,如模型 diversity 下降等;在 Process Reward 方面,过程监督上限是人,结果监督才是模型上限。
-
DeepSeek 的文化
:创始人兼 CEO 梁文锋是 DeepSeek 核心的人,团队的 research 能力和团队文化很好。DeepSeek 把所有精力放在一个很窄的点,比如智能本身,不在乎形态,往 AGI 走。DeepSeek 的组织模式类似字节,文化好,商业模式好,核心是文化组织。对于人才组合,磨合好也能能力变高级,挖走一个人对其影响可能不大。
-
AI 技术发展趋势
:2025 年模型会发生分化,可能有新的架构出现,RL 的潜力还未完全发挥,多模态可能出现挑战 ChatGPT 形态的产品。此外,除了 Transformer 外可能会有别的架构探索,降低成本的同时探索智能边界。目前大家关心 agent,但还未大规模应用。
-
开源与闭源之争
:DeepSeek 的开源引发关注,开源和闭源路线并不矛盾,但如果开源能做到闭源的 95% 或能力差不多,对闭源是挑战。有可能导致 OpenAI 等把好的模型藏在后面,但 DeepSeek 拿出来后其他公司好的模型可能藏不住了。目前是共存状态,高校和小 lab 可能优先选择 DeepSeek,云厂商对开源闭源都支持。
-
DeepSeek 的影响
:DeepSeek 的出圈让外界意识到 AI 很强,缩小了 AI 差距。其证明了作为追赶者可以发挥工程能力优势,未来 AI 格局可能取决于大模型团队如何用较少算力做出成果。DeepSeek 对US AI 圈冲击大,短期对股价有影响,但长期叙事会继续。
-
技术与愿景的关系
:不同 AI labs 的模型核心差别在于愿景而非技术,比技术更重要的是愿景。例如 AI labs 之间的差距在于谁能提出下一个 reasoning,无限长度的 reasoning 可能是一个愿景。
省钱也是技术活:解密 DeepSeek 的压榨术
🚀全文直达
文章主要介绍了 DeepSeek--V3 模型,其以较低成本和短时间达到了与顶尖模型比肩的性能,引发了广泛关注和讨论。
重要亮点
-
低成本训练
:DeepSeek-V3 以 557.6 万美元预算,在 2048 个 H800 GPU 集群上仅用 3.7 天 / 万亿 tokens 的训练时间,每万亿 tokens 仅需 180K 个 H800 GPU 小时,总计 278 万 GPU 小时的训练成本,远低于其他模型。采用压缩、并行和提升硬件使用效率等方法,包括 MLA 多层注意力架构、FP8 混合精度训练框架以及 DualPipe 跨节点通信优化等创新技术。
-
压缩技术
:一是 MLA 多层注意力架构,通过动态合并相邻层特征、对 Key/Value 和 Query 进行低秩压缩,减少内存占用和计算量,使训练内存占用减少 20 - 30%,提升训练效率;二是 FP8 混合精度训练框架,采用“混合精度”方案,大部分计算内核采用 FP8 精度,某些敏感算子保留 FP16 乃至 FP32 精度,同时解决了 FP8 误差累计问题,使模型训练速度大幅提升,显存使用减少,精度损失小于 0.25%。
-
并行技术
:采用专家并行训练技术,创新 DualPipe 跨节点通信优化方法,减少计算气泡和通信开销,提高算力使用效能;采用无辅助损失的负载均衡策略,实现自然均衡,提高训练效率;进行底层通信优化,确保数据传输。
-
性能秘密
:总参数量大,在数据处理上精益求精,采用多元化数据获取策略、严格的数据清洗流程和先进的数据处理方法;引入多 token 预测(MTP)技术,提高训练效率和模型性能;对 R1 进行蒸馏使用,强化模型能力但也导致偏科。
-
价值与争议
:DeepSeek-V3 引发外网赞许和怀疑,虽被指缺乏真正创新,但在工程并行技术上有很多创新,展示了在工程实现和理论创新之间找到平衡点的新可能性,为 AI 落地提供了新方向。
一文读懂|DeepSeek 新模型大揭秘,为何它能震动全球 AI 圈
🚀全文直达
本文主要介绍了 DeepSeek--R1 在技术上的重大突破,即用纯深度学习的方法让 AI 自发涌现出推理能力,这一研究可能对模型推理训练后续范式产生深刻影响。
重要亮点
-
DeepSeek-R1 的影响力
:DeepSeek-R1 推出后震动全球 AI 圈,其以低成本和强大性能引发关注,很多业内人士认为它可能接班 OpenAI。它探索了提升大语言模型推理能力的多种方法,并发现了涌现特性。
-
纯 RL 方法训练模型
:DeepSeek-R1-Zero 采用纯强化学习路径,完全抛开预设思维链模板和监督式微调,仅依简单奖惩信号优化模型行为。通过 GRPO 规则让 AI 自我采样、比较和提升。
-
模型学会思考的证据
:在处理复杂数学问题时,模型出现类似人类顿悟的行为,响应长度会随问题复杂度自然调节,在不同竞赛中展现出迁移学习能力,这些都表明模型学会了推理。
-
R1-Zero 的问题与改进
:R1-Zero 存在可读性差和语言混杂的问题,研究团队了 DeepSeek-R1,引入冷启动数据和多阶段训练流程,使其性能更优且能以人类易懂的方式表达思维过程。
-
纯强化学习的意义
:纯强化学习可能是通向 AGI 的意外捷径,R1-Zero 避免了奖励欺骗的可能性,发展出更可信、自然的推理能力,提示我们真正的通用人工智能可能需要不同的认知方式。
万字长文详解 DeepSeek-R1 模型工作原理
🚀全文直达
DeepSeek 的发布引起了科技行业的震动,其代推理模型 DeepSeek--R1--Zero 通过大规模强化学习训练,表现出卓越的推理能力,但也面临一些挑战。为解决问题,DeepSeek 了 DeepSeek--R1,该模型在强化学习之前加入了多阶段训练流程和冷启动数据,在推理任务中的性能已达到与 OpenAI--o1--1217 相当的水平。此外,DeepSeek 还探索了将 DeepSeek--R1 的能力蒸馏到小型密集模型的可能性,并对模型进行了的评估和讨论,同时提出了未来的研究方向。
重要亮点
-
DeepSeek 的发布及影响
:DeepSeek 的发布震撼了科技行业,迅速超越 ChatGPT 成为苹果应用商店免费 APP 下载排行榜位,并导致Nvidia市值蒸发近 6000 亿美元。DeepSeek 的代推理模型 DeepSeek-R1-Zero 在初始阶段未依赖监督微调,但表现出卓越的推理能力,不过也面临可读性差和语言混杂等挑战。
-