专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
APPSO  ·  DeepSeek ... ·  2 天前  
小众软件  ·  另外两件事[250131好难过] ·  2 天前  
APPSO  ·  OpenAI 称掌握 DeepSeek ... ·  3 天前  
51好读  ›  专栏  ›  APPSO

万字揭秘DeepSeek !这个创新让全世界疯狂复制,顶尖AI人才年薪千万,训练成本被低估

APPSO  · 公众号  · app  · 2025-02-02 17:00

正文

这可能是迄今为止海外对 DeepSeek 最全面的一份分析报告,来自知名半导体研究机构 Semianalysis。
从 DeepSeek 让训练成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能对比,人均年薪千万的顶尖人才,还指出目前 DeepSeek 的成本估算是错误的,推测其拥有 大约有 5 万块Hopper GPU……
关于 DeepSeek目前很多甚嚣尘上的传言,这篇文章依据现有信息给出了更客观的论述。


图灵奖得主杨立昆最近再次发表了关于 DeepSeek 的观点,他指出硅谷某些圈子的通病,是认定别处的创新都是靠作弊得来的。
而科技要快速进步,恰恰需要让更多人才参与并共享创新成果。在 DeepSeek 的开源模型上,我们也看到了这种愿景。
报告原文:
https://semianalysis.com/2025/01/31/deepseek-debates/

APPSO 整理了这篇分析报告中的关键要点:


推测 DeepSeek 大约有5万块 Hopper GPU,在 GPU 上的投资总额超过 5 亿美元

 广为讨论的 600 万美元成本仅指预训练过程中 GPU 的花费,这只是模型总成本的一部分。

DeepSeek 团队目前约 150 人,从北大浙大等中国高校招聘人才,年薪可达千万

多头潜在注意力(MLA) 是 DeepSeek 大幅降低推理成本的关键创新,将每次查询所需的 KV 缓存减少了约 93.3%

在推理性能上 R1 与 o1 不相上下,而 o3 的能力明显高于 R1 和 o1

关注 AI 第一新媒体,获取最新 AI 资讯和洞察


DeepSeek 风暴席卷全球

过去一周,DeepSeek 成为了全世界人们唯一热议的话题。
目前,DeepSeek 的日活(据悉超过 1900万)已经远高于 Claude、Perplexity 甚至 Gemini。
然而,对于长期关注 AI 行业的人,这个消息不算新鲜。我们已经讨论 DeepSeek 数月,对这家公司并不陌生,但疯狂的炒作却出乎意料。SemiAnalysis 一直认为 DeepSeek 极具才华,而美国更广泛的公众并不在意。
当世界终于关注到这家公司,其中狂热的舆论并没有完全反映它的真实情况。
我们想强调的是,舆论已经发生了转变。上个月,当 Scaling Laws (扩展定律)被打破时,我们就已揭穿了这个神话;如今,算法改进的速度过快,而这在某种程度上对英伟达和 GPU 不利。
现在大家讨论的是,DeepSeek 效率如此之高,以至于我们不再需要更多的计算资源,而由于模型的变革,出现了巨大的产能过剩。
虽然杰文斯悖论(Jevonʼs Paradox)也被过度炒作,但它更接近现实,因为这些模型已经引发了需求,对 H100 和 H200 的定价产生了实质性的影响。
编者注:杰文斯悖论简单来说就是,当某种资源的使用效率提高后,虽然单次使用时消耗更少,但因为成本降低、使用更方便,反而可能让人们用得更多,导致整体消耗量反而上升。

5 万块 Hopper GPU

幻方量化是一家中国对冲基金,也是最早在其交易算法中采用 AI 的先行者。他们早早就意识到 AI 在金融以外领域的潜力以及扩展能力的重要性,因此不断增加 GPU 的供应。
经过使用数千个 GPU 集群进行模型实验后,幻方量化在 2021 年,在任何出口限制出台之前,就投资了 10000 个 A100 GPU。
这笔投资得到了回报。随着幻方量化的不断进步,他们意识到是时候在 2023 年 5 月剥离出 「DeepSeek」,以更专注地追求进一步的 AI 能力。
当时由于外部投资者对 AI 缺乏兴趣(主要担心商业模式问题),幻方量化自筹资金成立了这家公司。如今,幻方量化与 DeepSeek 经常共享资源,包括人力和计算资源。
如今,DeepSeek 已经发展成为一项严肃且协同的重要项目,绝非很多媒体所称的「副业项目」。
我们相信即使考虑到出口管制因素,他们在 GPU 上的投资总额超过 5 亿美元
我们认为,他们大约拥有 50000 个 Hopper GPU,但这并不等同于拥有 50000 个 H100 GPU。
英伟达根据不同法规要求推出了不同版本的 H100(例如 H800、H20),目前只有 H20 可供中国大模型公司使用。需要注意的是,H800 的计算能力与 H100 相同,但其网络带宽较低。
我们认为 DeepSeek 拥有大约 10000 个 H800 和大约 10000 个 H100。此外,他们还订购了更多的 H20,过去 9 个月内,英伟达已为中国市场生产了超过 1000000 个此类 GPU。
这些 GPU 在 幻方量化和 DeepSeek 之间共享,并在地理上有所分布。它们被用于交易、推理、训练和研究。
我们的分析显示,DeepSeek 的服务器资本支出总额约为 16 亿美元,其中与运营这些集群相关的成本高达 9.44 亿美元。
同样,由于资源集中化是一大挑战,所有 AI 实验室和超大规模云服务商都拥有比单次训练运行所使用的 GPU 数量要多得多,用于研究和训练的任务。

年薪近千万,在中国高校挖顶尖人才

DeepSeek 完全从中国招聘人才,不拘泥于以往的资历,而是高度重视能力与好奇心。DeepSeek 定期在北京大学、浙江等顶尖高校举办招聘活动,许多员工均毕业于这些院校。
岗位职责并完全固定,招聘时会有一定灵活性,招聘广告甚至宣称可以无限制调用 10000 多个 GPU 。
这些职位竞争极为激烈,据称对有潜力的候选人提供的薪资超过 130 万美元(约合 934 万人民币),远高于中国大型科技公司和 AI 实验室(如 Moonshot)等竞争对手。
目前 DeepSeek 约有 150 名员工,但正在迅速扩张。
历史证明,一家资金充足且专注的小型初创公司往往能够突破界限。
DeepSeek 不具备像 Google 那样的官僚主义,由于其自筹资金,能够迅速推进新想法。
然而,与 Google 类似,DeepSeek(在大多数情况下)自建数据中心,而不依赖外部方或供应商。这为进一步实验提供了更大空间,使他们能够在整个技术栈上实现创新。
我们认为,他们是当今唯一最优秀的「开源权重」实验室,超越了 Meta 的 Llama 项目、Mistral 以及其他竞争者。

DeepSeek 的极低成本被误读了

DeepSeek 的价格与效率引发了硅谷科技圈地震的关键。
然而,关于 DeepSeek V3 的训练成本为 600 万美元这个广为流传的数字,其实是片面的。这相当于只关注产品物料清单中的某一部分,并将其视为全部成本。预训练成本仅仅是总成本中很小的一部分。
我们认为,预训练所支出的成本,远远不能代表模型所花费的总成本。
我们相信 DeepSeek 在硬件上的支出远超过 5 亿美元。他们为了开发新的架构创新,在模型开发过程中,花费了大量资金用于测试新思路、新架构和消融实验。
多头潜在注意力(Multi-Head Latent Attention) —— DeepSeek 的一项关键创新,耗时数月开发,花费了整个团队的大量人力和 GPU 计算时间。
论文中提到的 600 万美元成本仅指预训练过程中 GPU 的花费,这只是模型总成本的一部分。研发费用以及硬件本身的总体拥有成本等重要部分并未包含在内。
作为参考,Claude 3.5 Sonnet 的训练成本达数千万美元,如果那就是 Anthropic 的全部成本,那么他们就没必要从 Google 融资数十亿、从亚马逊融资数十亿美元。因为这是他们进行实验、提出新架构、收集和清洗数据、支付员工工资的必要成本。
那么,DeepSeek 是如何获得如此大规模的集群的呢?出口管制的滞后是关键,我们会在下文将详细讨论。

V3 让性能差距缩小的秘诀

毫无疑问,V3 是一款令人印象深刻的模型,但值得强调的是,它的「令人印象深刻」是相对于什么而言。
许多人将 V3 与 GPT-4o 进行比较,并强调 V3 在性能上超越了 4o,但 GPT-4o 是在 2024 年 5 月发布的。以当下 AI 的发展速度,算法改进方面那个时候和现在已是天壤之别。此外,我们并不惊讶在经过一定时间后,用更少的计算资源就能实现相当或更强的能力。
推理成本大幅下降正是 AI 改进的标志。
举个例子,一些可以在笔记本电脑上运行的小模型,其性能可与需要超级计算机训练,以及需要大量 GPU 推理的 GPT-3 相媲美。换句话说,算法改进使得用更少的计算资源即可训练和推理具备相同性能的模型,而这种模式在业内以及出现了多次。
这一次世界终于注意到了,是因为它来自中国的一家实验室,但小模型性能提升并不是什么新鲜事。
目前行业的趋势是,AI 实验室在投入的绝对资金上不断增加,以获取更高的智能水平。
据估算,算法效率每年进步 4 倍,即每过一年,用于达到相同性能的计算资源减少 4 倍。
Anthropic 的 CEO Dario 认为,算法进步甚至会更快,可以实现 10 倍的提升。
就 GPT-3 质量的推理价格而言,成本已经下降了 1200 倍。
在研究 GPT-4 的成本时,我们也看到了类似的下降趋势,尽管处于曲线的较早阶段。时间上的成本差异降低可以解释为不再像上图那样保持性能不变。
在这种情况下,我们看到算法改进和优化使得成本降低 10 倍,同时性能提升 10 倍。
需要说明的是,DeepSeek 的独特之处在于他们率先实现了这种成本和性能水平。
虽然 Mistral 和 Llama 模型也曾在开源模型上做过类似的事情,但 DeepSeek 做到的程度独树一帜。如果到了年底,成本再下降 5 倍,也请不要感到惊讶。

R1 凭什么迅速追上 OpenAI o1

大家热议的另一个话题,是 R1 能够达到与 o1 相当的效果,而 o1 仅在 9 月发布。
仅仅几个月时间,DeepSeek 是如何如此迅速地赶上的呢?
问题的关键在于,推理能力形成了一种全新的范式。
推理范式迭代速度更快,且以较少的计算资源即可获得显著收益。正如我们在扩展定律报告中提到的,以往的范式依赖于预训练,而这这种方式不仅成本越来越高,且已经难以取得稳健的进步。
新的推理范式,专注于通过合成数据生成和在现有模型上进行后训练中的强化学习来提升推理能力,从而以更低的成本实现更快的进步。
较低的入门门槛加上易于优化,使得 DeepSeek 能够比过去更快地复制 o1 方法。随着各方探索如何在这一新范式下进一步扩展,我们预计不同模型在匹配性能的时间差距将会拉大。
需要注意的是,R1 论文中没有提及所使用的计算资源。这绝非偶然 —— 为了生成用于后训练的合成数据,R1 需要大量的计算资源,更不用说强化学习了。
R1 是一款非常优秀的模型,但它披露的一些基准测试也具有误导性。R1 特意没有提及那些它并不领先的基准测试,虽然在推理性能上 R1 与 o1 不相上下,但在每项指标上它并不都是明显的赢家,在许多情况下甚至不如 o1。
这里我们还没有提到 o3。o3 的能力明显高于 R1 和 o1。实际上,OpenAI 最近分享了 o3 的结果(还提前发布了 o3-mini ),其基准测试的扩展呈垂直趋势。
这似乎再次证明了「深度学习遭遇瓶颈」,但这个瓶颈不同以往。


与 Google 的推理模型不相上下

尽管 R1 的炒作热潮不断,但很多人忽略了,一家市值 2.5 万亿美元的美国公司在上个月以更低的价格发布了一款推理模型:Google 的 Gemini Flash 2.0 Thinking。
该模型已经可以使用,并且通过 API 即使拥有更长的上下文长度,其成本仍远低于 R1。
在已公布的基准测试中,Flash 2.0 Thinking 超越了 R1,尽管基准测试并不能说明全部情况。Google 只发布了 3 个基准测试,因此情况不够全面。不过,我们认为 Google 的模型非常稳健,在许多方面可以与 R1 相当,但却未获得太多关注。
这可能是由于 Google 营销策略平平、用户体验较差,但同时 R1 也作为一项来自中国的黑马出现。
需要明确的是,这些都不会削弱 DeepSeek 非凡成就的价值。DeepSeek 作为一家快速运作、资金充足、聪明且专注的初创公司,这正是它在推理模型方面超越 Meta 等巨头的原因。

让美国科技圈疯狂复制的 MLA 创新

DeepSeek 实现了许多领先的 AI 公司都未达到的技术创新。我们预计,接下来 DeepSeek 发布的任何技术进展,都将几乎立刻被西方实验室复制。
这些技术突破是什么?大多数架构上的成就都与 V3 相关,而 V3 也是 R1 的基础模型。下面让我们详细介绍这些创新。
训练(预训练与后训练)
DeepSeek V3 利用 Multi-Token Prediction (MTP) 实现了前所未见的规模,这是一种新增的注意力模块,可预测接下来的多个 token,而非单一 token。
它在训练过程中显著提高了模型性能,并且在推理时可以被移除。这就是一种利用较低计算资源实现性能提升的算法创新。
还有一些额外的考量,比如在训练中采用 FP8 精度,但领先的美国实验室已经使用 FP8 训练有一段时间了。
DeepSeek V3 还是一种专家混合模型,即由众多专注于不同任务的小专家组成的大模型,表现出强大的涌现能力。
MoE 模型曾面临的一个难题,是如何确定哪个 token 应该分配给哪个子模型或「专家」。DeepSeek 实现了一个「门控网络」(gating network),能以平衡的方式将 token 路由到合适的专家,而不会影响模型性能。
这意味着路由效率非常高,在训练过程中每个 token 相对于整个模型的规模仅需修改少量参数。
这提高了训练效率,同时也降低了推理成本。
尽管有人担心专家混合模型(MoE)带来的效率提升,可能会减少投资,但 Dario 指出,更强大 AI 模型所带来的经济效益非常可观,因此任何节约的成本都会迅速再投资于构建更大规模的模型。
MoE 的效率提升不仅没有减少总体投资,反而会加速 AI 的规模扩大。目前硅谷的主流科技公司都在正全力以赴地将模型扩展到更多计算资源,并在算法上提高效率。
R1 背后的基础模型 V3
就 R1 而言,其极大地受益于拥有一个强大的基础模型(V3),这部分得益于强化学习(RL)。
RL 主要聚焦两个点:格式化(以确保输出连贯)以及有用性和安全性(以确保模型实用)。
推理能力是在对模型进行合成数据微调时产生的。正如我们在扩展定律文章中提到的,这正是 o1 所经历的过程。
需要注意的是,R1 论文中没有提及计算资源的使用情况,这是因为提到所用计算资源的数量会透露他们拥有的 GPU 数量远超过其对外宣传的规模。
如此大规模的强化学习需要大量计算资源,尤其是在生成合成数据的场景。
此外,DeepSeek 使用的一部分数据似乎来自 OpenAI 的模型(尚未证实),我们认为这将对从输出中进行蒸馏的政策产生影响。根据服务条款这是违规的,但未来一种新的趋势可能会采取类似 KYC(了解你的客户)的方式来阻止数据蒸馏。
谈到蒸馏,也许 R1 论文中最值得关注的部分,是能够通过用推理模型的输出对非推理小模型进行微调,将其转变为具备推理能力的模型。
数据集策划共包含 80 万个样本,现在任何人都可以利用 R1 的思维链(CoT)输出创建自己的数据集,并借助这些输出构建推理模型。
我们可能会看到更多小模型展示出推理能力,从而提升小模型的性能。
多头潜在注意力(MLA)
正如我们在前文提到,多头潜在注意力(MLA) 是 DeepSeek 在推理成本上大幅降低的关键创新。
因为与标准注意力机制相比,MLA 将每次查询所需的 KV 缓存减少了约 93.3%。KV 缓存是 Transformer 模型中的一种内存机制,用于暂时保存代表对话上下文的数据,从而减少重复计算。
随着对话上下文的增长,KV 缓存也会增加,进而带来巨大的内存压力。因此大幅减少每次查询所需的 KV 缓存,就能降低每次查询所需的硬件量,从而降低了整体成本。
不过我们认为 DeepSeek 是以成本价提供推理服务以抢占市场份额,而并非真正盈利。
Google Gemini Flash 2.0 Thinking 仍然更便宜,且 Google 不太可能以成本价提供该服务。MLA 尤其引起了许多领先的美国实验室的关注。
MLA 于 2024 年 5 月在 DeepSeek V2 中首次发布,由于 H20 的内存带宽和容量相比 H100 更高,DeepSeek 在推理工作负载上也获得了更多效率提升。他们还宣布与华为建立合作关系,但迄今为止在昇腾计算方面的应用还很少。
昨天硅基流动和华为云团队宣布联合首发并上线基于华为云昇腾云服务的 DeepSeekR1/V3 推理服务。
我们认为,MLA 对利润率带来的影响,对整个 AI 生态系统都意义重大。

R1 没有在技术层面削弱 o1 的优势

在利润率方面,我们有一个关键发现:R1 并未削弱 o1 在技术上的优势,反而以更低的成本提供了相似的能力。
这一结果合理且具有启示意义,促使我们构建了一个面向未来的定价机制框架。能力越强,利润率越高,这一逻辑与半导体制造行业的发展路径颇为相似。
当台积电首次突破至新的工艺节点,推出前所未有的产品时,便能获得强大的定价权。而处于技术追赶阶段的竞争者,如三星和英特尔,则更多依靠在成本和性能之间寻求平衡,通常以低于市场领导者的价格进行竞争。
对于芯片制造商(在这里可类比为 AI 实验室)而言,优势在于可以灵活调整产能。如果某个新模型具备更优的成本效益,企业可以快速增加其产能,同时逐步减少对旧模型的支持。
这种产能调整机制不仅符合当前 AI 实验室的运作模式,也与半导体行业长期以来的经验契合。

技术的竞争就是定价权争夺

这或许预示着未来 AI 竞赛的发展轨迹。
率先进入新能力层级的企业将掌握显著的定价溢价,而跟随者则只能依靠微薄的利润勉强维持。
那些在能力上落后的产品仍会存在,前提是它们能满足特定的使用场景,但每一代产品中能够赶超领先者的参与者会越来越少。
我们已经在见证,R1 已经达到了领先的能力水平,却以零利润的价格销售。
这种鲜明的价格差异引发人们的疑问:凭什么 OpenAI 的产品这么昂贵?因为他们的产品定价基于最前沿的技术,并从中获取相应的溢价收益。
我们认为,未来的技术发展速度将超过半导体制造业目前的快速节奏。
追求最新能力意味着持续的定价权——以ChatGPT Pro为例,而能力滞后的产品则必须通过降低价格来维持市场,利润主要依赖于底层的算力和代币基础设施。
在当前这个快速迭代的技术周期中,追求卓越能力的动力只会加速产品的更新换代。只要企业能够持续拓展能力、开发具有新价值的功能,就理应享有定价权;反之,在开放市场中,产品同质化的趋势会迅速显现。
在这个背景下,人们对当前局势存在着根本性的误解。我们所描述的情景,颇有几分类似于超高速发展的半导体制造业——这是全球资本密集度最高的行业。没有哪个行业在研发上的投入超过半导体制造业,但最接近这一现实的AI模型供应链,却常常被视为不利的参照对象。
将 AI token与杰文斯悖论进行比较,可以发现深刻的历史相似性。
最初,人们对晶体管能否持续微缩存在疑虑;一旦这一趋势被确认,整个行业便全力以赴推动 CMOS 技术向极限缩放,并在此基础上构建关键功能。
如今,我们正处于将多链思维模型和能力整合的初期阶段,这与晶体管微缩的早期时代颇为相似。尽管从技术角度来看,这可能是一个充满动荡的时期,但对于英伟达而言却是一个好消息。

免费又强大推理模型能一直持续吗

事实上市场一直在寻找一种新的破局点,而这正是它所选择的。
如果 DeepSeek 愿意以 0 或甚至负利润率运营,那么其产品价格确实可能被压低到如此程度。
然而,对于前沿 Token 服务的定价弹性显然要高得多。鉴于 DeepSeek 正处于新一轮融资之中,他们有强烈的动力去追求这一策略。
在推理领域的一个关键转折点上,DeepSeek 打破了 OpenAI 占主导地位的利润率。这种领先地位能否持续?
我们认为不会——毕竟,一个开源实验室现在已经展示了曾被认为仅属于闭源实验室的能力。虽然这是一个关键性的发展,但必须认识到 DeepSeek 仍然是一个快速跟随者。
我们确实认为,一个更强大的开放实验室(目前 DeepSeek 是最杰出的代表),将极大地惠及新兴云服务提供商和基础设施供应商。
无论模型是开源还是闭源,计算资源的集中化依然至关重要。然而,如果建立在这些计算资源之上的上层服务开始免费提供产品,那么计算本身的内在价值很可能会上升。
更多资本将流向计算基础设施,而不是封闭模型供应商,这标志着支出正向硬件转移。软件公司也将从这一动态中大幅受益。