专栏名称: 六合商业研选

六合咨询立足新经济，挖掘明日之星，发现价值，传播价值；国际化视野、多角度观察、深度思考、体系化研究，持续提升研究广度与深度，全面覆盖一级、新三板、二级（A股+美股+港股）；深度剖析优质企业商业模式与投资价值，前瞻性洞察行业本质与发展趋势。

【长期主义】第325期智能说：SemiAnalysis解析DeepSeek，Anthropic CEO呼吁加强芯片出口管制

六合商业研选 · 公众号 · · 2025-02-15 06:30

正文

请到「今天看啥」查看全文

2025年1月31日，知名半导体研究机构SemiAnalysis发布DeepSeek深度分析报告，揭示DeepSeek如何凭借独特技术创新与商业模式在全球AI领域掀起巨浪。DeepSeek通过多头潜在注意力MLA、多令牌预测MTP等多项独特技术创新，大幅降低模型训练与推理成本，V3模型与R1推理模型不仅在性能上与行业巨头产品相媲美，在某些方面实现超越，以更低成本提供服务。

2025年1月28日，Anthropic CEO Dario Amodei发表长文《关于DeepSeek与出口管制》。Dario Amodei表示， DeepSeek成功并未对美国AI构成直接威胁，凸显加强对华芯片出口管制重要性，严格出口管制是阻止中国获得大量AI芯片、决定未来AI领域格局关键，呼吁美国政府加强出口管制，确保美国在AI领域领导地位。

本期长期主义，选择SemiAnalysis针对DeepSeek分析报告、Dario Amodei文章《关于DeepSeek与出口管制》，Founder Park、Z Finance发布，六合商业研选精校，分享给大家，Enjoy！

正文：

全文12,482字

预计阅读25分钟

SemiAnalysis 解析DeepSeek：训练成本、技术创新点、对封闭模型的影响

时间：2025年2月6日

来源：Founder Park

字数：7,394

知名半导体研究机构SemiAnalysis对DeepSeek的分析，可能是目前海外最全面的报告。报告原文：https://semianalysis.com/2025/01/31/deepseek-debates/

文章整理自APPSO、傅里叶的猫的编译版本，Founder Park有所调整。

从DeepSeek让训练成本大幅降低的MLA模式，R1与o1等模型的性能对比，人均年薪千万的顶尖人才，指出目前DeepSeek成本估算是错误的，推测拥有大约5万Hopper GPU，关于DeepSeek目前很多甚嚣尘上的传言，这篇文章依据现有信息给出更客观的论述。

另一份可信度比较高的报告中，看到关于DeepSeek不可能有5万H100的说法，这篇报告给出类似结论，这个说法应该靠谱的。

一些关键要点

推测DeepSeek大约有5万Hopper GPU，在GPU上投资总额超过5亿美元。

广为讨论的600万美元成本，仅指预训练过程中GPU的花费，只是模型总成本的一部分。

DeepSeek团队目前约150人，从北大、浙大等中国高校招聘人才，年薪可达千万。

大多数架构上的成就，都与V3相关，V3也是R1基础模型。

多头潜在注意力MLA，是DeepSeek大幅降低推理成本的关键创新，将每次查询所需的KV缓存减少约93.3%。

推理性能上，R1与o1不相上下，o3的能力明显高于R1与o1。

R1并未削弱o1在技术上优势，反而以更低成本提供相似的能力。

DeepSeek 风暴席卷全球

过去一周，DeepSeek成为全世界人们唯一热议的话题。

目前，DeepSeek日活，据悉超过1,900万，已经远高于Claude、Perplexity，甚至Gemini。

对长期关注AI行业的人，这个消息不算新鲜。我们已经讨论DeepSeek数月，对DeepSeek并不陌生，疯狂的炒作出乎意料。

SemiAnalysis一直认为DeepSeek极具才华，美国更广泛的公众并不在意。

当世界终于关注到DeepSeek，狂热的舆论并没有完全反映它真实情况。

我们想强调的是，舆论已经发生转变。

上个月，当ScalingLaws扩展定律被打破时，我们已揭穿这个神话；如今，算法改进的速度过快，这在某种程度上对英伟达与GPU不利。

现在大家讨论的是，DeepSeek效率如此之高，以至我们不再需更多计算资源，模型的变革，出现巨大产能过剩。

杰文斯悖论Jevon ʼ s Paradox被过度炒作，它更接近现实，这些模型已经引发需求，对H100与H200的定价，产生实质性的影响。

杰文斯悖论简单说是，当某种资源的使用效率提高后，单次使用时消耗更少，成本降低、使用更方便，可能让人们用得更多，导致整体消耗量上升。

5 万Hopper GPU

幻方量化是中国对冲基金，也是最早在交易算法中采用AI的先行者。

他们早早意识到AI在金融以外领域的潜力、扩展能力的重要性，不断增加GPU供应。

经过使用数千个GPU集群进行模型实验后，幻方量化在2021年，在任何出口限制出台之前，投资10,000 A100 GPU，这笔投资得到回报。

随着幻方量化不断进步，他们意识到是时候在2023年5月剥离出DeepSeek，更专注追求进一步的AI能力。

当时外部投资者对AI缺乏兴趣，主要担心商业模式问题，幻方量化自筹资金成立DeepSeek。

如今，幻方量化与DeepSeek经常共享资源，包括人力与计算资源。

如今，DeepSeek已经发展成为一项严肃、协同的重要项目，绝非很多媒体所称的副业项目。

我们相信即使考虑到出口管制因素，他们在GPU上投资总额超过5亿美元。

我们认为，他们大约拥有50,000 Hopper GPU，不等同于拥有50,000 H100 GPU。

英伟达根据不同法规要求，推出不同版本的H100，例如H800、H20，目前只有H20可供中国大模型公司使用。

需注意的是，H800算力与H100相同，网络带宽较低。

我们认为DeepSeek拥有大约10,000 H800与大约10,000 H100。他们订购更多H20，过去9个月内，英伟达已为中国市场生产超过1,000,000此类GPU。

这些GPU，在幻方量化与DeepSeek之间共享，在地理上有所分布，它们被用于交易、推理、训练、研究。

我们分析显示，DeepSeek服务器资本支出总额约16亿美元，与运营这些集群相关的成本高达9.44亿美元。

资源集中化是一大挑战，所有AI实验室与超大规模云服务商，都拥有比单次训练运行所使用的GPU数量要多得多，用于研究与训练的任务。

年薪近千万，在中国高校挖顶尖人才

DeepSeek完全从中国招聘人才，不拘泥于以往资历，而是高度重视能力与好奇心。DeepSeek定期在北大、浙江等顶尖高校举办招聘活动，许多员工均毕业于这些院校。

岗位职责不完全固定，招聘时会有一定灵活性，招聘广告甚至宣称可以无限制调用10,000多GPU。

这些职位竞争极为激烈，据称对有潜力的候选人，提供薪资超过130万美元/约合934万人民币，远高于中国大型科技公司与AI实验室，如Moonshot等竞争对手。

DeepSeek目前约有150名员工，正在迅速扩张。

历史证明，资金充足、专注的小型初创公司，往往能突破界限。

DeepSeek不具备像Google的官僚主义，自筹资金，能迅速推进新想法。

与Google类似，DeepSeek在大多数情况下自建数据中心，不依赖外部或供应商。

这为进一步实验，提供更大空间，使他们能在整个技术栈上实现创新。

我们认为，他们是当今唯一最优秀的开源权重实验室，超越Meta Llama项目、Mistral（法国AI初创公司，最初承诺开源，最终选择闭源商业模式）、其他竞争者。

DeepSeek 的极低成本，被误读

DeepSeek价格与效率，是引发硅谷科技圈地震关键。

关于DeepSeek V3的训练成本为600万美元这个广为流传的数字，是片面的。这相当于只关注产品物料清单中某一部分，将其视为全部成本。

预训练成本，仅仅是总成本中很小的一部分。

我们认为，预训练所支出的成本，远远不能代表模型所花费的总成本。

我们相信DeepSeek在硬件上的支出，远超5亿美元。

他们为了开发新的架构创新，在模型开发过程中，花费大量资金，用于测试新思路、新架构、消融实验。

多头潜在注意力Multi-Head Latent Attention，DeepSeek一项关键创新，耗时数月开发，花费整个团队大量人力与GPU计算时间。

论文中提到的600万美元成本，仅指预训练过程中GPU花费，这只是模型总成本的一部分。研发费用、硬件本身总体拥有成本等重要部分，并未包含在内。

作为参考，Claude 3.5 Sonnet训练成本达数千万美元，如果是Anthropic全部成本，他们没必要从Google融资数10亿、从亚马逊融资数10亿美元。

这是他们进行实验、提出新架构、收集与清洗数据、支付员工工资的必要成本。

DeepSeek是如何获得如此大规模的集群的，出口管制的滞后是关键。

V3 让性能差距缩小的秘诀

V3是令人印象深刻的模型，值得强调的是，它的令人印象深刻，是相对什么而言。

许多人将V3与GPT-4o进行比较，强调V3在性能上超越4o，GPT-4o是在2024年5月发布。

以当下AI发展速度，算法改进方面，那时与现在已是天壤之别。

我们并不惊讶在经过一定时间后，用更少计算资源，就能实现相当或更强的能力，推理成本大幅下降，正是AI改进的标志。

举例，一些可以在笔记本电脑上运行的小模型，性能可与需超级计算机训练，需大量GPU推理的GPT-3相媲美。

算法改进，使得用更少的计算资源，即可训练与推理具备相同性能的模型，这种模式在业内出现多次。

这一次世界终于注意到，是它来自中国一家实验室，小模型性能提升，不是什么新鲜事。

目前行业趋势是，AI实验室在投入的绝对资金上不断增加，以获取更高智能水平。

据估算，算法效率每年进步4倍，即每过一年，用于达到相同性能的计算资源减少4倍。

Anthropic CEO Dario认为，算法进步甚至会更快，可以实现10倍提升。

GPT-3质量的推理价格而言，成本已经下降1,200倍。

研究GPT-4成本时，我们看到类似下降趋势，处于曲线较早阶段。

时间上的成本差异降低，可以解释为不再像上图那样保持性能不变。

这种情况下，我们看到算法改进与优化，使得成本降低10倍，性能提升10倍。

DeepSeek的独特之处，他们率先实现这种成本与性能水平。

Mistral与Llama模型，曾在开源模型上做过类似事情，DeepSeek做到的程度独树一帜。如果到年底，成本再下降5倍，不要感到惊讶。

R1 凭什么迅速追上OpenAI o1

R1能达到与o1相当效果，o1在9月发布。仅仅几个月时间，DeepSeek是如何如此迅速赶上的？

问题关键在于，推理能力形成一种全新的范式。

推理范式迭代速度更快，以较少计算资源，即可获得显著收益。

我们在扩展定律报告中提到的，以往范式依赖预训练，这种方式不仅成本越来越高，已经难以取得稳健的进步。

新的推理范式，专注通过合成数据生成、与在现有模型上进行后训练中的强化学习，来提升推理能力，以更低成本实现更快进步。

较低的入门门槛，加上易于优化，使得DeepSeek能比过去更快复制o1方法。

随着各方探索如何在这一新范式下进一步扩展，我们预计不同模型在匹配性能的时间差距将会拉大。

需注意的是，R1论文中没有提及所使用的计算资源。这绝非偶然，为了生成用于后训练的合成数据，R1需大量计算资源，更不用说强化学习。

R1是一款非常优秀的模型，它披露的一些基准测试也具有误导性。

R1特意没有提及它并不领先的基准测试，在推理性能上R1与o1不相上下，但在每项指标上，它并不都是明显赢家，在许多情况下甚至不如o1。

这里我们没有提到o3，o3能力明显高于R1与o1。

OpenAI最近分享o3结果，基准测试的扩展呈垂直趋势。这似乎再次证明深度学习遭遇瓶颈，这个瓶颈不同以往。

与Google的推理模型能力相当

R1炒作热潮不断，很多人忽略，市值2.5万亿美元的美国公司，在上个月以更低价格发布一款推理模型：Google Gemini Flash 2.0 Thinking。

该模型已经可以使用，通过API，即使拥有更长的上下文长度，成本仍远低于R1。

已公布的基准测试中，Flash 2.0 Thinking超越R1，基准测试不能说明全部情况。

Google只发布3个基准测试，情况不够全面。

我们认为Google模型非常稳健，在许多方面可以与R1相当，未获得太多关注。

这可能是Google营销策略平平、用户体验较差，同时R1作为一项来自中国的黑马出现。

需明确的是，这些都不会削弱DeepSeek非凡成就的价值。

DeepSeek作为快速运作、资金充足、聪明、专注的初创公司，这正是它在推理模型方面超越Meta等巨头的原因。

让美国科技圈疯狂复制的MLA创新

DeepSeek实现许多领先的AI公司都未达到的技术创新。

我们预计，接下来DeepSeek发布的任何技术进展，都将几乎立刻被西方实验室复制。

这些技术突破是什么？大多数架构上的成就，都与V3相关，V3也是R1基础模型。

我们详细介绍这些创新

训练预训练与后训练

DeepSeek V3利用MTP（Multi-Token Prediction），实现前所未见的规模，这是新增的注意力模块，可预测接下来多个token，而非单一token。

它在训练过程中，显著提高模型性能，在推理时可以被移除，这是一种利用较低计算资源，实现性能提升的算法创新。

还有一些额外考量，比如在训练中采用FP8精度，领先的美国实验室已经使用FP8训练有一段时间。

DeepSeek V3还是一种专家混合模型，由众多专注不同任务的小专家组成的大模型，表现出强大的涌现能力。

MoE模型曾面临的一个难题，是如何确定哪个token应该分配给哪个子模型或专家。

DeepSeek实现一个门控网络gating network，能以平衡的方式将token路由到合适专家，不会影响模型性能。

这意味着路由效率非常高，在训练过程中每个token，相对整个模型的规模，仅需修改少量参数。

这提高训练效率，也降低推理成本。

有人担心专家混合模型MoE带来的效率提升，可能会减少投资，Dario指出，更强大AI模型所带来的经济效益非常可观，任何节约的成本，都会迅速再投资于构建更大规模模型。

MoE的效率提升，不仅没有减少总体投资，反而会加速AI规模扩大。

目前硅谷的主流科技公司，都在正全力以赴将模型扩展到更多计算资源，并在算法上提高效率。

R1 背后的基础模型V3

R1极大受益拥有强大的基础模型V3，这部分受益强化学习RL。

RL主要聚焦两个点：格式化以确保输出连贯、有用性，与安全性以确保模型实用。

推理能力，是在对模型进行合成数据微调时产生的。

我们在扩展定律文章中提到的，这正是o1所经历的过程。

需注意的是，R1论文中没有提及计算资源的使用情况，提到所用计算资源的数量，会透露他们拥有的GPU数量，远超对外宣传的规模。

如此大规模的强化学习需大量计算资源，尤其是在生成合成数据的场景。

DeepSeek使用的一部分数据，似乎来自OpenAI的模型尚未证实，我们认为这将对从输出中进行蒸馏的政策产生影响。

根据服务条款，这是违规的，未来一种新的趋势可能会采取类似KYC，了解你客户的方式，阻止数据蒸馏。

谈到蒸馏，R1论文中最值得关注的部分，是能通过用推理模型的输出，对非推理小模型进行微调，将其转变为具备推理能力的模型。

数据集策划共包含80万样本，现在任何人都可以利用R1的思维链CoT，输出创建自己的数据集，借助这些输出构建推理模型。

我们可能会看到更多小模型展示出推理能力，提升小模型的性能。

多头潜在注意力MLA

多头潜在注意力MLA，是DeepSeek在推理成本上大幅降低的关键创新。

与标准注意力机制相比，MLA将每次查询所需的KV缓存减少约93.3%。

KV 缓存，是Transformer模型中一种内存机制，用于暂时保存代表对话上下文数据，减少重复计算。

随着对话上下文增长，KV缓存会增加，带来巨大内存压力。

大幅减少每次查询所需的KV缓存，能降低每次查询所需的硬件量，降低整体成本。

我们认为DeepSeek是以成本价提供推理服务，以抢占市场份额，并非真正盈利。

Google Gemini Flash 2.0 Thinking更便宜，Google不太可能以成本价提供该服务。

MLA，尤其引起许多领先的美国实验室关注。

2024年5月，MLA在DeepSeekV2中首次发布，H20内存带宽与容量，相比H100更高，DeepSeek在推理工作负载上获得更多效率提升。

他们宣布与华为建立合作关系，迄今为止在昇腾计算方面的应用还很少。

硅基流动与华为云团队，宣布联合首发、上线基于华为云昇腾云服务的DeepSeek R1/V3推理服务。

我们认为，MLA对利润率带来的影响，对整个AI生态系统都意义重大。

R1 没有在技术层面削弱o1的优势

利润率方面，我们有个关键发现：R1并未削弱o1在技术上优势，反而以更低成本提供相似能力。

这一结果合理、具有启示意义，促使我们构建面向未来的定价机制框架。

能力越强，利润率越高，这一逻辑与半导体制造行业的发展路径颇为相似。

当台积电首次突破至新的工艺节点，推出前所未有产品时，便能获得强大的定价权。

处于技术追赶阶段的竞争者，如三星与英特尔，更多依靠在成本与性能之间寻求平衡，通常以低于市场领导者的价格进行竞争。

对芯片制造商，在这里可类比为AI实验室，优势在于可以灵活调整产能。

如果某个新模型具备更优成本效益，企业可以快速增加产能，逐步减少对旧模型支持。

这种产能调整机制，不仅符合当前AI实验室运作模式，也与半导体行业长期以来的经验契合。

技术的竞争，是定价权争夺

这或许预示未来AI竞赛发展轨迹，率先进入新能力层级的企业，将掌握显著定价溢价，跟随者只能依靠微薄的利润勉强维持。

能力上落后的产品仍会存在，前提是它们能满足特定使用场景，每一代产品中能赶超领先者的参与者会越来越少。

我们已经在见证，R1已经达到领先的能力水平，却以零利润价格销售。这种鲜明的价格差异，引发人们的疑问：凭什么OpenAI产品这么昂贵。他们产品定价，基于最前沿的技术，并从中获取相应的溢价收益。

我们认为，未来的技术发展速度，将超过半导体制造业目前的快速节奏。

追求最新能力，意味着持续的定价权，以ChatGPT Pro为例，能力滞后的产品必须通过降低价格来维持市场，利润主要依赖底层的算力与Token基础设施。

在当前快速迭代的技术周期中，追求卓越能力的动力，只会加速产品更新换代。

只要企业能持续拓展能力、开发具有新价值的功能，理应享有定价权；反之，在开放市场中，产品同质化的趋势会迅速显现。

这个背景下，人们对当前局势存在根本性的误解。

我们所描述的情景，颇有几分类似超高速发展的半导体制造业，这是全球资本密集度最高的行业。

没有哪个行业，在研发上的投入，超过半导体制造业，最接近这一现实的AI模型供应链，常常被视为不利的参照对象。

将AI token与杰文斯悖论进行比较，可以发现深刻的历史相似性。

最初，人们对晶体管能否持续微缩存在疑虑；一旦这一趋势被确认，整个行业便全力以赴推动CMOS技术向极限缩放，在此基础上构建关键功能。

如今，我们正处于将多链思维模型与能力整合的初期阶段，这与晶体管微缩的早期时代颇为相似。

技术角度看，这可能是充满动荡的时期，对英伟达是好消息。

免费、强大的推理模型，能一直持续吗

市场一直在寻找一种新的破局点，这正是它所选择的。

如果DeepSeek愿意以0或甚至负利润率运营，产品价格确实可能被压低到如此程度。

对前沿Token服务的定价弹性要高得多。

DeepSeek 正处于新一轮融资之中，他们有强烈动力追求这一策略。

在推理领域的一个关键转折点上，DeepSeek打破OpenAI占主导地位的利润率。

这种领先地位能否持续，我们认为不会。

一个开源实验室，现在已经展示曾被认为仅属于闭源实验室的能力。

这是一个关键性的发展，必须认识到DeepSeek仍然是快速跟随者。

我们确实认为，一个更强大的开放实验室，目前DeepSeek是最杰出的代表，将极大惠及新兴云服务提供商与基础设施供应商。

无论模型是开源还是闭源，计算资源的集中化依然至关重要。

如果建立在这些计算资源之上的上层服务，开始免费提供产品，计算本身的内在价值很可能会上升。

更多资本将流向计算基础设施，而不是封闭模型供应商，这标志着支出正向硬件转移。软件公司，也将从这一动态中大幅受益。

H100 价格飙升，杰文斯悖论的体现

我们已经看到这一理论的早期迹象。

V3 与R1发布以来，AWS多个地区H100GPU价格上涨，H200更难获取。

V3 发布后，H100价格大幅上涨，GPU开始以更高费率实现货币化。

更低成本实现更强智能，意味着更多需求。

这与前几个月H100现货价格的低迷，形成鲜明对比。

出口管制的影响、DeepSeek与中国政府

地缘政治角度看，DeepSeek与西方实验室，在能力方面的对比，出口管制的影响，都值得深入思考。

目前已经实施的AI扩散管制措施，我们认为不会取消。

有消息称，出口管制因DeepSeek发展而失败，这是对出口管制机制的误解。

最初，H100被禁止出口，算力相近、带宽受限的H800被允许出口；

随后，H800被禁止，现在仅允许H20出口。

我们在《加速器模型》中提到，需求巨大，英伟达在1月取消大量H20订单，这可能预示美国即将出台新的禁令。

这些法律实施过程中存在宽限期，DeepSeek很可能在这段时间内大量囤积所需芯片。

需注意的是，H100自发布以来，就被禁止出口。

这个角度看，出口管制未能完全限制高性能芯片的供应。

出口管制目的，并非完全切断中国获取芯片的渠道，而是对整个生态系统进行严格限制，意味着限制数十万、甚至数百万芯片的供应，而不仅仅是数万。

我们预计未来H20将被禁止出口，这将进一步限制DeepSeek获取芯片的能力，他们对芯片需求十分迫切。

DeepSeek 的产能限制

DeepSeek难以满足急剧增长的需求，他们拥有世界上最出色的推理技术之一，进行架构研发、训练模型，与为数千万用户提供可靠服务是截然不同的挑战。

DeepSeek的注册服务时常关闭，即便开放注册时，R1响应速度极慢，通过巧妙的用户体验设计掩盖这一问题。

我们本月看到模型受之前出口管制的影响，存在一定滞后性。

随着时间推移，DeepSeek在扩展模型与服务能力方面，将面临越来越大困难。扩展能力迫在眉睫，中国深知这一点。

与DeepSeek创始人、CEO会面后第二天，中国银行宣布未来5年将为AI产业链提供1,400亿美元/1万亿元人民币补贴。

该补贴明确目标，是助力中国在科技领域实现完全自主，涵盖基础研究、产业应用、开发等方面，AI与机器人、生物技术与新材料是重点关注领域。

补贴包括计算基础设施与数据中心建设，为第一代技术设备提供保险与风险管理支持。

我们认为，未来出口管制的影响将更加显著：算法与硬件都将不断进步，美国实验室能利用这些创新成果进行扩展，达到中国难以企及的高度。中国可能仍会推出与美国实验室相媲美的模型，将继续处于追赶地位。

我们认为，长期看，DeepSeek有可能不再开源模型，尤其是在中国政府对其工作给予更多关注，致力保护算法创新的情况下。

Anthropic CEO ：DeepSeek不是我们对手，锁死芯片出口，才能保证美国领导下单极世界

时间：2025年1月30日

来源：Z Finance

字数：5,021

Anthropic CEO Dario Amodei发布长文，对DeepSeek成功是否威胁到美国，美国对AI芯片的出口管制不起作用的争论进行分析。

原文翻译

几周前，我主张美国加强对华芯片出口管制。自那以后，中国AI公司DeepSeek至少在某些方面以更低成本接近美国前沿AI模型的性能。

在这里，我不会关注DeepSeek是否对Anthropic等美国AI公司构成威胁，我认为许多关于它们对美国AI领导地位构成威胁的说法都被大大夸大。

相反，我将关注DeepSeek的发布，是否会破坏芯片出口管制政策的理由，我认为不会，我认为它们使出口管制政策比一周前更加重要。

出口管制有个至关重要目的：让美国走在AI发展的前沿。

需明确的是，这不是避开美国与中国之间竞争的方法。归根结底，如果我们想获胜，美国AI公司必须拥有比中国更好的模式，我们不应该在没有必要的情况下，将技术优势拱手让给中国。

AI 发展的三大动力

在我提出政策论点之前，我将描述理解AI系统的三个至关重要的基本动态。

扩展定律Scaling Laws

AI一个特性，是我与联合创始人在OpenAI工作时第一批记录下来的是，其他条件相同情况下，扩大AI系统的训练范围，可以全面改善一系列认知任务的结果。

例如，价值100万美元的模型，可能解决20%的重要编码任务；价值1,000万美元的模型，可能解决40%；价值1亿美元的模型，可能解决60%等。

这些差异，在实践中往往产生巨大影响，另一个10倍可能对应本科生与博士生技能水平之间的差异，公司正在大力投资训练这些模型。

改变曲线

这个领域不断涌现大大小小的想法，使事情变得更加有效或高效：这可能是模型架构的改进，对当今所有模型使用Transformer基本架构进行调整，也可能只是一种在底层硬件上更有效运行模型的方法，新一代硬件也有同样效果。

这通常改变曲线：如果创新是2倍的计算乘数CM，它可以让你以500万美元，而不是1,000万美元的价格，获得40%的编码任务；或者以5,000万美元，而不是1亿美元的价格，获得60%的编码任务等。

每个前沿AI公司，都会定期发现许多这样CM：通常是小型的1.2倍，有时是中型的2倍，偶尔也会发现非常大的10倍。

拥有更智能系统的价值如此之高，这种曲线的转变，通常会导致公司在训练模型上花费更多，而不是更少：成本效率的提高，最终完全用于训练更智能的模型，仅受公司财务资源的限制。

人们自然会被一开始很贵，后面会变得更便宜的想法吸引，好像AI是一个质量恒定的单一事物，当它变得更便宜时，我们会使用更少芯片来训练它。

重要的是缩放曲线：当它移动时，我们只是更快遍历它，曲线末端的价值是如此之高。

2020年，我团队发表一篇论文，指出算法进步，导致的曲线变化约为每年1.68倍。

自那以后，这一速度可能已经大大加快，它没有考虑到效率与硬件。

我猜今天的数字，可能是每年约4倍。

另一个估计是在这里，训练曲线的变化，也会改变推理曲线。

多年来，在模型质量保持不变情况下，价格大幅下降。

例如，比原始GPT-4晚15个月发布的Claude 3.5 Sonnet，在几乎所有基准测试中都胜过GPT-4，API价格降低约10倍。

转变范式

每隔段时间，正在扩展的底层内容就会发生一些变化，或者在训练过程中会添加一种新的扩展类型。

从2020~2023年，扩展的主要内容是预训练模型：在越来越多的互联网文本上训练模型，并在其基础上进行少量其他训练。

2024年，使用强化学习RL训练模型，以生成思维链的想法，已成为扩展的新焦点。

Anthropic、DeepSeek与许多其他公司，也许最值得注意的是，9月发布o1预览模型的OpenAI发现，这种训练极大提高某些选定的、客观可衡量的任务，如数学、编码竞赛、类似这些任务的推理性能。

这种新范式，涉及从普通类型的预训练模型开始，在第二阶段使用RL添加推理技能。

重要的是，这种类型的强化学习是新的，我们仍处于扩展曲线的早期阶段：对所有参与者，在第二个强化学习阶段花费的金额都很小。花费100万美元，而不是10万美元，就足以获得巨大收益。

各家公司，现在正在迅速将第二阶段的规模扩大到数亿甚至数十亿美元，重要的是要明白，我们正处于独特的交叉点，有一个强大的新范式处于扩展曲线的早期阶段，可以快速获得巨大收益。

DeepSeek 的模型

上述三个动态，可以帮助我们了解DeepSeek最近的发布。

大约一个月前，DeepSeek发布DeepSeek-V3模型，这是纯粹的预训练模型3，即上文第3点中描述的第一阶段。

上周，他们发布R1，增加第二阶段。

从外部无法确定这些模型的所有内容，以下是我对这两个版本的最佳理解。

DeepSeek-V3是真正的创新，一个月前，就应该引起人们的注意，我们注意到了。

作为预训练模型，它似乎在一些重要任务上的表现，接近4个最先进的美国模型，训练成本大大降低。

我们发现Claude 3.5 Sonnet在其他一些关键任务上的表现尤其好。

DeepSeek团队通过一些真正、令人印象深刻的创新，实现这一点，这些创新主要集中在工程效率上。

在管理称为键值缓存的方面、使一种专家混合的方法，比以前更进一步方面，都有特别创新的改进。

仔细观察是很重要的：

1 、DeepSeek不会以600万美元，完成美国AI公司花费数十亿美元完成的任务。

我只能代表Anthropic发言，Claude 3.5 Sonnet是一个中型模型，训练成本高达几千万美元，我不会给出确切数字。

3.5 Sonnet的训练方式，并未涉及更大或更昂贵的模型，与一些传言相反。

Sonnet的训练，是在9~12个月前进行的，DeepSeek模型是在11月/12月进行的，Sonnet在许多内部与外部评估中仍然遥遥领先。

我认为公平的说法是，DeepSeek生产的模型，接近7~10个月前美国模型的性能，成本要低得多，但远不及人们建议的比例。

2 、如果成本曲线下降的历史趋势是每年约4倍，意味着现在的模型，比3.5 Sonnet/GPT-4o便宜3~4倍。

DeepSeek-V3 比美国前沿模型更差，假设在扩展曲线上差约2倍，我认为这对DeepSeek-V3来说相当慷慨，意味着如果DeepSeek-V3的训练成本，比1年前开发的当前美国模型低约8倍，这将是完全正常，完全符合趋势。

我不会给出一个数字，从前面的要点可以清楚看出，你从表面上看DeepSeek训练成本，它们充其量也符合趋势，甚至可能不符合趋势。

例如，这比原始GPT-4到Claude 3.5 Sonnet推理价格差异10倍要小，3.5 Sonnet是比GPT-4更好的模型。

所有这些都表明，DeepSeek-V3不是一项独特的突破，不是从根本上改变LLM经济的东西，它是持续成本降低曲线上的一个预期点。

这次不同之处在于，第一个展示预期成本降低的公司是中国公司。这种情况从未发生过，具有地缘政治意义。美国公司很快就会效仿，他们不会通过复制DeepSeek来做到这一点，而是他们在实现成本降低的通常趋势。

3 、DeepSeek与美国AI公司，都拥有比他们训练主要模型时更多的资金与芯片。

额外的芯片用于研发以开发模型背后的理念，有时用于训练尚未准备好的大型模型或需多次尝试才能正确。

据报道，我们不能确定它是否属实，DeepSeek拥有50,000 Hopper代芯片，我猜这大约是美国主要AI公司所拥有芯片的2~3倍。

例如，它比xAI Colossus集群少2~3倍。

这50,000 Hopper芯片的成本约为10亿美元，DeepSeek作为一家公司的总支出，与训练单个模型的支出不同，与美国AI实验室并没有太大差别。

值得注意的是，缩放曲线分析有些过于简单化，模型之间存在一定差异，各有优缺点；缩放曲线数字是一个粗略的平均值，忽略很多细节。

我只能谈论Anthropic模型，正如我上面所暗示的，Claude非常擅长编码，拥有精心设计的与人互动的风格，许多人用它来获得个人建议或支持。

在这些任务与其他一些任务上，DeepSeek根本无法与之相比，这些因素没有出现在缩放数字中。

R1是上周发布的模型，它引发公众的强烈关注包括，Nvidia股价下跌约17%，从创新或工程角度看，它远不如V3有趣。

它增加了第二阶段训练，强化学习，如上一节第3点所述，复制OpenAI对o1所做的事情，它们的规模似乎相似，结果也相似。

我们处于扩展曲线的早期阶段，只要从强大的预训练模型开始，多家公司都可以生产这种类型的模型。

在V3的情况下，生产R1可能非常便宜。

我们处于有趣的交叉点，暂时有几家公司可以生产出好的推理模型。

随着每个人都在这些模型的扩展曲线上进一步向上移动，这种情况将迅速不再成立。

出口管制

以上只是我感兴趣主要话题的序言：对华芯片出口管制。

鉴于上述事实，我认为情况如下：

1 、有种趋势是，公司在训练强大的AI模型上投入越来越多资金，曲线会定期发生变化，训练特定水平模型智能的成本会迅速下降。

只是训练越来越智能模型的经济价值是如此之大，以至任何成本收益几乎都会立即被吃掉，它们被重新投入到制作更智能模型中，我们最初计划花费的成本与此相同。

在美国实验室尚未发现的情况下，DeepSeek开发的效率创新，将很快被美国与中国的实验室应用于训练价值数十亿美元的模型。

这些模型的表现，将优于他们之前计划训练的价值数十亿美元的模型，他们仍将花费数十亿美元。这个数字将继续上升，直到我们拥有在几乎所有事情上都比几乎所有人类更聪明的AI。

2 、制造出在几乎所有方面都比人类更聪明的AI，将需数百万个芯片，至少数百亿美元，最有可能在2026~2027年实现。

DeepSeek的发布，不会改变这一点，它们大致处于预期的成本降低曲线上，这一直被计入这些计算中。

3 、意味着2026~2027年，我们可能会陷入两个截然不同的世界。

在美国，多家公司肯定会拥有所需的数百万个芯片，成本高达数百亿美元。

问题是，中国是否也能获得数百万个芯片。

如果可以的话，我们将生活在一个两极世界，美国与中国都拥有强大的AI模型，这将推动科学技术的极速进步，我称之为数据中心的天才国家。

两极世界不一定会无限期保持平衡，即使美国与中国在AI系统方面势均力敌，中国以庞大的工业基础，可以帮助中国在全球舞台上占据主导地位，不仅是在AI领域，而是在所有领域。

如果中国无法获得数百万个芯片，我们将至少暂时生活在单极世界，只有美国及其盟友拥有这些模型。

目前尚不清楚单极世界是否会持续下去，至少存在这样一种可能性，AI系统最终可以帮助制造更智能的AI系统，暂时的领先优势，可以转化为持久的优势。

在这个世界上，美国及其盟友可能会在全球舞台上占据主导地位，保持长期领先。

4 、只有严格执行出口管制，才能阻止中国获得数百万芯片，也是决定我们最终是进入单极世界、还是两极世界最重要的因素。

5 、DeepSeek的表现，并不意味着出口管制失败。

DeepSeek拥有中等~大量芯片，他们能够开发、训练出强大的模型，就不足为奇。

他们的资源限制，并不比美国AI公司严重，出口管制不是促使他们创新的主要因素。

他们只是非常有才华的工程师，展示了为什么中国是美国有力竞争对手。

6 、DeepSeek没有表明管制总是有漏洞。

10亿美元的经济活动可以隐藏，很难隐藏1,000亿美元、甚至100亿美元。100万个芯片，物理上很难走私。

看看DeepSeek目前报道的芯片，也是有启发性的。

SemiAnalysis说法，这是H100、H800、H20的混合体，总计5万。

自发布以来，H100就被出口管制禁止，如果DeepSeek有任何芯片，它们一定不是通过正规渠道来的，Nvidia已声明DeepSeek的进展，完全符合出口管制。

H800在2022年第一轮出口管制中是被允许的，在2023年10月管制更新时被禁止，这些芯片可能是在禁令之前发货。

H20的训练效率较低，采样效率较高，我认为应该禁止，但仍被允许。

所有这些都表明，DeepSeek的AI芯片群中，似乎有相当一部分，是由尚未被禁止、应该被禁止的芯片。

这表明出口管制在发挥作用与适应：漏洞正在被堵塞。

如果我们能够足够快堵塞它们，我们也许能够增加美国领导单极世界的可能性。

鉴于我关注的是出口管制与美国国家安全，我不认为DeepSeek本身是对手，重点不是特别针对他们。

在他们接受采访中，他们看起来像是聪明、好奇的研究人员，只是想开发有用的技术。

出口管制，是我们防止中国追赶美国的最有力工具之一。认为技术越来越强大、性价比越来越高，是解除出口管制理由的想法，完全没有道理。

备注：

本文中，我不会对西方模型的提炼报告持任何立场。在这里，我只是相信DeepSeek的说法，他们按照论文中说的方式进行训练。

我认为DeepSeek模型发布，对Nvidia显然不是坏事，他们股价出现两位数，约17%下跌，令人费解。这次发布，对Nvidia不是坏事的理由，甚至比对AI公司不是坏事的理由，更明显。我在这篇文章中的主要目标，是捍卫出口管制政策。

准确说，它是预训练模型，包含推理范式转变之前，模型中典型的少量RL训练。

它在一些非常狭窄的任务上表现更强。

这是DeepSeek论文中引用的数字，我只是照单全收，并不怀疑这部分内容，只是与美国公司模型训练成本的比较，训练特定模型的成本600万美元与研发总成本高得多之间的区别。我们也不能完全确定600万美元，模型大小是可验证的，其他方面如Token数量不可验证。 ↩

在一些采访中，我说他们有50,000 H100，这是对报道的一个微妙错误总结，我想在这里纠正一下。迄今为止，最知名的Hopper芯片是H100，我猜想指的是它，Hopper还包括H800与H20，据报道DeepSeek拥有这三种芯片的混合，总计50,000块。这并没有改变太多情况，但值得纠正。当我谈论出口管制时，我会更多讨论H800与H20。

出口管制，我预计这一差距在下一代集群中会大大扩大。

我怀疑R1受到如此多关注的主要原因之一，是它是第一个向用户展示模型所展现的思路推理的模型，OpenAI的o1仅显示最终答案，DeepSeek表明用户对此很感兴趣。需明确的是，这是一个用户界面选择，与模型本身无关。

中国自己的芯片，短期内无法与美国制造的芯片竞争。

六合年度报告全库会员，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买