2025年1月31日,知名半导体研究机构SemiAnalysis发布DeepSeek深度分析报告,揭示DeepSeek如何凭借独特技术创新与商业模式在全球AI领域掀起巨浪。DeepSeek通过多头潜在注意力MLA、多令牌预测MTP等多项独特技术创新,大幅降低模型训练与推理成本,V3模型与R1推理模型不仅在性能上与行业巨头产品相媲美,在某些方面实现超越,以更低成本提供服务。
2025年1月28日,Anthropic CEO Dario Amodei发表长文《关于DeepSeek与出口管制》。Dario Amodei表示,
DeepSeek成功并未对美国AI构成直接威胁,凸显加强对华芯片出口管制重要性,严格出口管制是阻止中国获得大量AI芯片、决定未来AI领域格局关键,呼吁美国政府加强出口管制,确保美国在AI领域领导地位。
本期长期主义,选择SemiAnalysis针对DeepSeek分析报告、Dario Amodei文章《关于DeepSeek与出口管制》,Founder Park、Z Finance发布,六合商业研选精校,分享给大家,Enjoy!
SemiAnalysis
解析DeepSeek:训练成本、技术创新点、对封闭模型的影响
知名半导体研究机构SemiAnalysis对DeepSeek的分析,可能是目前海外最全面的报告。报告原文:https://semianalysis.com/2025/01/31/deepseek-debates/
文章整理自APPSO、傅里叶的猫的编译版本,Founder Park有所调整。
从DeepSeek让训练成本大幅降低的MLA模式,R1与o1等模型的性能对比,人均年薪千万的顶尖人才,指出目前DeepSeek成本估算是错误的,推测拥有大约5万Hopper GPU,关于DeepSeek目前很多甚嚣尘上的传言,这篇文章依据现有信息给出更客观的论述。
另一份可信度比较高的报告中,看到关于DeepSeek不可能有5万H100的说法,这篇报告给出类似结论,这个说法应该靠谱的。
推测DeepSeek大约有5万Hopper GPU,在GPU上投资总额超过5亿美元。
广为讨论的600万美元成本,仅指预训练过程中GPU的花费,只是模型总成本的一部分。
DeepSeek团队目前约150人,从北大、浙大等中国高校招聘人才,年薪可达千万。
大多数架构上的成就,都与V3相关,V3也是R1基础模型。
多头潜在注意力MLA,是DeepSeek大幅降低推理成本的关键创新,将每次查询所需的KV缓存减少约93.3%。
推理性能上,R1与o1不相上下,o3的能力明显高于R1与o1。
R1并未削弱o1在技术上优势,反而以更低成本提供相似的能力。
过去一周,DeepSeek成为全世界人们唯一热议的话题。
目前,DeepSeek日活,据悉超过1,900万,已经远高于Claude、Perplexity,甚至Gemini。
对长期关注AI行业的人,这个消息不算新鲜。我们已经讨论DeepSeek数月,对DeepSeek并不陌生,疯狂的炒作出乎意料。
SemiAnalysis一直认为DeepSeek极具才华,美国更广泛的公众并不在意。
当世界终于关注到DeepSeek,狂热的舆论并没有完全反映它真实情况。
上个月,当ScalingLaws扩展定律被打破时,我们已揭穿这个神话;如今,算法改进的速度过快,这在某种程度上对英伟达与GPU不利。
现在大家讨论的是,DeepSeek效率如此之高,以至我们不再需更多计算资源,模型的变革,出现巨大产能过剩。
杰文斯悖论Jevon
ʼ
s
Paradox被过度炒作,它更接近现实,这些模型已经引发需求,对H100与H200的定价,产生实质性的影响。
杰文斯悖论简单说是,当某种资源的使用效率提高后,单次使用时消耗更少,成本降低、使用更方便,可能让人们用得更多,导致整体消耗量上升。
幻方量化是中国对冲基金,也是最早在交易算法中采用AI的先行者。
他们早早意识到AI在金融以外领域的潜力、扩展能力的重要性,不断增加GPU供应。
经过使用数千个GPU集群进行模型实验后,幻方量化在2021年,在任何出口限制出台之前,投资10,000 A100 GPU,这笔投资得到回报。
随着幻方量化不断进步,他们意识到是时候在2023年5月剥离出DeepSeek,更专注追求进一步的AI能力。
当时外部投资者对AI缺乏兴趣,主要担心商业模式问题,幻方量化自筹资金成立DeepSeek。
如今,幻方量化与DeepSeek经常共享资源,包括人力与计算资源。
如今,DeepSeek已经发展成为一项严肃、协同的重要项目,绝非很多媒体所称的副业项目。
我们相信即使考虑到出口管制因素,他们在GPU上投资总额超过5亿美元。
我们认为,他们大约拥有50,000 Hopper GPU,不等同于拥有50,000 H100 GPU。
英伟达根据不同法规要求,推出不同版本的H100,例如H800、H20,目前只有H20可供中国大模型公司使用。
需注意的是,H800算力与H100相同,网络带宽较低。
我们认为DeepSeek拥有大约10,000 H800与大约10,000 H100。他们订购更多H20,过去9个月内,英伟达已为中国市场生产超过1,000,000此类GPU。
这些GPU,在幻方量化与DeepSeek之间共享,在地理上有所分布,它们被用于交易、推理、训练、研究。
我们分析显示,DeepSeek服务器资本支出总额约16亿美元,与运营这些集群相关的成本高达9.44亿美元。
资源集中化是一大挑战,所有AI实验室与超大规模云服务商,都拥有比单次训练运行所使用的GPU数量要多得多,用于研究与训练的任务。
DeepSeek完全从中国招聘人才,不拘泥于以往资历,而是高度重视能力与好奇心。DeepSeek定期在北大、浙江等顶尖高校举办招聘活动,许多员工均毕业于这些院校。
岗位职责不完全固定,招聘时会有一定灵活性,招聘广告甚至宣称可以无限制调用10,000多GPU。
这些职位竞争极为激烈,据称对有潜力的候选人,提供薪资超过130万美元/约合934万人民币,远高于中国大型科技公司与AI实验室,如Moonshot等竞争对手。
DeepSeek目前约有150名员工,正在迅速扩张。
历史证明,资金充足、专注的小型初创公司,往往能突破界限。
DeepSeek不具备像Google的官僚主义,自筹资金,能迅速推进新想法。
与Google类似,DeepSeek在大多数情况下自建数据中心,不依赖外部或供应商。
这为进一步实验,提供更大空间,使他们能在整个技术栈上实现创新。
我们认为,他们是当今唯一最优秀的开源权重实验室,超越Meta Llama项目、Mistral(法国AI初创公司,最初承诺开源,最终选择闭源商业模式)、其他竞争者。
DeepSeek价格与效率,是引发硅谷科技圈地震关键。
关于DeepSeek
V3的训练成本为600万美元这个广为流传的数字,是片面的。这相当于只关注产品物料清单中某一部分,将其视为全部成本。
我们认为,预训练所支出的成本,远远不能代表模型所花费的总成本。
我们相信DeepSeek在硬件上的支出,远超5亿美元。
他们为了开发新的架构创新,在模型开发过程中,花费大量资金,用于测试新思路、新架构、消融实验。
多头潜在注意力Multi-Head
Latent Attention,DeepSeek一项关键创新,耗时数月开发,花费整个团队大量人力与GPU计算时间。
论文中提到的600万美元成本,仅指预训练过程中GPU花费,这只是模型总成本的一部分。研发费用、硬件本身总体拥有成本等重要部分,并未包含在内。
作为参考,Claude
3.5 Sonnet训练成本达数千万美元,如果是Anthropic全部成本,他们没必要从Google融资数10亿、从亚马逊融资数10亿美元。
这是他们进行实验、提出新架构、收集与清洗数据、支付员工工资的必要成本。
DeepSeek是如何获得如此大规模的集群的,出口管制的滞后是关键。
V3是令人印象深刻的模型,值得强调的是,它的令人印象深刻,是相对什么而言。
许多人将V3与GPT-4o进行比较,强调V3在性能上超越4o,GPT-4o是在2024年5月发布。
以当下AI发展速度,算法改进方面,那时与现在已是天壤之别。
我们并不惊讶在经过一定时间后,用更少计算资源,就能实现相当或更强的能力,推理成本大幅下降,正是AI改进的标志。
举例,一些可以在笔记本电脑上运行的小模型,性能可与需超级计算机训练,需大量GPU推理的GPT-3相媲美。
算法改进,使得用更少的计算资源,即可训练与推理具备相同性能的模型,这种模式在业内出现多次。
这一次世界终于注意到,是它来自中国一家实验室,小模型性能提升,不是什么新鲜事。
目前行业趋势是,AI实验室在投入的绝对资金上不断增加,以获取更高智能水平。
据估算,算法效率每年进步4倍,即每过一年,用于达到相同性能的计算资源减少4倍。
Anthropic
CEO Dario认为,算法进步甚至会更快,可以实现10倍提升。
GPT-3质量的推理价格而言,成本已经下降1,200倍。
研究GPT-4成本时,我们看到类似下降趋势,处于曲线较早阶段。
时间上的成本差异降低,可以解释为不再像上图那样保持性能不变。
这种情况下,我们看到算法改进与优化,使得成本降低10倍,性能提升10倍。
DeepSeek的独特之处,他们率先实现这种成本与性能水平。
Mistral与Llama模型,曾在开源模型上做过类似事情,DeepSeek做到的程度独树一帜。如果到年底,成本再下降5倍,不要感到惊讶。
R1能达到与o1相当效果,o1在9月发布。仅仅几个月时间,DeepSeek是如何如此迅速赶上的?
推理范式迭代速度更快,以较少计算资源,即可获得显著收益。
我们在扩展定律报告中提到的,以往范式依赖预训练,这种方式不仅成本越来越高,已经难以取得稳健的进步。
新的推理范式,专注通过合成数据生成、与在现有模型上进行后训练中的强化学习,来提升推理能力,以更低成本实现更快进步。
较低的入门门槛,加上易于优化,使得DeepSeek能比过去更快复制o1方法。
随着各方探索如何在这一新范式下进一步扩展,我们预计不同模型在匹配性能的时间差距将会拉大。
需注意的是,R1论文中没有提及所使用的计算资源。这绝非偶然,为了生成用于后训练的合成数据,R1需大量计算资源,更不用说强化学习。
R1是一款非常优秀的模型,它披露的一些基准测试也具有误导性。
R1特意没有提及它并不领先的基准测试,在推理性能上R1与o1不相上下,但在每项指标上,它并不都是明显赢家,在许多情况下甚至不如o1。
这里我们没有提到o3,o3能力明显高于R1与o1。
OpenAI最近分享o3结果,基准测试的扩展呈垂直趋势。这似乎再次证明深度学习遭遇瓶颈,这个瓶颈不同以往。
R1炒作热潮不断,很多人忽略,市值2.5万亿美元的美国公司,在上个月以更低价格发布一款推理模型:Google Gemini
Flash 2.0 Thinking。
该模型已经可以使用,通过API,即使拥有更长的上下文长度,成本仍远低于R1。
已公布的基准测试中,Flash 2.0 Thinking超越R1,基准测试不能说明全部情况。
我们认为Google模型非常稳健,在许多方面可以与R1相当,未获得太多关注。
这可能是Google营销策略平平、用户体验较差,同时R1作为一项来自中国的黑马出现。
需明确的是,这些都不会削弱DeepSeek非凡成就的价值。
DeepSeek作为快速运作、资金充足、聪明、专注的初创公司,这正是它在推理模型方面超越Meta等巨头的原因。
DeepSeek实现许多领先的AI公司都未达到的技术创新。
我们预计,接下来DeepSeek发布的任何技术进展,都将几乎立刻被西方实验室复制。
这些技术突破是什么?大多数架构上的成就,都与V3相关,V3也是R1基础模型。
DeepSeek
V3利用MTP(Multi-Token Prediction),实现前所未见的规模,这是新增的注意力模块,可预测接下来多个token,而非单一token。
它在训练过程中,显著提高模型性能,在推理时可以被移除,这是一种利用较低计算资源,实现性能提升的算法创新。
还有一些额外考量,比如在训练中采用FP8精度,领先的美国实验室已经使用FP8训练有一段时间。
DeepSeek
V3还是一种专家混合模型,由众多专注不同任务的小专家组成的大模型,表现出强大的涌现能力。
MoE模型曾面临的一个难题,是如何确定哪个token应该分配给哪个子模型或专家。
DeepSeek实现一个门控网络gating
network,能以平衡的方式将token路由到合适专家,不会影响模型性能。
这意味着路由效率非常高,在训练过程中每个token,相对整个模型的规模,仅需修改少量参数。
有人担心专家混合模型MoE带来的效率提升,可能会减少投资,Dario指出,更强大AI模型所带来的经济效益非常可观,任何节约的成本,都会迅速再投资于构建更大规模模型。
MoE的效率提升,不仅没有减少总体投资,反而会加速AI规模扩大。
目前硅谷的主流科技公司,都在正全力以赴将模型扩展到更多计算资源,并在算法上提高效率。
R1极大受益拥有强大的基础模型V3,这部分受益强化学习RL。
RL主要聚焦两个点:格式化以确保输出连贯、有用性,与安全性以确保模型实用。
我们在扩展定律文章中提到的,这正是o1所经历的过程。
需注意的是,R1论文中没有提及计算资源的使用情况,提到所用计算资源的数量,会透露他们拥有的GPU数量,远超对外宣传的规模。
如此大规模的强化学习需大量计算资源,尤其是在生成合成数据的场景。
DeepSeek使用的一部分数据,似乎来自OpenAI的模型尚未证实,我们认为这将对从输出中进行蒸馏的政策产生影响。
根据服务条款,这是违规的,未来一种新的趋势可能会采取类似KYC,了解你客户的方式,阻止数据蒸馏。
谈到蒸馏,R1论文中最值得关注的部分,是能通过用推理模型的输出,对非推理小模型进行微调,将其转变为具备推理能力的模型。
数据集策划共包含80万样本,现在任何人都可以利用R1的思维链CoT,输出创建自己的数据集,借助这些输出构建推理模型。
我们可能会看到更多小模型展示出推理能力,提升小模型的性能。
多头潜在注意力MLA,是DeepSeek在推理成本上大幅降低的关键创新。
与标准注意力机制相比,MLA将每次查询所需的KV缓存减少约93.3%。
KV
缓存,是Transformer模型中一种内存机制,用于暂时保存代表对话上下文数据,减少重复计算。
随着对话上下文增长,KV缓存会增加,带来巨大内存压力。
大幅减少每次查询所需的KV缓存,能降低每次查询所需的硬件量,降低整体成本。
我们认为DeepSeek是以成本价提供推理服务,以抢占市场份额,并非真正盈利。
Google
Gemini Flash 2.0 Thinking更便宜,Google不太可能以成本价提供该服务。
2024年5月,MLA在DeepSeekV2中首次发布,H20内存带宽与容量,相比H100更高,DeepSeek在推理工作负载上获得更多效率提升。
他们宣布与华为建立合作关系,迄今为止在昇腾计算方面的应用还很少。
硅基流动与华为云团队,宣布联合首发、上线基于华为云昇腾云服务的DeepSeek R1/V3推理服务。
我们认为,MLA对利润率带来的影响,对整个AI生态系统都意义重大。
利润率方面,我们有个关键发现:R1并未削弱o1在技术上优势,反而以更低成本提供相似能力。
这一结果合理、具有启示意义,促使我们构建面向未来的定价机制框架。
能力越强,利润率越高,这一逻辑与半导体制造行业的发展路径颇为相似。
当台积电首次突破至新的工艺节点,推出前所未有产品时,便能获得强大的定价权。
处于技术追赶阶段的竞争者,如三星与英特尔,更多依靠在成本与性能之间寻求平衡,通常以低于市场领导者的价格进行竞争。
对芯片制造商,在这里可类比为AI实验室,优势在于可以灵活调整产能。
如果某个新模型具备更优成本效益,企业可以快速增加产能,逐步减少对旧模型支持。
这种产能调整机制,不仅符合当前AI实验室运作模式,也与半导体行业长期以来的经验契合。
这或许预示未来AI竞赛发展轨迹,率先进入新能力层级的企业,将掌握显著定价溢价,跟随者只能依靠微薄的利润勉强维持。
能力上落后的产品仍会存在,前提是它们能满足特定使用场景,每一代产品中能赶超领先者的参与者会越来越少。
我们已经在见证,R1已经达到领先的能力水平,却以零利润价格销售。这种鲜明的价格差异,引发人们的疑问:凭什么OpenAI产品这么昂贵。他们产品定价,基于最前沿的技术,并从中获取相应的溢价收益。
我们认为,未来的技术发展速度,将超过半导体制造业目前的快速节奏。
追求最新能力,意味着持续的定价权,以ChatGPT Pro为例,能力滞后的产品必须通过降低价格来维持市场,利润主要依赖底层的算力与Token基础设施。
在当前快速迭代的技术周期中,追求卓越能力的动力,只会加速产品更新换代。
只要企业能持续拓展能力、开发具有新价值的功能,理应享有定价权;反之,在开放市场中,产品同质化的趋势会迅速显现。
我们所描述的情景,颇有几分类似超高速发展的半导体制造业,这是全球资本密集度最高的行业。
没有哪个行业,在研发上的投入,超过半导体制造业,最接近这一现实的AI模型供应链,常常被视为不利的参照对象。
将AI token与杰文斯悖论进行比较,可以发现深刻的历史相似性。
最初,人们对晶体管能否持续微缩存在疑虑;一旦这一趋势被确认,整个行业便全力以赴推动CMOS技术向极限缩放,在此基础上构建关键功能。
如今,我们正处于将多链思维模型与能力整合的初期阶段,这与晶体管微缩的早期时代颇为相似。
技术角度看,这可能是充满动荡的时期,对英伟达是好消息。
如果DeepSeek愿意以0或甚至负利润率运营,产品价格确实可能被压低到如此程度。
DeepSeek
正处于新一轮融资之中,他们有强烈动力追求这一策略。
在推理领域的一个关键转折点上,DeepSeek打破OpenAI占主导地位的利润率。
一个开源实验室,现在已经展示曾被认为仅属于闭源实验室的能力。
这是一个关键性的发展,必须认识到DeepSeek仍然是快速跟随者。
我们确实认为,一个更强大的开放实验室,目前DeepSeek是最杰出的代表,将极大惠及新兴云服务提供商与基础设施供应商。
无论模型是开源还是闭源,计算资源的集中化依然至关重要。
如果建立在这些计算资源之上的上层服务,开始免费提供产品,计算本身的内在价值很可能会上升。
更多资本将流向计算基础设施,而不是封闭模型供应商,这标志着支出正向硬件转移。软件公司,也将从这一动态中大幅受益。
V3
与R1发布以来,AWS多个地区H100GPU价格上涨,H200更难获取。
V3
发布后,H100价格大幅上涨,GPU开始以更高费率实现货币化。
这与前几个月H100现货价格的低迷,形成鲜明对比。
地缘政治角度看,DeepSeek与西方实验室,在能力方面的对比,出口管制的影响,都值得深入思考。
目前已经实施的AI扩散管制措施,我们认为不会取消。
有消息称,出口管制因DeepSeek发展而失败,这是对出口管制机制的误解。
最初,H100被禁止出口,算力相近、带宽受限的H800被允许出口;
我们在《加速器模型》中提到,需求巨大,英伟达在1月取消大量H20订单,这可能预示美国即将出台新的禁令。
这些法律实施过程中存在宽限期,DeepSeek很可能在这段时间内大量囤积所需芯片。
这个角度看,出口管制未能完全限制高性能芯片的供应。
出口管制目的,并非完全切断中国获取芯片的渠道,而是对整个生态系统进行严格限制,意味着限制数十万、甚至数百万芯片的供应,而不仅仅是数万。
我们预计未来H20将被禁止出口,这将进一步限制DeepSeek获取芯片的能力,他们对芯片需求十分迫切。
DeepSeek难以满足急剧增长的需求,他们拥有世界上最出色的推理技术之一,进行架构研发、训练模型,与为数千万用户提供可靠服务是截然不同的挑战。
DeepSeek的注册服务时常关闭,即便开放注册时,R1响应速度极慢,通过巧妙的用户体验设计掩盖这一问题。
我们本月看到模型受之前出口管制的影响,存在一定滞后性。
随着时间推移,DeepSeek在扩展模型与服务能力方面,将面临越来越大困难。扩展能力迫在眉睫,中国深知这一点。
与DeepSeek创始人、CEO会面后第二天,中国银行宣布未来5年将为AI产业链提供1,400亿美元/1万亿元人民币补贴。
该补贴明确目标,是助力中国在科技领域实现完全自主,涵盖基础研究、产业应用、开发等方面,AI与机器人、生物技术与新材料是重点关注领域。
补贴包括计算基础设施与数据中心建设,为第一代技术设备提供保险与风险管理支持。
我们认为,未来出口管制的影响将更加显著:算法与硬件都将不断进步,美国实验室能利用这些创新成果进行扩展,达到中国难以企及的高度。中国可能仍会推出与美国实验室相媲美的模型,将继续处于追赶地位。
我们认为,长期看,DeepSeek有可能不再开源模型,尤其是在中国政府对其工作给予更多关注,致力保护算法创新的情况下。
Anthropic
CEO
:DeepSeek不是我们对手,锁死芯片出口,才能保证美国领导下单极世界
Anthropic
CEO Dario Amodei发布长文,对DeepSeek成功是否威胁到美国,美国对AI芯片的出口管制不起作用的争论进行分析。
几周前,我主张美国加强对华芯片出口管制。自那以后,中国AI公司DeepSeek至少在某些方面以更低成本接近美国前沿AI模型的性能。
在这里,我不会关注DeepSeek是否对Anthropic等美国AI公司构成威胁,我认为许多关于它们对美国AI领导地位构成威胁的说法都被大大夸大。
相反,我将关注DeepSeek的发布,是否会破坏芯片出口管制政策的理由,我认为不会,我认为它们使出口管制政策比一周前更加重要。
出口管制有个至关重要目的:让美国走在AI发展的前沿。
需明确的是,这不是避开美国与中国之间竞争的方法。归根结底,如果我们想获胜,美国AI公司必须拥有比中国更好的模式,我们不应该在没有必要的情况下,将技术优势拱手让给中国。
在我提出政策论点之前,我将描述理解AI系统的三个至关重要的基本动态。
AI一个特性,是我与联合创始人在OpenAI工作时第一批记录下来的是,其他条件相同情况下,扩大AI系统的训练范围,可以全面改善一系列认知任务的结果。
例如,价值100万美元的模型,可能解决20%的重要编码任务;价值1,000万美元的模型,可能解决40%;价值1亿美元的模型,可能解决60%等。
这些差异,在实践中往往产生巨大影响,另一个10倍可能对应本科生与博士生技能水平之间的差异,公司正在大力投资训练这些模型。
这个领域不断涌现大大小小的想法,使事情变得更加有效或高效:这可能是模型架构的改进,对当今所有模型使用Transformer基本架构进行调整,也可能只是一种在底层硬件上更有效运行模型的方法,新一代硬件也有同样效果。
这通常改变曲线:如果创新是2倍的计算乘数CM,它可以让你以500万美元,而不是1,000万美元的价格,获得40%的编码任务;或者以5,000万美元,而不是1亿美元的价格,获得60%的编码任务等。
每个前沿AI公司,都会定期发现许多这样CM:通常是小型的1.2倍,有时是中型的2倍,偶尔也会发现非常大的10倍。
拥有更智能系统的价值如此之高,这种曲线的转变,通常会导致公司在训练模型上花费更多,而不是更少:成本效率的提高,最终完全用于训练更智能的模型,仅受公司财务资源的限制。
人们自然会被一开始很贵,后面会变得更便宜的想法吸引,好像AI是一个质量恒定的单一事物,当它变得更便宜时,我们会使用更少芯片来训练它。
重要的是缩放曲线:当它移动时,我们只是更快遍历它,曲线末端的价值是如此之高。
2020年,我团队发表一篇论文,指出算法进步,导致的曲线变化约为每年1.68倍。
自那以后,这一速度可能已经大大加快,它没有考虑到效率与硬件。
另一个估计是在这里,训练曲线的变化,也会改变推理曲线。
例如,比原始GPT-4晚15个月发布的Claude 3.5 Sonnet,在几乎所有基准测试中都胜过GPT-4,API价格降低约10倍。
每隔段时间,正在扩展的底层内容就会发生一些变化,或者在训练过程中会添加一种新的扩展类型。
从2020~2023年,扩展的主要内容是预训练模型:在越来越多的互联网文本上训练模型,并在其基础上进行少量其他训练。
2024年,使用强化学习RL训练模型,以生成思维链的想法,已成为扩展的新焦点。
Anthropic、DeepSeek与许多其他公司,也许最值得注意的是,9月发布o1预览模型的OpenAI发现,这种训练极大提高某些选定的、客观可衡量的任务,如数学、编码竞赛、类似这些任务的推理性能。
这种新范式,涉及从普通类型的预训练模型开始,在第二阶段使用RL添加推理技能。
重要的是,这种类型的强化学习是新的,我们仍处于扩展曲线的早期阶段:对所有参与者,在第二个强化学习阶段花费的金额都很小。花费100万美元,而不是10万美元,就足以获得巨大收益。
各家公司,现在正在迅速将第二阶段的规模扩大到数亿甚至数十亿美元,重要的是要明白,我们正处于独特的交叉点,有一个强大的新范式处于扩展曲线的早期阶段,可以快速获得巨大收益。
上述三个动态,可以帮助我们了解DeepSeek最近的发布。
大约一个月前,DeepSeek发布DeepSeek-V3模型,这是纯粹的预训练模型3,即上文第3点中描述的第一阶段。
从外部无法确定这些模型的所有内容,以下是我对这两个版本的最佳理解。
DeepSeek-V3是真正的创新,一个月前,就应该引起人们的注意,我们注意到了。
作为预训练模型,它似乎在一些重要任务上的表现,接近4个最先进的美国模型,训练成本大大降低。
我们发现Claude
3.5 Sonnet在其他一些关键任务上的表现尤其好。
DeepSeek团队通过一些真正、令人印象深刻的创新,实现这一点,这些创新主要集中在工程效率上。
在管理称为键值缓存的方面、使一种专家混合的方法,比以前更进一步方面,都有特别创新的改进。
1
、DeepSeek不会以600万美元,完成美国AI公司花费数十亿美元完成的任务。
我只能代表Anthropic发言,Claude 3.5 Sonnet是一个中型模型,训练成本高达几千万美元,我不会给出确切数字。
3.5 Sonnet的训练方式,并未涉及更大或更昂贵的模型,与一些传言相反。
Sonnet的训练,是在9~12个月前进行的,DeepSeek模型是在11月/12月进行的,Sonnet在许多内部与外部评估中仍然遥遥领先。
我认为公平的说法是,DeepSeek生产的模型,接近7~10个月前美国模型的性能,成本要低得多,但远不及人们建议的比例。
2
、如果成本曲线下降的历史趋势是每年约4倍,意味着现在的模型,比3.5 Sonnet/GPT-4o便宜3~4倍。
DeepSeek-V3
比美国前沿模型更差,假设在扩展曲线上差约2倍,我认为这对DeepSeek-V3来说相当慷慨,意味着如果DeepSeek-V3的训练成本,比1年前开发的当前美国模型低约8倍,这将是完全正常,完全符合趋势。
我不会给出一个数字,从前面的要点可以清楚看出,你从表面上看DeepSeek训练成本,它们充其量也符合趋势,甚至可能不符合趋势。
例如,这比原始GPT-4到Claude 3.5 Sonnet推理价格差异10倍要小,3.5 Sonnet是比GPT-4更好的模型。
所有这些都表明,DeepSeek-V3不是一项独特的突破,不是从根本上改变LLM经济的东西,它是持续成本降低曲线上的一个预期点。
这次不同之处在于,第一个展示预期成本降低的公司是中国公司。这种情况从未发生过,具有地缘政治意义。美国公司很快就会效仿,他们不会通过复制DeepSeek来做到这一点,而是他们在实现成本降低的通常趋势。
3
、DeepSeek与美国AI公司,都拥有比他们训练主要模型时更多的资金与芯片。
额外的芯片用于研发以开发模型背后的理念,有时用于训练尚未准备好的大型模型或需多次尝试才能正确。
据报道,我们不能确定它是否属实,DeepSeek拥有50,000 Hopper代芯片,我猜这大约是美国主要AI公司所拥有芯片的2~3倍。
例如,它比xAI
Colossus集群少2~3倍。
这50,000 Hopper芯片的成本约为10亿美元,DeepSeek作为一家公司的总支出,与训练单个模型的支出不同,与美国AI实验室并没有太大差别。
值得注意的是,缩放曲线分析有些过于简单化,模型之间存在一定差异,各有优缺点;缩放曲线数字是一个粗略的平均值,忽略很多细节。
我只能谈论Anthropic模型,正如我上面所暗示的,Claude非常擅长编码,拥有精心设计的与人互动的风格,许多人用它来获得个人建议或支持。
在这些任务与其他一些任务上,DeepSeek根本无法与之相比,这些因素没有出现在缩放数字中。
R1是上周发布的模型,它引发公众的强烈关注包括,Nvidia股价下跌约17%,从创新或工程角度看,它远不如V3有趣。
它增加了第二阶段训练,强化学习,如上一节第3点所述,复制OpenAI对o1所做的事情,它们的规模似乎相似,结果也相似。
我们处于扩展曲线的早期阶段,只要从强大的预训练模型开始,多家公司都可以生产这种类型的模型。
我们处于有趣的交叉点,暂时有几家公司可以生产出好的推理模型。
随着每个人都在这些模型的扩展曲线上进一步向上移动,这种情况将迅速不再成立。
以上只是我感兴趣主要话题的序言:对华芯片出口管制。
1
、有种趋势是,公司在训练强大的AI模型上投入越来越多资金,曲线会定期发生变化,训练特定水平模型智能的成本会迅速下降。
只是训练越来越智能模型的经济价值是如此之大,以至任何成本收益几乎都会立即被吃掉,它们被重新投入到制作更智能模型中,我们最初计划花费的成本与此相同。
在美国实验室尚未发现的情况下,DeepSeek开发的效率创新,将很快被美国与中国的实验室应用于训练价值数十亿美元的模型。
这些模型的表现,将优于他们之前计划训练的价值数十亿美元的模型,他们仍将花费数十亿美元。这个数字将继续上升,直到我们拥有在几乎所有事情上都比几乎所有人类更聪明的AI。
2
、制造出在几乎所有方面都比人类更聪明的AI,将需数百万个芯片,至少数百亿美元,最有可能在2026~2027年实现。
DeepSeek的发布,不会改变这一点,它们大致处于预期的成本降低曲线上,这一直被计入这些计算中。
3
、意味着2026~2027年,我们可能会陷入两个截然不同的世界。
在美国,多家公司肯定会拥有所需的数百万个芯片,成本高达数百亿美元。
如果可以的话,我们将生活在一个两极世界,美国与中国都拥有强大的AI模型,这将推动科学技术的极速进步,我称之为数据中心的天才国家。
两极世界不一定会无限期保持平衡,即使美国与中国在AI系统方面势均力敌,中国以庞大的工业基础,可以帮助中国在全球舞台上占据主导地位,不仅是在AI领域,而是在所有领域。
如果中国无法获得数百万个芯片,我们将至少暂时生活在单极世界,只有美国及其盟友拥有这些模型。
目前尚不清楚单极世界是否会持续下去,至少存在这样一种可能性,AI系统最终可以帮助制造更智能的AI系统,暂时的领先优势,可以转化为持久的优势。
在这个世界上,美国及其盟友可能会在全球舞台上占据主导地位,保持长期领先。
4
、只有严格执行出口管制,才能阻止中国获得数百万芯片,也是决定我们最终是进入单极世界、还是两极世界最重要的因素。
5
、DeepSeek的表现,并不意味着出口管制失败。
DeepSeek拥有中等~大量芯片,他们能够开发、训练出强大的模型,就不足为奇。
他们的资源限制,并不比美国AI公司严重,出口管制不是促使他们创新的主要因素。
他们只是非常有才华的工程师,展示了为什么中国是美国有力竞争对手。
10亿美元的经济活动可以隐藏,很难隐藏1,000亿美元、甚至100亿美元。100万个芯片,物理上很难走私。
看看DeepSeek目前报道的芯片,也是有启发性的。
SemiAnalysis说法,这是H100、H800、H20的混合体,总计5万。
自发布以来,H100就被出口管制禁止,如果DeepSeek有任何芯片,它们一定不是通过正规渠道来的,Nvidia已声明DeepSeek的进展,完全符合出口管制。
H800在2022年第一轮出口管制中是被允许的,在2023年10月管制更新时被禁止,这些芯片可能是在禁令之前发货。
H20的训练效率较低,采样效率较高,我认为应该禁止,但仍被允许。
所有这些都表明,DeepSeek的AI芯片群中,似乎有相当一部分,是由尚未被禁止、应该被禁止的芯片。
如果我们能够足够快堵塞它们,我们也许能够增加美国领导单极世界的可能性。
鉴于我关注的是出口管制与美国国家安全,我不认为DeepSeek本身是对手,重点不是特别针对他们。
在他们接受采访中,他们看起来像是聪明、好奇的研究人员,只是想开发有用的技术。
出口管制,是我们防止中国追赶美国的最有力工具之一。认为技术越来越强大、性价比越来越高,是解除出口管制理由的想法,完全没有道理。
本文中,我不会对西方模型的提炼报告持任何立场。在这里,我只是相信DeepSeek的说法,他们按照论文中说的方式进行训练。
我认为DeepSeek模型发布,对Nvidia显然不是坏事,他们股价出现两位数,约17%下跌,令人费解。这次发布,对Nvidia不是坏事的理由,甚至比对AI公司不是坏事的理由,更明显。我在这篇文章中的主要目标,是捍卫出口管制政策。
准确说,它是预训练模型,包含推理范式转变之前,模型中典型的少量RL训练。
这是DeepSeek论文中引用的数字,我只是照单全收,并不怀疑这部分内容,只是与美国公司模型训练成本的比较,训练特定模型的成本600万美元与研发总成本高得多之间的区别。我们也不能完全确定600万美元,模型大小是可验证的,其他方面如Token数量不可验证。
↩
在一些采访中,我说他们有50,000 H100,这是对报道的一个微妙错误总结,我想在这里纠正一下。迄今为止,最知名的Hopper芯片是H100,我猜想指的是它,Hopper还包括H800与H20,据报道DeepSeek拥有这三种芯片的混合,总计50,000块。这并没有改变太多情况,但值得纠正。当我谈论出口管制时,我会更多讨论H800与H20。
出口管制,我预计这一差距在下一代集群中会大大扩大。
我怀疑R1受到如此多关注的主要原因之一,是它是第一个向用户展示模型所展现的思路推理的模型,OpenAI的o1仅显示最终答案,DeepSeek表明用户对此很感兴趣。需明确的是,这是一个用户界面选择,与模型本身无关。
六合年度报告全库会员,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
智能时代专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
智能时代专题第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
智能时代专题第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
六合商业研选付费专题报告,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
元宇宙专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
头号玩家第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
头号玩家第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
智能电动汽车专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
【智能时代】现象级游戏《黑神话:悟空》的思考,游戏二元属性,文化与科技
【智能时代】自动驾驶:汽车iPhone时刻,中国三大流派演化形成中
诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会
人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来
九宇资本赵宇杰:智能时代思考,
认知思维,存在原生、降维、升维三波认知红利
九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI
九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体
人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字
九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿
九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切
【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上
【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付
【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启
【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起
【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆
【首份付费报告+年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横
【重磅】科技体育系列报告合集上线,“科技+体育”深度融合,全方位变革体育运动
【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现
九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切
【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会
九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变
【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集
【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集
【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集
【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变
【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐
九宇资本赵宇杰:对智能电动汽车产业的碎片化思考
九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术
【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓
【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异
【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国
【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆
【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村
六合君3周岁生日,TOP 60篇经典研报重磅推荐
下午茶,互联网世界的三国杀
5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代
新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式
【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇
知识服务+付费+音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期
从APP Store畅销榜4年更替,看内容付费崛起
新三板破万思考:新三板日交易量10年100倍?
九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会
九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会
九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态
|2016 GNEC 新经济新营销峰会