专栏名称: 六合商业研选
六合咨询立足新经济,挖掘明日之星,发现价值,传播价值;国际化视野、多角度观察、深度思考、体系化研究,持续提升研究广度与深度,全面覆盖一级、新三板、二级(A股+美股+港股);深度剖析优质企业商业模式与投资价值,前瞻性洞察行业本质与发展趋势。
51好读  ›  专栏  ›  六合商业研选

【长期主义】第325期智能说:SemiAnalysis解析DeepSeek,Anthropic CEO呼吁加强芯片出口管制

六合商业研选  · 公众号  ·  · 2025-02-15 06:30

正文

请到「今天看啥」查看全文



2025年1月31日,知名半导体研究机构SemiAnalysis发布DeepSeek深度分析报告,揭示DeepSeek如何凭借独特技术创新与商业模式在全球AI领域掀起巨浪。DeepSeek通过多头潜在注意力MLA、多令牌预测MTP等多项独特技术创新,大幅降低模型训练与推理成本,V3模型与R1推理模型不仅在性能上与行业巨头产品相媲美,在某些方面实现超越,以更低成本提供服务。

2025年1月28日,Anthropic CEO Dario Amodei发表长文《关于DeepSeek与出口管制》。Dario Amodei表示, DeepSeek成功并未对美国AI构成直接威胁,凸显加强对华芯片出口管制重要性,严格出口管制是阻止中国获得大量AI芯片、决定未来AI领域格局关键,呼吁美国政府加强出口管制,确保美国在AI领域领导地位。

本期长期主义,选择SemiAnalysis针对DeepSeek分析报告、Dario Amodei文章《关于DeepSeek与出口管制》,Founder Park、Z Finance发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文12,482字

预计阅读25分钟

SemiAnalysis 解析DeepSeek:训练成本、技术创新点、对封闭模型的影响

时间:2025年2月6日

来源:Founder Park

字数:7,394

知名半导体研究机构SemiAnalysis对DeepSeek的分析,可能是目前海外最全面的报告。报告原文:https://semianalysis.com/2025/01/31/deepseek-debates/

文章整理自APPSO、傅里叶的猫的编译版本,Founder Park有所调整。

从DeepSeek让训练成本大幅降低的MLA模式,R1与o1等模型的性能对比,人均年薪千万的顶尖人才,指出目前DeepSeek成本估算是错误的,推测拥有大约5万Hopper GPU,关于DeepSeek目前很多甚嚣尘上的传言,这篇文章依据现有信息给出更客观的论述。

另一份可信度比较高的报告中,看到关于DeepSeek不可能有5万H100的说法,这篇报告给出类似结论,这个说法应该靠谱的。

一些关键要点

推测DeepSeek大约有5万Hopper GPU,在GPU上投资总额超过5亿美元。

广为讨论的600万美元成本,仅指预训练过程中GPU的花费,只是模型总成本的一部分。

DeepSeek团队目前约150人,从北大、浙大等中国高校招聘人才,年薪可达千万。

大多数架构上的成就,都与V3相关,V3也是R1基础模型。

多头潜在注意力MLA,是DeepSeek大幅降低推理成本的关键创新,将每次查询所需的KV缓存减少约93.3%。

推理性能上,R1与o1不相上下,o3的能力明显高于R1与o1。

R1并未削弱o1在技术上优势,反而以更低成本提供相似的能力。

DeepSeek 风暴席卷全球

过去一周,DeepSeek成为全世界人们唯一热议的话题。

目前,DeepSeek日活,据悉超过1,900万,已经远高于Claude、Perplexity,甚至Gemini。

对长期关注AI行业的人,这个消息不算新鲜。我们已经讨论DeepSeek数月,对DeepSeek并不陌生,疯狂的炒作出乎意料。

SemiAnalysis一直认为DeepSeek极具才华,美国更广泛的公众并不在意。

当世界终于关注到DeepSeek,狂热的舆论并没有完全反映它真实情况。

我们想强调的是,舆论已经发生转变。

上个月,当ScalingLaws扩展定律被打破时,我们已揭穿这个神话;如今,算法改进的速度过快,这在某种程度上对英伟达与GPU不利。

现在大家讨论的是,DeepSeek效率如此之高,以至我们不再需更多计算资源,模型的变革,出现巨大产能过剩。

杰文斯悖论Jevon ʼ s Paradox被过度炒作,它更接近现实,这些模型已经引发需求,对H100与H200的定价,产生实质性的影响。

杰文斯悖论简单说是,当某种资源的使用效率提高后,单次使用时消耗更少,成本降低、使用更方便,可能让人们用得更多,导致整体消耗量上升。

5 万Hopper GPU

幻方量化是中国对冲基金,也是最早在交易算法中采用AI的先行者。

他们早早意识到AI在金融以外领域的潜力、扩展能力的重要性,不断增加GPU供应。

经过使用数千个GPU集群进行模型实验后,幻方量化在2021年,在任何出口限制出台之前,投资10,000 A100 GPU,这笔投资得到回报。

随着幻方量化不断进步,他们意识到是时候在2023年5月剥离出DeepSeek,更专注追求进一步的AI能力。

当时外部投资者对AI缺乏兴趣,主要担心商业模式问题,幻方量化自筹资金成立DeepSeek。

如今,幻方量化与DeepSeek经常共享资源,包括人力与计算资源。

如今,DeepSeek已经发展成为一项严肃、协同的重要项目,绝非很多媒体所称的副业项目。

我们相信即使考虑到出口管制因素,他们在GPU上投资总额超过5亿美元。

我们认为,他们大约拥有50,000 Hopper GPU,不等同于拥有50,000 H100 GPU。

英伟达根据不同法规要求,推出不同版本的H100,例如H800、H20,目前只有H20可供中国大模型公司使用。

需注意的是,H800算力与H100相同,网络带宽较低。

我们认为DeepSeek拥有大约10,000 H800与大约10,000 H100。他们订购更多H20,过去9个月内,英伟达已为中国市场生产超过1,000,000此类GPU。

这些GPU,在幻方量化与DeepSeek之间共享,在地理上有所分布,它们被用于交易、推理、训练、研究。

我们分析显示,DeepSeek服务器资本支出总额约16亿美元,与运营这些集群相关的成本高达9.44亿美元。

资源集中化是一大挑战,所有AI实验室与超大规模云服务商,都拥有比单次训练运行所使用的GPU数量要多得多,用于研究与训练的任务。

年薪近千万,在中国高校挖顶尖人才

DeepSeek完全从中国招聘人才,不拘泥于以往资历,而是高度重视能力与好奇心。DeepSeek定期在北大、浙江等顶尖高校举办招聘活动,许多员工均毕业于这些院校。

岗位职责不完全固定,招聘时会有一定灵活性,招聘广告甚至宣称可以无限制调用10,000多GPU。

这些职位竞争极为激烈,据称对有潜力的候选人,提供薪资超过130万美元/约合934万人民币,远高于中国大型科技公司与AI实验室,如Moonshot等竞争对手。

DeepSeek目前约有150名员工,正在迅速扩张。

历史证明,资金充足、专注的小型初创公司,往往能突破界限。

DeepSeek不具备像Google的官僚主义,自筹资金,能迅速推进新想法。

与Google类似,DeepSeek在大多数情况下自建数据中心,不依赖外部或供应商。

这为进一步实验,提供更大空间,使他们能在整个技术栈上实现创新。

我们认为,他们是当今唯一最优秀的开源权重实验室,超越Meta Llama项目、Mistral(法国AI初创公司,最初承诺开源,最终选择闭源商业模式)、其他竞争者。

DeepSeek 的极低成本,被误读

DeepSeek价格与效率,是引发硅谷科技圈地震关键。

关于DeepSeek V3的训练成本为600万美元这个广为流传的数字,是片面的。这相当于只关注产品物料清单中某一部分,将其视为全部成本。

预训练成本,仅仅是总成本中很小的一部分。

我们认为,预训练所支出的成本,远远不能代表模型所花费的总成本。

我们相信DeepSeek在硬件上的支出,远超5亿美元。

他们为了开发新的架构创新,在模型开发过程中,花费大量资金,用于测试新思路、新架构、消融实验。

多头潜在注意力Multi-Head Latent Attention,DeepSeek一项关键创新,耗时数月开发,花费整个团队大量人力与GPU计算时间。

论文中提到的600万美元成本,仅指预训练过程中GPU花费,这只是模型总成本的一部分。研发费用、硬件本身总体拥有成本等重要部分,并未包含在内。

作为参考,Claude 3.5 Sonnet训练成本达数千万美元,如果是Anthropic全部成本,他们没必要从Google融资数10亿、从亚马逊融资数10亿美元。

这是他们进行实验、提出新架构、收集与清洗数据、支付员工工资的必要成本。

DeepSeek是如何获得如此大规模的集群的,出口管制的滞后是关键。

V3 让性能差距缩小的秘诀

V3是令人印象深刻的模型,值得强调的是,它的令人印象深刻,是相对什么而言。

许多人将V3与GPT-4o进行比较,强调V3在性能上超越4o,GPT-4o是在2024年5月发布。

以当下AI发展速度,算法改进方面,那时与现在已是天壤之别。

我们并不惊讶在经过一定时间后,用更少计算资源,就能实现相当或更强的能力,推理成本大幅下降,正是AI改进的标志。

举例,一些可以在笔记本电脑上运行的小模型,性能可与需超级计算机训练,需大量GPU推理的GPT-3相媲美。

算法改进,使得用更少的计算资源,即可训练与推理具备相同性能的模型,这种模式在业内出现多次。

这一次世界终于注意到,是它来自中国一家实验室,小模型性能提升,不是什么新鲜事。

目前行业趋势是,AI实验室在投入的绝对资金上不断增加,以获取更高智能水平。

据估算,算法效率每年进步4倍,即每过一年,用于达到相同性能的计算资源减少4倍。

Anthropic CEO Dario认为,算法进步甚至会更快,可以实现10倍提升。

GPT-3质量的推理价格而言,成本已经下降1,200倍。

研究GPT-4成本时,我们看到类似下降趋势,处于曲线较早阶段。

时间上的成本差异降低,可以解释为不再像上图那样保持性能不变。

这种情况下,我们看到算法改进与优化,使得成本降低10倍,性能提升10倍。

DeepSeek的独特之处,他们率先实现这种成本与性能水平。

Mistral与Llama模型,曾在开源模型上做过类似事情,DeepSeek做到的程度独树一帜。如果到年底,成本再下降5倍,不要感到惊讶。

R1 凭什么迅速追上OpenAI o1

R1能达到与o1相当效果,o1在9月发布。仅仅几个月时间,DeepSeek是如何如此迅速赶上的?

问题关键在于,推理能力形成一种全新的范式。

推理范式迭代速度更快,以较少计算资源,即可获得显著收益。

我们在扩展定律报告中提到的,以往范式依赖预训练,这种方式不仅成本越来越高,已经难以取得稳健的进步。

新的推理范式,专注通过合成数据生成、与在现有模型上进行后训练中的强化学习,来提升推理能力,以更低成本实现更快进步。

较低的入门门槛,加上易于优化,使得DeepSeek能比过去更快复制o1方法。

随着各方探索如何在这一新范式下进一步扩展,我们预计不同模型在匹配性能的时间差距将会拉大。

需注意的是,R1论文中没有提及所使用的计算资源。这绝非偶然,为了生成用于后训练的合成数据,R1需大量计算资源,更不用说强化学习。

R1是一款非常优秀的模型,它披露的一些基准测试也具有误导性。

R1特意没有提及它并不领先的基准测试,在推理性能上R1与o1不相上下,但在每项指标上,它并不都是明显赢家,在许多情况下甚至不如o1。

这里我们没有提到o3,o3能力明显高于R1与o1。

OpenAI最近分享o3结果,基准测试的扩展呈垂直趋势。这似乎再次证明深度学习遭遇瓶颈,这个瓶颈不同以往。

与Google的推理模型能力相当

R1炒作热潮不断,很多人忽略,市值2.5万亿美元的美国公司,在上个月以更低价格发布一款推理模型:Google Gemini Flash 2.0 Thinking。

该模型已经可以使用,通过API,即使拥有更长的上下文长度,成本仍远低于R1。

已公布的基准测试中,Flash 2.0 Thinking超越R1,基准测试不能说明全部情况。

Google只发布3个基准测试,情况不够全面。

我们认为Google模型非常稳健,在许多方面可以与R1相当,未获得太多关注。

这可能是Google营销策略平平、用户体验较差,同时R1作为一项来自中国的黑马出现。

需明确的是,这些都不会削弱DeepSeek非凡成就的价值。

DeepSeek作为快速运作、资金充足、聪明、专注的初创公司,这正是它在推理模型方面超越Meta等巨头的原因。

让美国科技圈疯狂复制的MLA创新

DeepSeek实现许多领先的AI公司都未达到的技术创新。

我们预计,接下来DeepSeek发布的任何技术进展,都将几乎立刻被西方实验室复制。

这些技术突破是什么?大多数架构上的成就,都与V3相关,V3也是R1基础模型。

我们详细介绍这些创新

训练预训练与后训练

DeepSeek V3利用MTP(Multi-Token Prediction),实现前所未见的规模,这是新增的注意力模块,可预测接下来多个token,而非单一token。

它在训练过程中,显著提高模型性能,在推理时可以被移除,这是一种利用较低计算资源,实现性能提升的算法创新。

还有一些额外考量,比如在训练中采用FP8精度,领先的美国实验室已经使用FP8训练有一段时间。

DeepSeek V3还是一种专家混合模型,由众多专注不同任务的小专家组成的大模型,表现出强大的涌现能力。

MoE模型曾面临的一个难题,是如何确定哪个token应该分配给哪个子模型或专家。

DeepSeek实现一个门控网络gating network,能以平衡的方式将token路由到合适专家,不会影响模型性能。

这意味着路由效率非常高,在训练过程中每个token,相对整个模型的规模,仅需修改少量参数。

这提高训练效率,也降低推理成本。

有人担心专家混合模型MoE带来的效率提升,可能会减少投资,Dario指出,更强大AI模型所带来的经济效益非常可观,任何节约的成本,都会迅速再投资于构建更大规模模型。

MoE的效率提升,不仅没有减少总体投资,反而会加速AI规模扩大。

目前硅谷的主流科技公司,都在正全力以赴将模型扩展到更多计算资源,并在算法上提高效率。

R1 背后的基础模型V3

R1极大受益拥有强大的基础模型V3,这部分受益强化学习RL。

RL主要聚焦两个点:格式化以确保输出连贯、有用性,与安全性以确保模型实用。

推理能力,是在对模型进行合成数据微调时产生的。

我们在扩展定律文章中提到的,这正是o1所经历的过程。

需注意的是,R1论文中没有提及计算资源的使用情况,提到所用计算资源的数量,会透露他们拥有的GPU数量,远超对外宣传的规模。

如此大规模的强化学习需大量计算资源,尤其是在生成合成数据的场景。

DeepSeek使用的一部分数据,似乎来自OpenAI的模型尚未证实,我们认为这将对从输出中进行蒸馏的政策产生影响。

根据服务条款,这是违规的,未来一种新的趋势可能会采取类似KYC,了解你客户的方式,阻止数据蒸馏。

谈到蒸馏,R1论文中最值得关注的部分,是能通过用推理模型的输出,对非推理小模型进行微调,将其转变为具备推理能力的模型。

数据集策划共包含80万样本,现在任何人都可以利用R1的思维链CoT,输出创建自己的数据集,借助这些输出构建推理模型。

我们可能会看到更多小模型展示出推理能力,提升小模型的性能。

多头潜在注意力MLA

多头潜在注意力MLA,是DeepSeek在推理成本上大幅降低的关键创新。

与标准注意力机制相比,MLA将每次查询所需的KV缓存减少约93.3%。

KV 缓存,是Transformer模型中一种内存机制,用于暂时保存代表对话上下文数据,减少重复计算。

随着对话上下文增长,KV缓存会增加,带来巨大内存压力。

大幅减少每次查询所需的KV缓存,能降低每次查询所需的硬件量,降低整体成本。

我们认为DeepSeek是以成本价提供推理服务,以抢占市场份额,并非真正盈利。

Google Gemini Flash 2.0 Thinking更便宜,Google不太可能以成本价提供该服务。

MLA,尤其引起许多领先的美国实验室关注。

2024年5月,MLA在DeepSeekV2中首次发布,H20内存带宽与容量,相比H100更高,DeepSeek在推理工作负载上获得更多效率提升。

他们宣布与华为建立合作关系,迄今为止在昇腾计算方面的应用还很少。

硅基流动与华为云团队,宣布联合首发、上线基于华为云昇腾云服务的DeepSeek R1/V3推理服务。

我们认为,MLA对利润率带来的影响,对整个AI生态系统都意义重大。

R1 没有在技术层面削弱o1的优势

利润率方面,我们有个关键发现:R1并未削弱o1在技术上优势,反而以更低成本提供相似能力。

这一结果合理、具有启示意义,促使我们构建面向未来的定价机制框架。

能力越强,利润率越高,这一逻辑与半导体制造行业的发展路径颇为相似。

当台积电首次突破至新的工艺节点,推出前所未有产品时,便能获得强大的定价权。

处于技术追赶阶段的竞争者,如三星与英特尔,更多依靠在成本与性能之间寻求平衡,通常以低于市场领导者的价格进行竞争。

对芯片制造商,在这里可类比为AI实验室,优势在于可以灵活调整产能。

如果某个新模型具备更优成本效益,企业可以快速增加产能,逐步减少对旧模型支持。

这种产能调整机制,不仅符合当前AI实验室运作模式,也与半导体行业长期以来的经验契合。

技术的竞争,是定价权争夺

这或许预示未来AI竞赛发展轨迹,率先进入新能力层级的企业,将掌握显著定价溢价,跟随者只能依靠微薄的利润勉强维持。

能力上落后的产品仍会存在,前提是它们能满足特定使用场景,每一代产品中能赶超领先者的参与者会越来越少。

我们已经在见证,R1已经达到领先的能力水平,却以零利润价格销售。这种鲜明的价格差异,引发人们的疑问:凭什么OpenAI产品这么昂贵。他们产品定价,基于最前沿的技术,并从中获取相应的溢价收益。

我们认为,未来的技术发展速度,将超过半导体制造业目前的快速节奏。

追求最新能力,意味着持续的定价权,以ChatGPT Pro为例,能力滞后的产品必须通过降低价格来维持市场,利润主要依赖底层的算力与Token基础设施。

在当前快速迭代的技术周期中,追求卓越能力的动力,只会加速产品更新换代。

只要企业能持续拓展能力、开发具有新价值的功能,理应享有定价权;反之,在开放市场中,产品同质化的趋势会迅速显现。

这个背景下,人们对当前局势存在根本性的误解。

我们所描述的情景,颇有几分类似超高速发展的半导体制造业,这是全球资本密集度最高的行业。

没有哪个行业,在研发上的投入,超过半导体制造业,最接近这一现实的AI模型供应链,常常被视为不利的参照对象。

将AI token与杰文斯悖论进行比较,可以发现深刻的历史相似性。

最初,人们对晶体管能否持续微缩存在疑虑;一旦这一趋势被确认,整个行业便全力以赴推动CMOS技术向极限缩放,在此基础上构建关键功能。

如今,我们正处于将多链思维模型与能力整合的初期阶段,这与晶体管微缩的早期时代颇为相似。

技术角度看,这可能是充满动荡的时期,对英伟达是好消息。

免费、强大的推理模型,能一直持续吗

市场一直在寻找一种新的破局点,这正是它所选择的。

如果DeepSeek愿意以0或甚至负利润率运营,产品价格确实可能被压低到如此程度。

对前沿Token服务的定价弹性要高得多。

DeepSeek 正处于新一轮融资之中,他们有强烈动力追求这一策略。

在推理领域的一个关键转折点上,DeepSeek打破OpenAI占主导地位的利润率。

这种领先地位能否持续,我们认为不会。

一个开源实验室,现在已经展示曾被认为仅属于闭源实验室的能力。

这是一个关键性的发展,必须认识到DeepSeek仍然是快速跟随者。

我们确实认为,一个更强大的开放实验室,目前DeepSeek是最杰出的代表,将极大惠及新兴云服务提供商与基础设施供应商。

无论模型是开源还是闭源,计算资源的集中化依然至关重要。

如果建立在这些计算资源之上的上层服务,开始免费提供产品,计算本身的内在价值很可能会上升。

更多资本将流向计算基础设施,而不是封闭模型供应商,这标志着支出正向硬件转移。软件公司,也将从这一动态中大幅受益。

H100 价格飙升,杰文斯悖论的体现

我们已经看到这一理论的早期迹象。

V3 与R1发布以来,AWS多个地区H100GPU价格上涨,H200更难获取。

V3 发布后,H100价格大幅上涨,GPU开始以更高费率实现货币化。

更低成本实现更强智能,意味着更多需求。

这与前几个月H100现货价格的低迷,形成鲜明对比。

出口管制的影响、DeepSeek与中国政府

地缘政治角度看,DeepSeek与西方实验室,在能力方面的对比,出口管制的影响,都值得深入思考。

目前已经实施的AI扩散管制措施,我们认为不会取消。

有消息称,出口管制因DeepSeek发展而失败,这是对出口管制机制的误解。

最初,H100被禁止出口,算力相近、带宽受限的H800被允许出口;

随后,H800被禁止,现在仅允许H20出口。

我们在《加速器模型》中提到,需求巨大,英伟达在1月取消大量H20订单,这可能预示美国即将出台新的禁令。

这些法律实施过程中存在宽限期,DeepSeek很可能在这段时间内大量囤积所需芯片。

需注意的是,H100自发布以来,就被禁止出口。

这个角度看,出口管制未能完全限制高性能芯片的供应。

出口管制目的,并非完全切断中国获取芯片的渠道,而是对整个生态系统进行严格限制,意味着限制数十万、甚至数百万芯片的供应,而不仅仅是数万。

我们预计未来H20将被禁止出口,这将进一步限制DeepSeek获取芯片的能力,他们对芯片需求十分迫切。

DeepSeek 的产能限制

DeepSeek难以满足急剧增长的需求,他们拥有世界上最出色的推理技术之一,进行架构研发、训练模型,与为数千万用户提供可靠服务是截然不同的挑战。

DeepSeek的注册服务时常关闭,即便开放注册时,R1响应速度极慢,通过巧妙的用户体验设计掩盖这一问题。

我们本月看到模型受之前出口管制的影响,存在一定滞后性。

随着时间推移,DeepSeek在扩展模型与服务能力方面,将面临越来越大困难。扩展能力迫在眉睫,中国深知这一点。

与DeepSeek创始人、CEO会面后第二天,中国银行宣布未来5年将为AI产业链提供1,400亿美元/1万亿元人民币补贴。

该补贴明确目标,是助力中国在科技领域实现完全自主,涵盖基础研究、产业应用、开发等方面,AI与机器人、生物技术与新材料是重点关注领域。

补贴包括计算基础设施与数据中心建设,为第一代技术设备提供保险与风险管理支持。

我们认为,未来出口管制的影响将更加显著:算法与硬件都将不断进步,美国实验室能利用这些创新成果进行扩展,达到中国难以企及的高度。中国可能仍会推出与美国实验室相媲美的模型,将继续处于追赶地位。

我们认为,长期看,DeepSeek有可能不再开源模型,尤其是在中国政府对其工作给予更多关注,致力保护算法创新的情况下。

Anthropic CEO :DeepSeek不是我们对手,锁死芯片出口,才能保证美国领导下单极世界

时间:2025年1月30日

来源:Z Finance

字数:5,021

Anthropic CEO Dario Amodei发布长文,对DeepSeek成功是否威胁到美国,美国对AI芯片的出口管制不起作用的争论进行分析。

原文翻译

几周前,我主张美国加强对华芯片出口管制。自那以后,中国AI公司DeepSeek至少在某些方面以更低成本接近美国前沿AI模型的性能。

在这里,我不会关注DeepSeek是否对Anthropic等美国AI公司构成威胁,我认为许多关于它们对美国AI领导地位构成威胁的说法都被大大夸大。

相反,我将关注DeepSeek的发布,是否会破坏芯片出口管制政策的理由,我认为不会,我认为它们使出口管制政策比一周前更加重要。

出口管制有个至关重要目的:让美国走在AI发展的前沿。

需明确的是,这不是避开美国与中国之间竞争的方法。归根结底,如果我们想获胜,美国AI公司必须拥有比中国更好的模式,我们不应该在没有必要的情况下,将技术优势拱手让给中国。

AI 发展的三大动力

在我提出政策论点之前,我将描述理解AI系统的三个至关重要的基本动态。

扩展定律Scaling Laws

AI一个特性,是我与联合创始人在OpenAI工作时第一批记录下来的是,其他条件相同情况下,扩大AI系统的训练范围,可以全面改善一系列认知任务的结果。

例如,价值100万美元的模型,可能解决20%的重要编码任务;价值1,000万美元的模型,可能解决40%;价值1亿美元的模型,可能解决60%等。

这些差异,在实践中往往产生巨大影响,另一个10倍可能对应本科生与博士生技能水平之间的差异,公司正在大力投资训练这些模型。

改变曲线

这个领域不断涌现大大小小的想法,使事情变得更加有效或高效:这可能是模型架构的改进,对当今所有模型使用Transformer基本架构进行调整,也可能只是一种在底层硬件上更有效运行模型的方法,新一代硬件也有同样效果。

这通常改变曲线:如果创新是2倍的计算乘数CM,它可以让你以500万美元,而不是1,000万美元的价格,获得40%的编码任务;或者以5,000万美元,而不是1亿美元的价格,获得60%的编码任务等。

每个前沿AI公司,都会定期发现许多这样CM:通常是小型的1.2倍,有时是中型的2倍,偶尔也会发现非常大的10倍。

拥有更智能系统的价值如此之高,这种曲线的转变,通常会导致公司在训练模型上花费更多,而不是更少:成本效率的提高,最终完全用于训练更智能的模型,仅受公司财务资源的限制。

人们自然会被一开始很贵,后面会变得更便宜的想法吸引,好像AI是一个质量恒定的单一事物,当它变得更便宜时,我们会使用更少芯片来训练它。

重要的是缩放曲线:当它移动时,我们只是更快遍历它,曲线末端的价值是如此之高。

2020年,我团队发表一篇论文,指出算法进步,导致的曲线变化约为每年1.68倍。

自那以后,这一速度可能已经大大加快,它没有考虑到效率与硬件。

我猜今天的数字,可能是每年约4倍。

另一个估计是在这里,训练曲线的变化,也会改变推理曲线。

多年来,在模型质量保持不变情况下,价格大幅下降。

例如,比原始GPT-4晚15个月发布的Claude 3.5 Sonnet,在几乎所有基准测试中都胜过GPT-4,API价格降低约10倍。

转变范式

每隔段时间,正在扩展的底层内容就会发生一些变化,或者在训练过程中会添加一种新的扩展类型。

从2020~2023年,扩展的主要内容是预训练模型:在越来越多的互联网文本上训练模型,并在其基础上进行少量其他训练。

2024年,使用强化学习RL训练模型,以生成思维链的想法,已成为扩展的新焦点。

Anthropic、DeepSeek与许多其他公司,也许最值得注意的是,9月发布o1预览模型的OpenAI发现,这种训练极大提高某些选定的、客观可衡量的任务,如数学、编码竞赛、类似这些任务的推理性能。

这种新范式,涉及从普通类型的预训练模型开始,在第二阶段使用RL添加推理技能。

重要的是,这种类型的强化学习是新的,我们仍处于扩展曲线的早期阶段:对所有参与者,在第二个强化学习阶段花费的金额都很小。花费100万美元,而不是10万美元,就足以获得巨大收益。

各家公司,现在正在迅速将第二阶段的规模扩大到数亿甚至数十亿美元,重要的是要明白,我们正处于独特的交叉点,有一个强大的新范式处于扩展曲线的早期阶段,可以快速获得巨大收益。

DeepSeek 的模型

上述三个动态,可以帮助我们了解DeepSeek最近的发布。

大约一个月前,DeepSeek发布DeepSeek-V3模型,这是纯粹的预训练模型3,即上文第3点中描述的第一阶段。

上周,他们发布R1,增加第二阶段。

从外部无法确定这些模型的所有内容,以下是我对这两个版本的最佳理解。

DeepSeek-V3是真正的创新,一个月前,就应该引起人们的注意,我们注意到了。

作为预训练模型,它似乎在一些重要任务上的表现,接近4个最先进的美国模型,训练成本大大降低。

我们发现Claude 3.5 Sonnet在其他一些关键任务上的表现尤其好。

DeepSeek团队通过一些真正、令人印象深刻的创新,实现这一点,这些创新主要集中在工程效率上。

在管理称为键值缓存的方面、使一种专家混合的方法,比以前更进一步方面,都有特别创新的改进。

仔细观察是很重要的:

1 、DeepSeek不会以600万美元,完成美国AI公司花费数十亿美元完成的任务。

我只能代表Anthropic发言,Claude 3.5 Sonnet是一个中型模型,训练成本高达几千万美元,我不会给出确切数字。

3.5 Sonnet的训练方式,并未涉及更大或更昂贵的模型,与一些传言相反。

Sonnet的训练,是在9~12个月前进行的,DeepSeek模型是在11月/12月进行的,Sonnet在许多内部与外部评估中仍然遥遥领先。

我认为公平的说法是,DeepSeek生产的模型,接近7~10个月前美国模型的性能,成本要低得多,但远不及人们建议的比例。

2 、如果成本曲线下降的历史趋势是每年约4倍,意味着现在的模型,比3.5 Sonnet/GPT-4o便宜3~4倍。

DeepSeek-V3 比美国前沿模型更差,假设在扩展曲线上差约2倍,我认为这对DeepSeek-V3来说相当慷慨,意味着如果DeepSeek-V3的训练成本,比1年前开发的当前美国模型低约8倍,这将是完全正常,完全符合趋势。

我不会给出一个数字,从前面的要点可以清楚看出,你从表面上看DeepSeek训练成本,它们充其量也符合趋势,甚至可能不符合趋势。

例如,这比原始GPT-4到Claude 3.5 Sonnet推理价格差异10倍要小,3.5 Sonnet是比GPT-4更好的模型。

所有这些都表明,DeepSeek-V3不是一项独特的突破,不是从根本上改变LLM经济的东西,它是持续成本降低曲线上的一个预期点。

这次不同之处在于,第一个展示预期成本降低的公司是中国公司。这种情况从未发生过,具有地缘政治意义。美国公司很快就会效仿,他们不会通过复制DeepSeek来做到这一点,而是他们在实现成本降低的通常趋势。

3 、DeepSeek与美国AI公司,都拥有比他们训练主要模型时更多的资金与芯片。

额外的芯片用于研发以开发模型背后的理念,有时用于训练尚未准备好的大型模型或需多次尝试才能正确。

据报道,我们不能确定它是否属实,DeepSeek拥有50,000 Hopper代芯片,我猜这大约是美国主要AI公司所拥有芯片的2~3倍。

例如,它比xAI Colossus集群少2~3倍。

这50,000 Hopper芯片的成本约为10亿美元,DeepSeek作为一家公司的总支出,与训练单个模型的支出不同,与美国AI实验室并没有太大差别。

值得注意的是,缩放曲线分析有些过于简单化,模型之间存在一定差异,各有优缺点;缩放曲线数字是一个粗略的平均值,忽略很多细节。

我只能谈论Anthropic模型,正如我上面所暗示的,Claude非常擅长编码,拥有精心设计的与人互动的风格,许多人用它来获得个人建议或支持。

在这些任务与其他一些任务上,DeepSeek根本无法与之相比,这些因素没有出现在缩放数字中。

R1是上周发布的模型,它引发公众的强烈关注包括,Nvidia股价下跌约17%,从创新或工程角度看,它远不如V3有趣。

它增加了第二阶段训练,强化学习,如上一节第3点所述,复制OpenAI对o1所做的事情,它们的规模似乎相似,结果也相似。

我们处于扩展曲线的早期阶段,只要从强大的预训练模型开始,多家公司都可以生产这种类型的模型。

在V3的情况下,生产R1可能非常便宜。

我们处于有趣的交叉点,暂时有几家公司可以生产出好的推理模型。

随着每个人都在这些模型的扩展曲线上进一步向上移动,这种情况将迅速不再成立。

出口管制

以上只是我感兴趣主要话题的序言:对华芯片出口管制。

鉴于上述事实,我认为情况如下:

1 、有种趋势是,公司在训练强大的AI模型上投入越来越多资金,曲线会定期发生变化,训练特定水平模型智能的成本会迅速下降。

只是训练越来越智能模型的经济价值是如此之大,以至任何成本收益几乎都会立即被吃掉,它们被重新投入到制作更智能模型中,我们最初计划花费的成本与此相同。

在美国实验室尚未发现的情况下,DeepSeek开发的效率创新,将很快被美国与中国的实验室应用于训练价值数十亿美元的模型。

这些模型的表现,将优于他们之前计划训练的价值数十亿美元的模型,他们仍将花费数十亿美元。这个数字将继续上升,直到我们拥有在几乎所有事情上都比几乎所有人类更聪明的AI。

2 、制造出在几乎所有方面都比人类更聪明的AI,将需数百万个芯片,至少数百亿美元,最有可能在2026~2027年实现。

DeepSeek的发布,不会改变这一点,它们大致处于预期的成本降低曲线上,这一直被计入这些计算中。

3 、意味着2026~2027年,我们可能会陷入两个截然不同的世界。

在美国,多家公司肯定会拥有所需的数百万个芯片,成本高达数百亿美元。

问题是,中国是否也能获得数百万个芯片。

如果可以的话,我们将生活在一个两极世界,美国与中国都拥有强大的AI模型,这将推动科学技术的极速进步,我称之为数据中心的天才国家。

两极世界不一定会无限期保持平衡,即使美国与中国在AI系统方面势均力敌,中国以庞大的工业基础,可以帮助中国在全球舞台上占据主导地位,不仅是在AI领域,而是在所有领域。

如果中国无法获得数百万个芯片,我们将至少暂时生活在单极世界,只有美国及其盟友拥有这些模型。

目前尚不清楚单极世界是否会持续下去,至少存在这样一种可能性,AI系统最终可以帮助制造更智能的AI系统,暂时的领先优势,可以转化为持久的优势。

在这个世界上,美国及其盟友可能会在全球舞台上占据主导地位,保持长期领先。

4 、只有严格执行出口管制,才能阻止中国获得数百万芯片,也是决定我们最终是进入单极世界、还是两极世界最重要的因素。

5 、DeepSeek的表现,并不意味着出口管制失败。

DeepSeek拥有中等~大量芯片,他们能够开发、训练出强大的模型,就不足为奇。

他们的资源限制,并不比美国AI公司严重,出口管制不是促使他们创新的主要因素。

他们只是非常有才华的工程师,展示了为什么中国是美国有力竞争对手。

6 、DeepSeek没有表明管制总是有漏洞。

10亿美元的经济活动可以隐藏,很难隐藏1,000亿美元、甚至100亿美元。100万个芯片,物理上很难走私。

看看DeepSeek目前报道的芯片,也是有启发性的。

SemiAnalysis说法,这是H100、H800、H20的混合体,总计5万。

自发布以来,H100就被出口管制禁止,如果DeepSeek有任何芯片,它们一定不是通过正规渠道来的,Nvidia已声明DeepSeek的进展,完全符合出口管制。

H800在2022年第一轮出口管制中是被允许的,在2023年10月管制更新时被禁止,这些芯片可能是在禁令之前发货。

H20的训练效率较低,采样效率较高,我认为应该禁止,但仍被允许。

所有这些都表明,DeepSeek的AI芯片群中,似乎有相当一部分,是由尚未被禁止、应该被禁止的芯片。

这表明出口管制在发挥作用与适应:漏洞正在被堵塞。

如果我们能够足够快堵塞它们,我们也许能够增加美国领导单极世界的可能性。

鉴于我关注的是出口管制与美国国家安全,我不认为DeepSeek本身是对手,重点不是特别针对他们。

在他们接受采访中,他们看起来像是聪明、好奇的研究人员,只是想开发有用的技术。

出口管制,是我们防止中国追赶美国的最有力工具之一。认为技术越来越强大、性价比越来越高,是解除出口管制理由的想法,完全没有道理。

备注:

本文中,我不会对西方模型的提炼报告持任何立场。在这里,我只是相信DeepSeek的说法,他们按照论文中说的方式进行训练。

我认为DeepSeek模型发布,对Nvidia显然不是坏事,他们股价出现两位数,约17%下跌,令人费解。这次发布,对Nvidia不是坏事的理由,甚至比对AI公司不是坏事的理由,更明显。我在这篇文章中的主要目标,是捍卫出口管制政策。

准确说,它是预训练模型,包含推理范式转变之前,模型中典型的少量RL训练。

它在一些非常狭窄的任务上表现更强。

这是DeepSeek论文中引用的数字,我只是照单全收,并不怀疑这部分内容,只是与美国公司模型训练成本的比较,训练特定模型的成本600万美元与研发总成本高得多之间的区别。我们也不能完全确定600万美元,模型大小是可验证的,其他方面如Token数量不可验证。

在一些采访中,我说他们有50,000 H100,这是对报道的一个微妙错误总结,我想在这里纠正一下。迄今为止,最知名的Hopper芯片是H100,我猜想指的是它,Hopper还包括H800与H20,据报道DeepSeek拥有这三种芯片的混合,总计50,000块。这并没有改变太多情况,但值得纠正。当我谈论出口管制时,我会更多讨论H800与H20。

出口管制,我预计这一差距在下一代集群中会大大扩大。

我怀疑R1受到如此多关注的主要原因之一,是它是第一个向用户展示模型所展现的思路推理的模型,OpenAI的o1仅显示最终答案,DeepSeek表明用户对此很感兴趣。需明确的是,这是一个用户界面选择,与模型本身无关。

中国自己的芯片,短期内无法与美国制造的芯片竞争。


六合年度报告全库会员,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
图片

智能时代专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

图片


智能时代专题第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

图片


智能时代专题第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

图片


六合商业研选付费专题报告,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
图片

元宇宙专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
图片

头号玩家第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
图片

头号玩家第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
图片

智能电动汽车专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买
图片

相关研报:

国家经济、投资的范式变化:从碳基经济到硅基经济,AI寒武纪大爆发时刻

【智能时代】现象级游戏《黑神话:悟空》的思考,游戏二元属性,文化与科技

【智能时代】自动驾驶:汽车iPhone时刻,中国三大流派演化形成中

诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会

人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来

九宇资本赵宇杰:智能时代思考, 认知思维,存在原生、降维、升维三波认知红利

九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI

九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体

人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字

九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿

九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切

【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上

【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付

【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启

【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起

【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆

【首份付费报告+年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横

【重磅】科技体育系列报告合集上线,“科技+体育”深度融合,全方位变革体育运动

【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现

九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切

【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会

九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变

【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集

【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集

【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集

【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变

【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐

九宇资本赵宇杰:对智能电动汽车产业的碎片化思考

九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术

【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓

【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异

【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国

【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆

【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村

六合君3周岁生日,TOP 60篇经典研报重磅推荐

下午茶,互联网世界的三国杀

5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代

新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式

【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇

知识服务+付费+音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期

从APP Store畅销榜4年更替,看内容付费崛起

新三板破万思考:新三板日交易量10年100倍?

九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会

九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会


九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态 |2016 GNEC 新经济新营销峰会


图片

请务必阅读免责声明与风险提示
图片
图片







请到「今天看啥」查看全文