明敏 发自 凹非寺
量子位 | 公众号 QbitAI
什么?H20都变抢手货,涨价10万那种?!
最近有市场消息称,原本不受青睐的英伟达H20咨询量
暴涨几十倍
,8卡H20机器的价格也较年前
涨价十万
(单价110万左右)
,有从业者预测“价格不会下来了”。
要知道,H20是中国特供版,显存带宽等方面明显受限,性能及性价比都远不如H100。
如今市场风向有了变化,业内人士爆料某互联网大厂已经下单10-20万卡,整体市场H20的订单量都大幅增加。
背后原因,直观来看是DeepSeek热潮。更深入则是——
AI推理需求爆了。
H20尽管性能只有H100的1/10,但是做推理绰绰有余,显存够、适合跑大规模参数模型,价格还便宜更多。
AI Infra厂商PPIO派欧云联合创始人兼CEO姚欣向量子位透露,去年年底H20还没有这么抢手,但是到了春节后又是另一番景象,AI算力供需正在极速变化。
与之相对应,英伟达CEO黄仁勋在最新一季财报发布后也表示,当前AI模型所需的算力是此前模型的
100倍
,带动算力需求增加的关键是
AI推理
。
见微知著,AI算力行业风向已经发生变化,新的机遇也已经在酝酿。
DeepSeek重构算力逻辑,推理需求面临爆发
先一句话总结,DeepSeek以算法创新重构AI算力逻辑,推动AI计算从“训练为主”向“推理为主”范式转变,AI推理需求因此迎来全面爆发。
首先来看DeepSeek做了什么?
它今年开源的两款模型,在架构和算法上实现了训练推理效率提升。
第一
,DeepSeek-V3采用MoE
(混合专家模型)
架构,在AI Infra层面提出大规模跨节点专家并行
(Expert Parallelism/EP)
。
EP使得batch size大大增加,从而提高GPU矩阵乘法的效率,提高吞吐。专家模型分散在不同的GPU上,每个GPU只需要计算很少的专家
(因此更少的访存需求)
,从而降低延迟。
同时,DeepSeek-V3的专家模型数量从上一版的160个增加到256个。“大量小专家”模型架构能进一步降低单次推理时激活的参数量。
第二
,
DeepSeek-R1-Zero迈出利用强化学习提升语言模型推理能力第一步。
在没有任何监督数据的情况下,通过纯强化学习过程进行自我进化,从而获得推理能力。
DeepSeek-R1
采用FP8混合精度训练框架和动态学习率调度器等技术,将训练成本降低到560万美元
,远低于OpenAI。
同时还能将模型能力蒸馏到更小的密集模型中。
这种低成本模式使得模型能够更广泛应用于AI推理场景。
其次,为啥DeepSeek可以成为推动算力趋势转变的导火索?
从大模型整体发展进程来看,预训练Scaling Law已经放缓,推理Scaling Law成为新方向。
推理Scaling Law的核心是通过增加推理时计算资源
(如推理时间、算力)
来提升模型性能。以o1为代表的推理模型都是通过在推理阶段引入多步骤的思维链和强化学习,显著提升了推理能力,这导致推理计算需求的大幅增加。
o1模型固然好用,但是却不开源。DeepSeek正是为此而来,
它们为全行业提供了一个性能优秀的开源可替代方案
,瞬间改变整体局面。
凭借低成本、高性能的特点,DeepSeek引发全社会范围热潮。不仅是普通人能够免费用,大中小企业也能将DeepSeek系列模型与自身业务融合。
尤其是ToB领域,优质开源模型解决了企业在数据维度的顾虑——
没有人愿意将自己或用户的数据免费贡献给闭源模型做训练。
同时DeepSeek暂时没有将模型商业化的考虑,更接近真正意义上的开源。这也点燃了企业拥抱AI的热情,更加速了AI落地进程,推理需求空前爆发。
由此,量变引发质变,AI计算的需求以及底层逻辑发生变化。
相较于预训练,推理计算在硬件门槛、集群建设等方面要求都更低。
超大规模集群不再是必需,小集群甚至单机,将是未来AI Infra的主要特性。
PPIO姚欣结合DeepSeek一系列动向以及行业现状给出分析,DeepSeek提出的跨节点专家并行系统,已经一定程度上体现出了
分布式
的思想,它把不常用的专家模型集中到一台机器上,常用的专家模型分配更多算力。由此形成调度上的平衡。
这进一步扭转了算力行业的深层逻辑。原本大家都在期待英伟达如何从硬件层面带来更好的推理性能,如今通过EP的方式,可以用H800跑出H100的性能。
也解释了为何DeepSeek可以影响英伟达的股价。因为通过系统优化,底层硬件的护城河没有那么深了。
由此看到,H20这样原本不被大厂推崇的推理计算卡开始抢手。甚至更进一步,英伟达本身的地位也会受到影响。