专栏名称: 锦缎
为上市公司提供知识产权解决方案
目录
相关文章推荐
中国知识产权报  ·  傅国涛:触碰“绿色脉搏” 促进专利运用 ·  2 天前  
知识产权那点事  ·  江苏首例、全国第二例AIGC著作权侵权案件 ·  4 天前  
51好读  ›  专栏  ›  锦缎

DeepSeek掀起算力革命,英伟达摇挑战加剧,ASIC芯片悄然崛起

锦缎  · 公众号  · 知识产权  · 2025-03-11 07:48

正文

编者按:芯事重重“算力经济学”系列研究,聚焦算力、成本相关话题的技术分析、产业穿透,本期聚焦ASIC芯片自研与产业链研究。本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。

作者:由我、苏扬
编辑:郑可君

DeepSeek带动推理需求爆发,英伟达的“算力霸权”被撕开一道口子,一个新世界的大门逐渐打开—— 由ASIC芯片主导的算力革命,正从静默走向喧嚣。

日前,芯流智库援引知情人士的消息,称DeepSeek正在筹备AI芯片自研。相比这个后起之秀,国内大厂如阿里、百度、字节们更早就跨过了“自研”的大门。

大洋彼岸,OpenAI自研芯片的新进展也在年初释出,外媒披露博通为其定制的首款芯片几个月内将在台积电流片。

此前更是一度传出Sam Altman计划筹集70000亿美元打造“芯片帝国”,设计与制造通吃。此外,谷歌、亚马逊、微软、Meta也都先后加入了这场“自研热潮”。

一个明显的信号是——无论DeepSeek、OpenAI,还是中国公司和硅谷大厂,谁都不希望在算力时代掉队。而ASIC芯片,可能会成为他们跨越新世界大门的入场券。

这会不会“杀死”英伟达?或者,会不会“再造”第二个英伟达?现在还没有答案。

不过可以明确的是,这场轰轰烈烈的“自研浪潮”,其上游的产业链企业已经“春江水暖鸭先知”,例如给各家大厂提供设计定制服务的博通,业绩已经“起飞”: 2024年AI业务收入同比240%,达到37亿美元; 2025Q1AI业务营收41亿美元,同比增77%; 其中80%来自ASIC芯片设计。
在博通的眼里,ASIC芯片这块蛋糕,价值超过900亿美元。


01
从GPU到ASIC,算力经济学走向分水岭

低成本是AI推理爆发的必要条件,与之相对的是—— 通用GPU芯片成了AI爆发的黄金枷锁。

英伟达的H100和A100是大模型训练的绝对王者,甚至连B200、H200也让科技巨头们趋之若鹜。金融时报此前援引Omdia的数据,2024年,英伟达Hopper架构芯片的主要客户包括微软、Meta、Tesla/xAI等,其中微软的订单量达到50万张。

但是,作为通用GPU的绝对统治者,英伟达产品方案其 “硬币的另一面”已逐渐显现:高昂的成本与冗余的能耗。

成本方面,单个H100售价超3万美元,训练千亿参数模型需上万张GPU,再加上网络硬件、存储和安全等后续的投入,总计超5亿美元。根据汇丰的数据,最新一代的GB200 NVL72方案,单机柜超过300万美元,NVL36也在180万美元左右。

可以说, 基于通用GPU的模型训练太贵了,只不过是算力不受限制的硅谷,仍然偏向于“力大砖飞”的叙事,资本支出并未就此减速。 就在日前,马斯克旗下xAI,不久之前公布的Grok-3,训练的服务器规模,已经达到了20万张GPU的规模。

腾讯科技联合硅兔赛跑推出的《两万字详解最全2025 AI关键洞察》一文提到,超大规模数据中心运营商预计2024年资本支出(CapEx)超过 2000亿美元,到2025年这一数字预计将接近2500亿美元,且主要资源都将倾斜给人工智能。

能耗方面,根据SemiAnalysis的测算,10万卡H100集群,总功耗为150MW,每年耗费1.59TWh的电量,按0.078美元/千瓦时计算,每年电费高达1.239亿美元。

对照OpenAI公布的数据,推理阶段GPU的算力利用率仅30%-50%,“边算边等”现象显著,如此低效的性能利用率,在推理时代,确实是大材小用,浪费过于严重。


谷歌此前公布的TPU V4与A100针对不同架构模型的训练速度
性能领先、价格昂贵,效率不佳,外加生态壁垒,过去一年业内都在喊“天下苦英伟达久矣”—— 云厂商逐渐丧失硬件自主权,叠加供应链风险,再加上AMD暂时还“扶不起来”,诸多因素倒逼巨头开始自研ASIC专用芯片。

自此,AI芯片战场,从技术竞赛转向经济性博弈。

正如西南证券的研究结论,“当模型架构进入收敛期,算力投入的每一美元都必须产出可量化的经济收益。”

从北美云厂商最近反馈的进展看,ASIC已体现出一定的替代优势:

● 谷歌:博通为谷歌定制的TPU v5芯片在Llama-3推理场景中,单位算力成本较H100降低70%。

● 亚马逊:3nm制程的AWS Trainium 3,同等算力下能耗仅为通用GPU的1/3,年节省电费超千万美元;据了解,亚马逊Trainium芯片2024年出货量已超50万片。

● 微软:根据IDC数据,微软Azure自研ASIC后,硬件采购成本占比从75%降至58%,摆脱长期被动的议价困境。

作为北美ASIC链的最大受益者,博通这一趋势在数据中愈发显著。

博通2024年AI业务收入37亿美元,同比增240%,其中80%来自ASIC设计服务。2025Q1,其AI业务营收41亿美元,同比增77%,同时预计第二季度AI营收44亿美元,同比增44%。
早在年报期间, 博通指引2027年ASIC收入将大爆发,给市场画了3年之后ASIC芯片将有望达到900亿美元的市场规模这个大饼 。Q1电话会期间,公司再次重申了这一点。
凭借这个大的产业趋势,博通也成为全球继英伟达、台积电之后,第三家市值破1万亿美元的半导体公司,同时也带动了海外对于Marvell、AIchip等公司的关注。

图:市面主流GPU与ASIC算力成本对比 资料来源:西南证券
不过,有一点需要强调—— “ASIC虽好,但也不会杀死GPU”。

微软、谷歌、Meta都在下场自研,但同时又都在抢英伟达B200的首发,这其实说明了双方之间不是直接的竞争关系。

更客观的结论应该是,GPU仍将主导高性能的训练市场,推理场景中由于GPU的通用性仍将是最主要的芯片,但在未来接近4000亿美元的AI芯片蓝海市场中,ASIC的渗透路径已清晰可见。

IDC预测,2024-2026年推理场景中,ASIC占比从15%提升至40%,即最高1600亿美元。

这场变革的终局或许是:ASIC接管80%的推理市场,GPU退守训练和图形领域。真正的赢家将是那些既懂硅片、又懂场景的“双栖玩家”,英伟达显然是其中一员,看好ASIC断然不是唱空英伟达。

而新世界的指南,是去寻找除英伟达之外的双栖玩家,如何掘金ASIC新纪元。


02
ASIC的“手术刀”:非核心模块,通通砍掉

锦缎在《 DeepSeek的隐喻:GPU失其鹿,ASIC、SoC们共逐之 》一文中详解过SoC,而CPU、GPU用户早已耳熟能详,FPGA应用市场小众,最为陌生的当属ASIC。

特性

CPU

GPU

FPGA

ASIC

定制化程度

通用

半通用

半定制化

全定制化

灵活性

成本

较低

较高

功耗

较高

较高

主要优点

通用性最强

计算能力强,生态成熟

灵活强较高

能效最高

主要缺点

并行算力弱

功耗较大,编程难度较大

峰值计算能力弱,编程难度较难

研发时间长,技术风险高

应用场景

较少用于AI

云端训练和推理

云端推理,终端推理

云端训练和推理,终端推理

图:算力芯片对比 资料来源:中泰证券

那么,都说ASIC利好AI推理,究竟它是一个什么样的芯片?

从架构上来说, GPU这样的通用芯片,其局限在于“以一敌百”的设计——需要兼顾图形渲染、科学计算、不同的模型架构等多元需求,导致大量晶体管资源浪费在非核心功能模块。

英伟达GPU最大的特点,就是有众多“小核”,这些“小核”可以类比成猎鹰火箭多台发动机,开发者可以凭借CUDA多年积累的算子库,平稳、高效且灵活地调用这些小核用于并行计算。

但如果下游模型相对确定,计算任务就是相对确定的,不需要那么多小核来保持灵活性,ASIC最底层的原理正是如此,所以也被称为全定制化高算力芯片。

通过 “手术刀式”精准裁剪,仅保留与目标场景强相关的硬件单元,释放出惊人的效率,这在谷歌、亚马逊都已经在产品上得到了验证。


谷歌TPU v5e AI加速器实拍
对于GPU来说,调用它们最好的工具是英伟达的CUDA,而对于ASIC芯片,调用它们的是云厂商自研的算法,这对于软件起家的大厂来说,并不是什么难事:

● 谷歌TPU v4中,95%的晶体管资源用于矩阵乘法单元和向量处理单元,专为神经网络计算优化,而GPU中类似单元的占比不足60%。

● 不同于传统冯·诺依曼架构的“计算-存储”分离模式,ASIC可围绕算法特征定制数据流。例如在博通为Meta定制的推荐系统芯片中,计算单元直接嵌入存储控制器周围,数据移动距离缩短70%,延迟降低至GPU的1/8。

● 针对AI模型中50%-90%的权重稀疏特性,亚马逊Trainium2芯片嵌入稀疏计算引擎,可跳过零值计算环节,理论性能提升300%。

当算法趋于固定,对于确定性的垂直场景,ASIC就是具有天然的优势, ASIC设计的终极目标是让芯片本身成为算法的“物理化身”。

在过去的历史和正在发生的现实中,我们都能够找到ASIC成功的力证,比如矿机芯片。

早期,行业都是用英伟达的GPU挖矿,后期随着挖矿难度提升,电力消耗超过挖矿收益(非常类似现在的推理需求),挖矿专用ASIC芯片爆发。虽然通用性远不如GPU,但矿机ASIC将并行度极致化。

例如,比特大陆的比特币矿机ASIC,同时部署数万个SHA-256哈希计算单元,实现单一算法下的超线性加速,算力密度达到GPU的1000倍以上。不仅专用能力大幅提升,而且能耗实现了系统级节省。

此外,使用ASIC可精简外围电路(如不再需要PCIe接口的复杂协议栈),主板面积减少40%,整机成本下降25%。

低成本、高效率,支持硬件与场景深度咬合,这些ASIC技术内核,天然适配AI产业从“暴力堆算力”到“精细化效率革命”的转型需求。

随着推理时代的到来,ASIC成本优势将重演矿机的历史,实现规模效应下的“死亡交叉”——尽管初期研发成本高昂(单芯片设计费用约5000万美元),但其边际成本下降曲线远陡于通用GPU。

以谷歌TPU v4为例,当 出货量从10万片增至100万片时,单颗成本从3800美元骤降至1200美元,降幅接近70% ,而GPU的成本降幅通常不超过30%。根据产业链最新信息, 谷歌TPU v6预计2025年出货160万片,单片算力较前代提升3倍,ASIC的性价比,还在快速提升

这又引申出一个新的话题,是否所有人都可以涌入自研ASIC大潮中去?这取决于自研成本与需求量。

按照7nm工艺的ASIC推理加速卡来计算,涉及IP授权费用、人力成本、设计工具、掩模板在内的一次流片费用等,量级可能就在亿元的级别,还不包括后期的量产成本。在这方面,大厂更具有资金优势。

目前 ,像谷歌、亚马逊这样的云厂商,因为有成熟的客户体系 ,能够形成研发、销售闭环,自研上拥有先天的优势。

Meta这种企业, 自研的逻辑则在于内部本身就有天量级的算力需求 。今年初,扎克伯格就曾透露,计划在2025年上线约1GW的计算能力,并在年底前拥有超过130万张GPU。






请到「今天看啥」查看全文