转自:
新智元
今年,马斯克用全球最大AI超算Colossus轰动了整个世界。
这台超算配备了10万张英伟达H100/H200显卡,并预计未来即将扩展到20万张。
自此,AI巨头们倍感压力,数据中心大战火上浇油。巨头们纷纷酝酿着各自的建造计划。
最近,LessWrong网站上发表了一篇博客,根据公开数据对英伟达芯片的产量、各个AI巨头的GPU/TPU数量进行了估计,并展望了芯片的未来。
博客地址:
https://www.lesswrong.com/posts/bdQhzQsHjNrQp7cNS/estimates-of-gpu-or-equivalent-resources-of-large-ai-players#Nvidia_chip_production
截止目前,世界五大科技公司的2024年拥有的算力,以及2025年的预测:
微软有75万-90万块等效H100,明年预计达到250万-310万
谷歌有100万-150万块等效H100,明年预计达到350万-420万
Meta有55万-65万块等效H100,明年预计达到190万-250万
亚马逊有25万-40万块等效H100,明年预计达到130万-160万
xAI有10万块等效H100,明年预计达到55万-100万
可见,他们都在紧锣密鼓地布局自己的算力版图,开展下一代更先进模型的训练。
谷歌Gemini 2.0预计在本月正式上线。此前,马斯克也曾透露,Grok 3也会在年底亮相,具体时间仍旧未知。
他表示,在法律问题数据集上完成训练后,下一代Grok 3将是一个强大的私人律师,能全天候提供服务。
为了追赶劲敌,OpenAI o2模型据称也在训练中了。
毋庸置疑,英伟达早已跃升为数据中心GPU的最大生产商。
11月21日,英伟达发布的2025财年第三季度财报预计,2024自然年的数据中心收入将达1100亿美元,比2023年的420亿美元增长了一倍多,2025年有望突破1730亿美元。
据估计,2025年英伟达销量为650万至700万块GPU,几乎全是最新的Hopper和Blackwell系列。
根据生产比例和产量预期,其中约包括200万块Hopper,500万块Blackwell。
那么,2024年英伟达实际产量是多少?目前,关于这一数据来源较少,有些甚至还对不上。
不过,有估算称2024年第四季度将生产约150万块Hopper GPU。不过这包括一些性能较低的H20芯片,因此是一个上限值。
根据季度间数据中心收入比例推测,全年生产总量可能上限为500万块——这是基于每块H100等效芯片收入约2万美元的假设,而这个单价似乎偏低;如果使用更合理的2.5万美元计算,实际产量应该在400万块左右。
这一数据与年初估计的150万至200万块H100生产量存在差异。目前尚不清楚这一差异是否可以归因于H100与H200的区别、产能扩大或其他因素。
但由于这一估算与收入数据不一致,选择使用更高的数字作为参考。
此前的产量
为了评估目前以及未来谁拥有最多的计算资源,2023年之前的数据对整体格局的影响有限。
这主要是因为GPU性能本身的提升,以及从英伟达的销售数据来看,产量已经实现了大幅增长。
根据估算,微软和Meta在2023年各自获得了约15万块H100 GPU。结合英伟达的数据中心收入,2023年H100及同等级产品的总产量很可能在100万块左右。
截止2024年底,微软、Meta、谷歌、亚马逊、xAI将拥有多少块等效H100?2025年他们又将扩展到多少块GPU/TPU?
从季度报告(10-Q)和年度报告(10-K)中可以看出,英伟达的客户分为「直接客户」和「间接客户」。
其中,46%的收入都是来自直接客户,包括像SMC、HPE、戴尔这样的系统集成商。
他们通过采购GPU,然后组装成服务器,提供给间接客户使用。
间接客户覆盖的范围就非常广泛,比如公有云服务提供商、互联网消费类公司、企业用户、公共部门机构和创业公司都属于这一范畴。
更直白讲,微软、Meta、谷歌、亚马逊、xAI都是「间接客户」(关于他们的拥有GPU相关信息披露相对宽松,但可信度可能较低)。
2024年财年报告中,英伟达披露了,约19%的总收入来自通过系统集成商和分销商采购产品的间接客户。
根据交易规定,他们必须披露收入占比超过10%的客户信息。那么,英伟达的这个数据透露了什么?
要么是,第二大客户规模只有第一大客户的一半,要么是这些数据存在测量误差。
微软、Meta
微软很可能就是英伟达这两年的最大客户,这一判断基于以下几个因素:
首先,微软拥有全球最大的公有云服务平台之一;其次,它是OpenAI的主要算力供应商;再者,与谷歌、亚马逊不同,微软没有大规模部署自己的定制芯片;最后,微软似乎与英伟达建立了特殊的合作关系——他们是首个获得Blackwell GPU的公司。
今年10月,微软Azure已经开始测试32个GB200服务器的机架。
2024年微软的收入占比数据没有2023年那么精确,英伟达第二季度财报(10-Q)中提到上半年为13%,第三季度仅「超过10%」。
这表明,微软在英伟达销售中的份额较2023年有所降低。
另有彭博统计,微软占英伟达收入15%,其次是Meta占13%,亚马逊占6%,谷歌约占6%(不过资料中并未明确指出这些数据具体对应哪些年份)。
去年来自Omdia研究统计,2023年底Meta、微软各有15万块H100,亚马逊、谷歌和甲骨文各5万块,这一数据与彭博数据更为吻合。
不过,Meta曾发文宣称,到2024年底将拥有相当于60万块H100算力。据称这包括35万块 H100,剩余部分很可能是H200,以及少量将在最后一个季度交付的Blackwell芯片。
如果假设这60万的数字准确无误,并结合收入占比进行推算,便可以更准确地估计微软的可用算力。
微软预计将比Meta高出25%到50%,也就是相当于75万—90万块等效H100算力。
谷歌、亚马逊
仅从英伟达收入的贡献来看,亚马逊、谷歌无疑是落后于微软Meta。
然而,这两家公司的情况有着显著差异。
谷歌已经拥有大量自研的定制TPU,这是内部工作负载的主要计算芯片。
去年12月,谷歌推出了下一代迄今为止最强大的AI加速器TPU v5p。
Semianalysis在2023年底一篇报道中指出,谷歌是唯一一家拥有出色自研芯片的公司。
谷歌在低成本、高性能且可靠的大规模AI部署方面的能力几乎无人能及,是全球算力最丰富的企业。
而且,谷歌在基础设施上的投入,只会越来越多。2024年第三季度财报估计,AI支出为130亿美元,「大部分」用在搭建技术基础设施,其中其中60%是服务器(GPU/TPU)。
大部分或许意味着70-110亿美元,其中在TPU/GPU服务器上预估耗资45-70亿美元。
按照TPU对GPU支出2:1的估算,并保守假设TPU的每美元性能与微软的GPU支出相当,预计到2024年底谷歌将拥有相当于100万到150万块等效H100算力。
相比之下,亚马逊内部AI工作负载规模很可能小得多。
他们持有相当数量的英伟达芯片,主要是为了满足通过其云平台提供的外部GPU需求,尤其是为Anthropic提供算力需求。
毕竟,亚马逊和微软一样,都是金主爸爸,负责为OpenAI劲敌提供充足算力。
另一方面,亚马逊虽也有自研的Trainium和Inferentia芯片,但他们在这方面的起步比谷歌的TPU晚得多。
这些芯片似乎远落后于业界最先进水平,他们甚至提供高达1.1亿美元的免费额度来吸引用户尝试,这表明目前的市场接受度并不理想。
在2024年第三季度财报电话会议上,CEO Andy Jassy在谈到Trainium2时表示,这些芯片获得了巨大的市场兴趣,我们已多次与制造合作伙伴协商,大幅提高原定的生产计划。
Semianalysis报道指出,「根据我们已知数据,微软和谷歌于2024年在AI基础设施上的投资计划,大幅领先亚马逊部署的算力」。
这些芯片换算成等效H100并不明确,关于Trainium/Trainium2芯片的具体数量也难以获得,仅知道在上述免费额度计划中提供了4万块。
xAI
今年,xAI在基础设施搭建中,最为标志性事件便是——122天建成了10万块H100组成的世界最大超算。
而且,这一规模还在不断扩展中。马斯克预告了未来将扩展到20万块由H100/H200组成的超算。
据称,xAI超算目前似乎在站点供电方面遇到了一些问题。
2025年Blackwell芯片预测
最新2024 AI现状报告对Blackwell采购量进行了估算:
大型云计算公司正在大规模采购GB200系统:微软介于70万到140万块之间,谷歌40万块,AWS 36万块。据传OpenAI独自拥有至少40万块GB200。
如果将微软GB200预估值设为100万块,那么谷歌、AWS这些数字与它们在英伟达采购中,相对于微软的比例是相符的。
这也使得微软占英伟达总收入的12%,与2024年其在英伟达收入份额的小幅下降趋势一致。
该报告虽然没有给出Meta的具体估计数字,但Meta预计明年人工智能相关基础设施支出将显著加速,这表明其在英伟达支出中将继续保持高份额。
lesswrong预计在2025年,Meta的支出规模将维持在微软支出的约80%水平。
虽然没有提及xAI,但马斯克宣称,将在2025年夏天部署一个有30万块Blackwell芯片的运算集群。
虑到马斯克一贯的夸张风格,更为合理的一个估计是,到2025年底他们可能实际拥有20万—40万块芯片。
那么,一块B200相当于多少块H100?这个问题对于评估算力增长至关重要。
就训练而言,性能预计飙升(截至2024年11月)2.2倍。英伟达发布当天,给出的数据称,两个B200组成的GB200,其性能是H100的7倍,训练速度是H100的4倍。