专栏名称: AI领域技术栈
人工智能领域技术:计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法
目录
相关文章推荐
51好读  ›  专栏  ›  AI领域技术栈

全球AI算力竞赛白热化:五大巨头GPU总量曝光,2025年等效H100或超1240万块!

AI领域技术栈  · 公众号  ·  · 2024-12-03 13:11

正文

请到「今天看啥」查看全文


在科技日新月异的今天,人工智能(AI)已成为推动社会进步的重要力量。而在这场AI革命中,算力作为核心驱动力,正成为各大科技巨头竞相追逐的焦点。近日,一篇关于全球五大AI巨头GPU总量的报道引发了广泛关注,据估算,到2025年,这些巨头的等效H100 GPU总量或将超过1240万块,标志着全球AI算力竞赛已进入白热化阶段。

马斯克轰动全球,AI巨头倍感压力

今年,特斯拉CEO马斯克凭借全球最大AI超算Colossus成功轰动了整个世界。这台超算配备了惊人的10万张英伟达H100/H200显卡,并计划在未来扩展到20万张。Colossus的亮相,不仅展示了马斯克在AI领域的雄心壮志,也给其他AI巨头带来了前所未有的压力。

面对马斯克的强势崛起,微软、谷歌、Meta、亚马逊等科技巨头纷纷加速布局自己的算力版图,以期在下一代更先进模型的训练中占据先机。据LessWrong网站上发表的一篇博客估算,截止目前,这五大科技公司在2024年拥有的算力以及2025年的预测数据令人咋舌。

五大巨头算力比拼,英伟达稳坐霸主地位

在这场算力大战中,英伟达凭借其强大的GPU技术稳坐霸主地位。据博客估算,微软在2024年将拥有75万-90万块等效H100 GPU,到2025年这一数字将激增至250万-310万;谷歌则更为强劲,预计2024年将拥有100万-150万块等效H100 GPU,2025年更是将达到350万-420万;Meta和亚马逊虽然稍逊一筹,但也在紧追不舍,分别预计将在2025年拥有190万-250万和130万-160万块等效H100 GPU。而作为新入局者的xAI,虽然目前仅有10万块等效H100 GPU,但其增长速度惊人,预计2025年将达到55万-100万块。

英伟达作为这场算力竞赛的受益者,其数据中心GPU的销量和收入均实现了大幅增长。据英伟达发布的2025财年第三季度财报预计,2024自然年的数据中心收入将达1100亿美元,比2023年的420亿美元增长了一倍多,2025年有望突破1730亿美元。而据估算,2025年英伟达GPU的销量将达到650万至700万块,几乎全是最新的Hopper和Blackwell系列。

博客地址:
https://www.lesswrong.com/posts/bdQhzQsHjNrQp7cNS/estimates-of-gpu-or-equivalent-resources-of-large-ai-players#Nvidia_chip_production

巨头们竞相布局,自研芯片成趋势

在这场算力竞赛中,各大巨头不仅竞相采购英伟达的GPU,还纷纷开始自研芯片,以更好地满足自己的算力需求。谷歌作为其中的佼佼者,已经拥有大量自研的定制TPU,这是其内部工作负载的主要计算芯片。去年12月,谷歌推出了下一代迄今为止最强大的AI加速器TPU v5p,进一步巩固了其在自研芯片领域的领先地位。
相比之下,亚马逊的自研芯片之路则显得有些坎坷。虽然亚马逊也推出了Trainium和Inferentia等自研芯片,但这些芯片似乎远落后于业界最先进水平。不过,今年年中,亚马逊定制芯片似乎出现了转机,CEO Andy Jassy在谈到Trainium2时表示,这些芯片获得了巨大的市场兴趣,并计划大幅提高原定的生产计划。

而微软则似乎与英伟达建立了特殊的合作关系,成为首个获得Blackwell GPU的公司。此外,微软还拥有全球最大的公有云服务平台之一,并是OpenAI的主要算力供应商。这些因素使得微软在算力竞赛中占据了一定的优势。

算力将用在哪?巨头们训练模型算力揭秘

在了解了各大巨头的算力总量后,我们不禁要问:这些算力将用在哪?事实上,这些算力主要用于训练AI模型。以下将揭秘OpenAI、谷歌、Anthropic、Meta和xAI等巨头在训练模型方面的算力使用情况。
OpenAI作为AI领域的佼佼者,其训练成本一直居高不下。据估算,2024年OpenAI的训练成本预计达30亿美元,推理成本为40亿美元。微软向OpenAI提供了40万块GB200 GPU用于支持其训练,这使得OpenAI的训练能力远超其他竞争对手。
而谷歌则凭借其强大的自研TPU和庞大的算力资源,在训练模型方面也取得了显著成果。其Gemini Ultra 1.0模型使用了约为GPT-4的2.5倍的计算资源,发布时间却晚了9个月。这表明谷歌在算力利用方面的高效性。
相比之下,Meta和Anthropic在训练模型方面的算力使用则显得较为保守。Meta分配给前沿模型的资源相较OpenAI和谷歌更少,而Anthropic则主要依赖于AWS提供的算力资源。不过,尽管资源有限,但这两家公司在前沿模型上的竞争力依然不容小觑。

而xAI作为新入局者,其在训练模型方面的算力使用情况也备受关注。据报道,xAI使用了2万块H100训练Grok 2,并计划用10万块H100训练Grok 3。这一规模虽然不及OpenAI和谷歌,但也足以使其在AI领域占据一席之地。

结语:算力竞赛永无止境,未来充满挑战与机遇

在这场全球AI算力竞赛中,各大巨头竞相追逐,不断刷新着算力的新高度。然而,算力竞赛永无止境,未来依然充满挑战与机遇。随着技术的不断进步和应用场景的不断拓展,AI算力需求将持续增长。而如何更好地利用算力资源、提高算力利用效率、降低算力成本将成为各大巨头未来需要面对的重要课题。

在这场算力大战中,我们期待着更多创新技术的涌现和更多优秀AI模型的诞生。同时,我们也希望各大巨头能够在竞争与合作中共同推动AI技术的发展和应用落地,为人类社会的进步贡献更多的智慧和力量。

关注我们,一起探索AI的无限可能!🚀✨



MORE | 延伸阅读








请到「今天看啥」查看全文