专栏名称: 文化纵横
《文化纵横》杂志,倡导文化重建,共同思想未来,精心为您提供深度阅读。
目录
相关文章推荐
科技兽  ·  iPhone SE 4 ... ·  6 小时前  
科技兽  ·  iPhone SE 4 ... ·  6 小时前  
新浪科技  ·  【#比亚迪保险年亏损达1.69亿# ... ·  昨天  
虎嗅APP  ·  梁文锋革了游资的命? ·  昨天  
新浪科技  ·  【#海外460元哪吒2电影票秒售罄#】#哪吒 ... ·  2 天前  
51好读  ›  专栏  ›  文化纵横

“一家供应链公司的市值, 怎么就超过了德国公司的总和?”|文化纵横

文化纵横  · 公众号  · 科技创业 科技媒体  · 2024-06-23 17:21

正文

↓ 进入公众号 点击右上角“...”设 置星标

防止内容走丢
《文化纵横》2024年6月新刊发行
点击上图或文末左下角 阅读原文 查阅
文化纵横微信: whzh_21bcr
投稿邮箱: [email protected]
《文化纵横》邮发代号: 80-942

✪ Jai Vipra & Sarah Myers West
AI Now Institute
✪ 慧诺 (编译) | 文化纵横新媒体

【导读】 英伟达公司股价在2023年飙升240%后,2024年又大幅上涨170%,并在本周首次成为全球市值最高的上市公司。这一股价的狂飙突显了近年来人工智能领域的投资热潮。 自2024年起,人工智能(AI)应用如ChatGPT、Claude和Sora等对算力的需求,以及AI大模型迭代训练所需的算力,都在急剧增加,这不仅推动了全球AI数据中心的快速发展,也极大地提升了对英伟达GPU等AI服务器芯片的需求。在芯片制造的紧张情绪之后,GPU的角色究竟是什么?在当前硬件投资的热潮中,人工智能的政治经济格局预计会如何变化?

本文指出,“算力”作为现代AI的物质基础,它决定了谁能开发AI、开发何种AI,以及谁能从中获利。 如今,全球“算力”面临两大可持续性问题:一是稀缺性, 特别是高效训练大规模AI模型所需的顶级芯片(如英伟达公司的H100和A100型号GPU); 另一个是对环境的影响 (芯片生产和数据/“算力”中心的高能耗)。随着AI对算力的巨大需求(硬件、能源和资金),行业门槛与行业集中度已显著提升。

通过分析“算力”产业的全供应链, 作者分析, AI的“大模型”路线短期 难以改变: 其不仅与现有硬件兼容,还能回报在硬件上投资巨大的云服务提供商(亚马逊、微软和谷歌等)及供应商(台积电、英伟达和AMD等)。 为实现公司利益最大化,“大厂”有强烈动机通过推动大规模的AI项目,延续企业主导的“生态系统”,并巩固云计算基础设施的主导地位。 此外,面对英伟达在人工智能芯片领域的优势,云服务商也在加大自研力度,实现补充与替代。

作者指出,在行业和地缘竞争背景下,供应链格局也可能改变。首先,出于被云服务“大厂”锁死的担忧,许多人工智能公司开始拒绝使用其提供的芯片,而英伟达也在产业链上下游投资以搭建独立的服务体系;其次,由于“算力”已成为国家竞争的战略资产,欧美主要国家也计划出台相关法案,(通过反垄断等手段)推动企业互相开放数据和计算资源,扶持更多新兴企业。

本文为文化纵横新媒体原创编译系列“关键产业与关键资源之变”之八,摘译自美国人工智能研究机构AI Now Institute专题报告《算力与人工智能》 (Computational Power and AI) 。小标题为编者自拟,文章仅代表作者观点,供读者参考辨析。


文化纵横新媒体·国际观察

2023年第21期  总第193期


算力与人工智能
计算能力 (“算力”) 是构建大规模人工智能的核心要素。随着人工智能的快速发展,算力(以及数据和熟练劳动力)成为关键资源。然而,算力的供应链被少数几家公司严重垄断。
行业集中度影响技术开发人员如何制造和使用算力。我们将展示,即使是最大的人工智能公司,在算力稀缺时也会受到影响。硅谷顶级风投公司a16z的一份报告称, 算力是“当今推动行业发展的主导因素”, 公司已将“超过80%的总资本用于计算资源”。
这种集中度还促使云基础设施提供商采取措施保护其市场主导地位,争先发布尚未准备好广泛使用的产品,并鼓励客户锁定在其云生态系统中。
理解算力基础设施对人工智能政治经济的影响至关重要: 它决定了谁能开发人工智能、开发何种人工智能以及谁能从中获利。它勾勒了科技行业的集中度,激发了人工智能公司间的激烈竞争 ,并深刻影响了人工智能的环境足迹。主导公司能够从依赖其服务的消费者和小企业那里获取租金,并在系统因单点故障而失灵时造成系统性危害。最令人担忧的是,它扩大了这些公司在经济和政治上的权力,巩固了其对科技行业的控制。
此外,政策干预 (如产业政策、出口管制和反垄断执法) 也对谁有权使用算力、以何种成本和条件使用算力产生深远影响。但无论如何,了解人工智能对公众究竟有何影响,物质基础是重要的切入点。本文则提供了一个关键维度的入门知识:算力。
什么是“算力”?它为什么重要?
“算力”一词有时指执行特定任务 (如训练人工智能AI模型) 所需的计算次数,有时仅指代硬件 (如芯片) 。通常, 我们用“算力”来指包含硬件和软件的整体系统。
AI模型的最新进展得益于深度学习,这是一种利用大量数据构建理解层的机器学习技术。深度学习通过使用能快速并行执行大量计算的高端计算资源,推动了功能强大的模型开发。AI研究人员普遍认为,扩大规模是提高深度学习模型训练准确性和性能的关键。这导致对计算能力的需求呈指数级增长,人们担心这种增长速度难以持续。
这一趋势已有历史验证:在深度学习(Deep Learning)时代前, AI模型使用的计算量大约每21.3个月翻一番;自2010年深度学习流行以来,这一时间缩短至5.7个月。自2015年以来,大规模模型的计算量约每9.9个月翻一番,而常规模型则每5.7个月翻一番。
计算资源的可持续性面临两大问题: 一是稀缺性 ,特别是高效训练大规模AI模型所需的顶级芯片 (如英伟达的H100和A100) 。由于供应有限,企业采用非常规手段,如抵押GPU筹资、成立GPU租赁组织,甚至国家购买GPU以获得竞争优势。计算能力的稀缺性不仅是公共政策的产物,也是影响该领域发展的重要因素,使云基础设施公司 (如亚马逊云、谷歌云、微软云) 以及芯片公司 (如英伟达、台积电) 占据主导地位。
二是大规模计算对环境的影响。 芯片生产的污染和耗能巨大。例如,台积电一家公司就占台湾能耗的4.8%, 超过台北市的能耗。 此外,运行数据中心对环境的成本同样高,据估计,每次向ChatGPT提问都消耗相当于一瓶水的资源。
未来的研究方向是否会转向更小的模型?要回答这个问题,需要了解为何大模型流行以及受益者。“硬件彩票”概念描述了某研究想法因最适合现有硬件和软件而获胜的现象。 硬件和软件决定了研究方向,而非相反。 深度学习的神经网络最初在硬件方面过于超前,因此长期被忽视。只有当神经网络研究与海量数据、 大型科技公司积累的计算资源及商业监控引入的激励结构结合 ,AI系统的兴趣才激增。随着计算专业化程度提高,偏离主流硬件兼容理念的成本也会增加。
换句话说,如今的“大模型”不仅与现有硬件兼容,还能回报在硬件上投资巨大的云基础设施提供商。由于获取GPU和网络及建设数据中心基础设施的前期成本高昂, 超大规模提供商 (如谷歌云、微软云和亚马逊云) 有强烈动机通过支持大规模AI、延续企业生态系统并巩固云计算领域的主导地位,最大化自己的投资。
算力需求如何影响人工智能发展?
计算资源的稀缺性已经成为大规模AI模型训练和产品部署的主要瓶颈。马斯克在2023年5月曾公开发言,“目前, GPU的获取难度比毒品还高。 ”这种稀缺使得掌握这些资源的公司,如台积电、英伟达,以及谷歌、微软和亚马逊,拥有巨大的市场力量。这些公司还通过其庞大的平台生态系统获取数据,并在大规模人工智能领域拥有先发优势。
(一)初创企业必须“抱大腿”
对于初创企业来说,即使他们希望构建面向消费者的商业产品 (而 非专注大模型研发) ,对计算资源的需求依然强劲。 为了进入这个领域,小公司必须获取计算积分或与大型科技公司签订合同。 此外,他们可以选择与提供托管模型服务的公司合作,如OpenAI和Hugging Face,这些公司分别与微软和亚马逊建立了合作伙伴关系; 谷歌也声称70%的通用人工智能 (AGI) 初创公司使用其云设施。 构建这些资源的成本过高,启动成本高昂、计算堆栈缺乏互操作性,以及计算基础设施关键组件的供应链存在瓶颈。计算成本和专业人才的需求也在不断增长。
(二)大型科技公司也缺GPU
计算资源的瓶颈甚至影响到最大的AI公司。微软在其年度报告中将“GPU的可用性”列为风险因素之一,并指出其数据中心依赖于许可、可建设土地、可预测能源、网络供应和服务器的可用性。微软现在正在限制其硬件的使用,并考虑与甲骨文合作,共享AI服务器以解决GPU短缺问题。其他主要云基础设施提供商的客户也面临着需求增加的压力,GPU的延迟和稀缺进一步说明了高度集中的行业带来的不利影响。
OpenAI在资金和计算需求的压力下,从非营利组织转变为营利性有限合伙企业。OpenAI首席执行官奥特曼 (Sam Altman) 表示, 对大量计算的需求是公司许多决策的关键因素,推动其接受了微软投资100亿美元的要求。 奥特曼在国会听证会上表示:“我们的GPU非常短缺,其他使用该工具的人越少越好。”谷歌也整合了其DeepMind和“谷歌大脑”团队,英伟达的市值迅速上升,CoreWeave公司通过抵押其英伟达H100芯片筹集了23亿美元的债务,进一步证实了这一点。
计算资源稀缺且价格昂贵,即使在拥有计算资源的云基础设施公司中也存在需求。这些因素激励着控制关键瓶颈的公司通过各种方法 (包括政策倡导) 巩固其市场主导地位。
(三)算力可以影响地缘政治
稀缺的算力甚至可以成为地缘政治的核心。 各国将其作为工业政策的关键,采取措施遏制对手进步。事实上,半导体产业始于20世纪60年代,成为美国政治经济的核心。美国的产业政策通过外交压力和国家补贴等措施维持其在半导体制造业的主导地位。 然而,20世纪90年代后,美国减少了投资,这使得台积电和荷兰的ASML崛起。
当前的中美人工智能“军备竞赛”,也将计算资源放在前沿。美国出口管制限制中国获取先进计算能力,覆盖了芯片制造整个供应链。 比如,英伟达被禁止在中国销售其顶级芯片,只能提供降级版本。荷兰的ASML也面临出口管制,限制了其在中国的设备维护和修理。
计算资源也是各国人工智能战略的重要组成部分。各国政府投入巨资提升学术研究和本土初创企业的计算能力。尽管如此, 这些投资仍难以与行业巨头匹敌。 对算力不平衡的担忧推动了美国“国家人工智能研究资源” (NAIRR) 的设立,试图整合云服务商资源。
(四)我们究竟需要多少算力?
数量非常庞大。 “大模型”的计算量比同期其他AI模型高约100倍。 如果模型规模继续按照当前的趋势增长,有人估计到2037年, 计算成本将超过整个美国GDP。 尽管如此,AI模型仍在变得更大,因为规模与能力息息相关。大型AI模型市场的竞争仍然集中在模型的规模上。虽然数据质量和训练方法对模型性能有重要影响,但要在这一市场竞争,最终需要构建比现有最先进模型更大的模型。
那些构建特定用例AI系统的人不一定需要从头开始构建新模型,但他们会依赖托管模型或访问API,这些通常通过主要云基础设施提供商提供。
计算成本可以预见地高。例如, GPT-3的最终训练运行估计花费50万至460万美元,训练GPT-4的成本可能在5000万美元左右,整体训练成本可能超过1亿美元,因为在最终训练之前需要进行大量试验。
算力是训练和运行模型所必需的。GPT-4的一次训练运行需要大量计算,而每次ChatGPT生成响应时也需要计算 (也被称为“推理”) 。每次推理的成本很低,但随着推理次数的增加,总成本可能超过训练成本。经合组织 (OECD) 的一份报告引用了一家大型云计算提供商的估计, 其企业客户将3-4.5%的总计算基础设施支出用于培训,4-4.5%用于“推理”。 找到有关推理成本的准确数字具有挑战性,因为公司将其视为竞争机密信息。本节涉及数字不包括能源和运营成本,这些成本也可能相当可观。
人工智能涉及什么样的硬件?
构建大规模人工智能系统时,硬件类型至关重要。人工智能的计算需求增长速度往往超过硬件性能的提升速度。随着大规模人工智能的成功, 对先进芯片 (如英伟达的H100 GPU) 需求增加,使用非顶尖芯片会显著增加训练时间和能耗,进而提高成本。顶尖芯片的性价比是普通CPU的10-1000倍 ,是旧版人工智能芯片的33倍。
AI所需的专用计算硬件如下:
  • 图形处理单元 (GPU) :GPU最初设计用于图像处理和计算机图形,擅长并行处理小任务,因此非常适合构建AI系统。相比中央处理器 (CPU) ,GPU可以并行执行计算,牺牲一些精度以提高效率。GPU的并行性和内存架构对AI非常有利,某些GPU可以在单个芯片上存储整个大型AI模型。GPU主要用于训练阶段,有时也用于推理。
  • 现场可编程门阵列 (FPGA) :FGPA可以加速数据采集和AI工作流程,在某些任务上 (如语音识别和自然语言处理) 比GPU更具优势。尽管FPGA编码耗时,它们通常用于推理。
  • 专用集成电路 (ASIC) :ASIC是专为特定应用设计的集成电路,谷歌的张量处理单元 (TPU) 有时被归类为ASIC。目前,ASIC的软件层尚不完善。

英伟达的H100芯片现已成为计算效率和性价比的行业标准,特别适合训练大型人工智能系统。 H100的训练速度比A100快9倍,推理速度快30倍。然而,这些系统对大多数人来说仍然昂贵:一个8-GPUH100服务器设置的成本约为30万至40万美元。
目前,拥有H100使用权的公司在大型AI系统方面具有优势,但供应有限,仅台积电能制造H100。英伟达将其大部分分配给规模较小的云计算公司,限制了试图用自有芯片竞争的公司 (如亚马逊、谷歌和微软) 的分配。例如, 英伟达在2022年11月向前加密采矿公司CoreWeave提供了H100的早期使用权,并随后投资该公司。
拥有H100使用权的公司名单有限,仅包括微软云 (及其部分客户如OpenAI、InflectionAI) 、谷歌云、亚马逊云、甲骨文、Mistral AI、Anthropic、CoreWeave、Lambda实验室和风险投资公司C2Investments等。
人工智能硬件的供应链
全球半导体市场规模达1.4万亿美元,由几家厂商主导, 而顶尖的AI芯片市场集中度更高。 供应链存在一些瓶颈,部分原因是生产成本高和专业知识匮乏。芯片设计在电子设计自动化软件的帮助下进行,然后在制造厂生产,最后进行组装、测试和封装。
(一)芯片设计
设计高效的芯片是人工智能计算的关键。主要设计商有英特尔、AMD和英伟达 ;一些云基础设施提供商也在设计或计划设计自己的芯片。例如,谷歌设计的TPU芯片用于其Gemini模型,Anthropic和Midjourney也使用TPU。微软计划在2024年发布专有芯片Athena,亚马逊云也有自己的推理和训练芯片。
芯片设计的进步可以用“节点”来描述,代表晶体管密度的提升。 截至2020年,“领先节点”为5nm,三星和台积电正在生产3nm芯片,下一节点预计将缩小至2nm。
截至目前, 英伟达在AI芯片领域无可争议地处于市场领导地位,并且利润率很高。 OpenAI使用英伟达的A100训练ChatGPT,计划将最新的H100用于微软云的超级计算机。Meta也使用H100在其Grand Teton AI超级计算机中,预计明年OpenAI的ChatGPT将为英伟达带来120亿美元的收入。英伟达表示,与台积电的牢固关系对公司的成功至关重要。
AMD在消费级GPU市场占有20%的份额 ,其芯片MI200在许多指标上优于A100,并且内存带宽与H100相当。此外,AMD收购了FPGA制造商Xilinx,在“推理”领域有一定优势。尽管AMD落后于英伟达,但在高需求环境中,AMD芯片可能成为一个有吸引力的替代品。相比之下,英特尔已经落后了,其Gaudi2芯片性能优于A100,但不及H100。
然而,英伟达的新竞争对手不断涌现,如Cerebras和Graphcore,这些公司正在开发新技术以挑战英伟达的市场地位。然而,这些新技术成本较高,对于大规模AI模型制造商可能更具成本效益。
英伟达的优势之一在于其软件产品CUDA (Compute Unified Device Architecture) 使程序员能够将英伟达的GPU用于广泛用途,并建立了一个活跃的开发者生态系统。 美国的出口限制使得中国无法获得CUDA ,为其人工智能发展造成了难以克服的障碍。
尽管英伟达的软件主导地位逐渐受到挑战,如OpenAI的Triton和脸书母公司 (Meta) 的PyTorch,但英伟达仍在硬件和总运营成本方面占据主导地位。H100拥有定制的张量引擎,加快了训练和推理速度。 英伟达的规模和再投资能力使其能够创建自定义的行业特定库,进一步巩固其市场领先地位。
(二)芯片制造
芯片制造的进入成本极高。 随着晶体管尺寸的减小,半导体行业的集中度也在增加。市场上的主要厂商包括台积电 (占收入的70-80%) 、三星和英特尔 (这两家公司都落后于台积电约一年) 。2019年,下一代芯片的生产成本估计为3000万至8000万美元。2017年,建造芯片制造厂的成本约为70亿美元,如今已超过200亿美元。
台积电是唯一能同时生产英伟达和AMD高端芯片的公司 ,也是唯一生产英特尔ArcGPU的公司。它能够生产领先的3nm和2nm芯片,因此能决定芯片生产的优先级。 任何与英伟达竞争的公司 (如谷歌、微软和亚马逊) 都必须面对台积电在大规模芯片制造方面的优势。
制造成本每年增长11%,设计成本每年增长24%,而半导体市场每年仅增长7%。 高固定成本带来了高进入壁垒,但也可能导致即使是自然垄断也难以收回成本。此外,荷兰公司ASML是唯一能生产领先节点芯片光刻设备的公司,进一步加剧了垄断。
(三)芯片组装、测试和封装(ATP)
ATP包括将晶圆切割成芯片并添加电线连接器,过程可以在内部进行或外包。ATP工作通常外包给包括中国在内的发展中国家, 中国在集成组装方面尤其具有竞争力。 尽管台积电根据美国“芯片法案”在亚利桑那州建厂,但该工厂生产的芯片仍需运往台湾封装,这意味着全球供应链网络仍然不可或缺。
数据中心的市场格局如何?
大型人工智能模型通常使用由许多芯片组成的集群 (称为人工智能超级计算机) 进行训练,这些超级计算机托管在数据中心。全球大约有10,000到30,000个数据中心,其中仅325到1400个可以托管AI超级计算机。 这些数据中心支持高度集中的云计算市场。
(一)巨大算力需求推动云服务(与数据中心)集中度上升
云服务提供商通过大幅折扣或股权投资等方式吸引大型AI初创企业,以增加市场份额。 例如:
  • 微软投资了OpenAI,Azure是其独家云提供商,专为OpenAI打造AI超级计算机,并通过Azure OpenAI服务出售OpenAI模型独家访问权限;
  • Google DeepMind整合了Google Research的Brain团队和DeepMind,主要原因是数据中心计算资源的竞争。谷歌云是Anthropic和Cohere的首选云合作伙伴,并向Anthropic投资了3亿美元;
  • 亚马逊云 (AWS) 与Hugging Face达成收入分成协议,创建了Amazon Bedrock API服务,允许访问多个AI模型,复制了“应用商店”模式并引发“寻租”质疑;
  • 甲骨文 (Oracle) 尽管市场份额仅为5%,但通过提供计算积分、无竞争关系以吸引AI初创公司,并优化其硬件以用于机器学习;

此外,云服务提供商还投资AI服务公司,以将其转变为云客户。例如,Google投资Runway,使其成为云客户。
(二)云服务提供商引发广泛担忧
一些人工智能公司尽量避免使用云服务提供商设计的芯片,因为他们担心可能被锁定在特定的生态系统中。
云提供商的市场影响不仅使初创公司感到不安,甚至主导上游市场的参与者如英伟达也感到忧虑。 英伟达试图在云市场上引入竞争 ,以降低成本并减少云提供商对芯片设计市场的垄断可能性。 英伟达选择优先向较小的参与者如CoreWeave和Lambda Labs提供其H100芯片的使用权,并向CoreWeave投资了1亿美元,使后者得以筹集23亿美元的债务。类似的投资协议正在与Lambda Labs洽谈中。因此,大型云提供商和人工智能公司不得不从英伟达偏爱的小型提供商那里租用计算资源。例如,微软签署了一项可能价值数十亿美元的协议,以使用CoreWeave的GPU。
英伟达还直接进军云业务,利用其在先进芯片设计方面的领先地位。它与微软、谷歌和甲骨文 (注意不包括亚马逊AWS) 达成协议,在它们的数据中心内租用服务器,并通过DGX Cloud项目向人工智能软件开发商高价出租这些服务器。此服务还提供预训练的模型,包括英伟达的Megatron 530B大型语言模型和PeopleNet (一种用于识别视频中人类的模型)
如何持续满足人工智能的算力需求?
(一)降低计算成本
一种方法是改进硬件,以便使用更少的芯片完成更多计算。尽管芯片在过去几年中取得了长足进步,但专家们对这一速度是否正在放缓存在分歧。摩尔定律是最著名的芯片性能进步基准,它预测芯片上的晶体管数量大约每两年翻一番。随着晶体管接近物理尺寸极限,摩尔定律可能会放缓。
算法效率的提升同样重要






请到「今天看啥」查看全文