1.1 用电:AIDC下一个短板
1.1.1 美国用电的供与需
需求侧:数据中心已经是“烧电大户”,用电量占比达到全美4%。
2023年美国数据中心合计功率约19GW,按此估算全年耗电量约166TWh(太瓦时),在全国用电量中占比4%。
数据中心烧电166 TWh,超过纽约市全年耗电量,相当于1538万家庭用户全年耗电量。
分地区来看,22年纽约全年耗电量143.2TWh,德州全年耗电量475.4TWh,加州251.9TWh,佛罗里达248.8TWh,华盛顿90.9TWh,美国数据中心全年耗电量超过纽约市全年耗电量。而2022年每位住宅用户的年平均用电量为10791kWh,照此估算,166TWh相当于约1538万家庭用户一年的耗电量。
*1 TWh = 1000 GWh = 10^6 MWh = 10^9KWh
供给侧:美国全年的发电量较为固定,目前仍以火电为主要来源,新能源发电增速较快,核能占比进一步提高。
美国全年的发电量大约在4000-4300太瓦时(TWh)之间,其中2023年
火电(燃煤、天然气、石油)占比约60%
,是主要能源来源;新能源发电(风能、太阳能等)近年来快速增长占比达到21%;核能约占19%,占比进一步提高。
电价:美国是全球电价最低的国家之一,且个别州因为能源优势有更低的电价水平。
美国电力消费结构主要划分为4个领域:居民、商业、工业和运输。2024年9月居民用户电价为0.17美元/千瓦时(约折1.24元/千瓦时,汇率截至12月13日),商业用户电价为0.135美元/千瓦时(约折0.98元/千瓦时);工业用电价为0.09美元/千瓦时,运输用电价为0.13美元/千瓦时,2023年批发电价为0.036美元/千瓦时。而一些州因为其能源优势电价水平较低,截至2024年4月,德克萨斯州(天然气和可再生能源丰富)的电价约为0.147美元/千瓦时、路易斯安那州(能源资源丰富)约为0.115美元/千万时、田纳西州(水电资源丰富)约为0.125美元/千瓦时。一些较为耗电的大型基建比如数据中心等,往往在低电价省份建设,上述州府也成为当今算力产业集中地。
数据中心全年用电成本测算:按照批发价0.036美元/千瓦时估算,美国数据中心(AI尚未大规模应用情况下)一年耗电166TWh,预估需要约60亿美元。
1.1.2边际变化:AI对电网的挑战
【挑战一:用电总量大幅提升】
与传统的数据中心相比,AI数据中心需要消耗大量电量。
主要原因是数据量的大幅增长、复杂的算法以及24/7即时相应的需求。例如,一个Google传统搜索的请求消耗约0.3Wh,而一个ChatGPT请求需要消耗2.9Wh,为前者的十倍;《焦耳》上发表的一篇论文称,如果谷歌每一次搜索都使用AIGC,其用电量将上升到每年290亿KWh,这将超过肯尼亚、克罗地亚等许多国家的总用电量;根据纽约客杂志报道,ChatGPT每天消耗超过50万KWh。
【挑战二:用电摆伏加剧】
现象:
AI数据中心(无论是训练还是推理)电流需求高度瞬变,会在几秒内出现巨大的摆幅。随着神经网络模型任务负载的增加或减少,电流需求会有剧烈波动,每微秒变化甚至可达 2000A。
原理:
1)高峰负载波动:AI模型的训练和推理对算力需求巨大,但并非持续运行,模型训练启动时会出现高峰负载,而低谷时则维持基础运行,导致用电摆伏;2)资源动态调度:AI任务具有周期性,例如大规模训练需要集中资源,而推理阶段相对分散,这使得功耗曲线更加不稳定;3)实时响应需求:生成式AI和大模型应用需要低延迟和高吞吐,驱动基础设施实时扩展,进一步放大功耗波动性。
结果:
影响电网稳定性。电网设计并不适应摆伏过大,电网基本针对用电负荷进行设计,希望看到一个比较平稳、有规律的缓慢变化的负载,例如,用电负荷100GW的用电设备接入电网后可能会有两条200GW的传输线进行供电,两条传输线有一条传输线正常就可以保证运行。而AI用电特征会在几秒内出现巨大摆幅,这种剧烈波动可能会影响电网的稳定性。
【挑战三:后续用电需求更大】
AI数据中心的推理由于用户的大量请求,会比训练更消耗能源。
目前,谷歌已在今年上半年宣布将加入新的AI功能完善搜索体验,将推出基于Gemini的AI Overviews,该功能已面向部分用户开放试用;微软推出名为Microsoft Copilot的个人AI助手,并已将ChatGPT集成到Bing中。而目前谷歌搜索引擎的访问量已经达到每月820亿次,Office商业产品的付费用户数量已超过4亿,庞大的用户基数意味着训练好的大模型如果集成到公司产品中,用户请求数将大量增长,AI即时响应次数激增,导致模型推理耗能超过训练耗能。
根据麦肯锡估计,直到2030年美国数据中心电力负载可能占所有新增需求的30%至40%。
结论:随着AI的迅速发展,预计集成大语言模型的AI软件将会迅速发展,训练需求和推理需求共振,未来数据中心用电量将大幅提升,AIDC会成为新一代“电老虎”,数据中心消耗电力的比重会进一步提升。
1.2 现实困境:电网难以支撑
经济发展结构决定了北美电网基建较为薄弱。
近20年来,美国电力需求与经济增长脱钩速度急剧加快。
自2010年以来,美国经济累计增长24%,而电力需求却几乎保持不变,2023年,美国电力消耗甚至比2022年下降了2%。
其本质是区别于国内经济主要靠工业和服务业带动,美国的经济增长主要并不依靠用电或能源的消耗,而主要依赖于高科技产业,能源消耗较低。且效率的提高(主要是用荧光灯和 LED 取代白炽灯)已经抵消了人口和经济增长带来的电力需求,使得公用事业公司和监管机构没有扩大电网或发电能力。
现状:缺时间、缺人、缺基建、缺经验、阻力多。
-
缺时间:
建设一个数据中心大概要两年时间,但是电网的建设要慢得多,建设一个发电站可能需要三五年的时间,而建设一条长距离的高容量的传输线,则需要 8 年甚至 10 年的时间。根据美国区域输电组织MISO的说法,其正在规划的18个新输电项目可能需要7到9年的时间,而历史上类似的项目需要10到12年。据此推断,电网的建设速度很可能无法追赶 AI 的增长速度。
-
缺基建:
根据美国的电力投资趋势,从2016年到2023年,美国公用事业的资本开支显著增加,尤其是发电、配电和输电领域,电网投资从2018年开始提速,主要由于制造业回流对电力需求的推动,在这种背景下,美国依旧没有大规模扩建电网,根据Grid Strategy出具的调查报告,2010-2014年美国平均每年安装1700英里的新高压输电里程,但在2015-2019年下降到每年仅645英里。
-
缺人:
劳动力紧张也是一个制约因素,尤其是实施新电网项目所必需的电气专业工人的短缺问题。根据麦肯锡的估计,根据预计的数据中心建设和需要类似技能的类似资产,美国可能出现40万名专业工人的短缺。
-
缺经验:
对于美国来说,整个电力行业的从业人员,在过去 20 年中没有见过电力需求的大规模增长,而且这 20 年很可能意味着有整整一批工程师、工作人员都没有大规模建设新电网的经验。
-
阻力多:
电网的建设需要电站、传输线等基础设施,而这些可能需要无数利益相关者共同努力,就线路走向和承担费用达成妥协。
结论:相比于数据中心的建设速度,目前美国电网建设速度相对缓慢,且发电容量有限,因此短期内美国将面临AI发展下的电力需求困境。比如,北美公用事业公司Dominion Energy表示,可能无法满足弗吉尼亚州的电力需求,导致全球增长最快的数据中心枢纽建设项目推迟多年。而根据Wood Mackenzie机构的说法,在电力行业,新的基础设施规划需要5到10年的时间。此外,大多数州公用事业委员会在经济增长环境中监管经验不足。由此推断,未来几年电力能源可能将成为AI发展的最大制约因素之一。虽然市场关注可控核聚变等创新方案,但远水解不了近渴,形成短期、中期、长期的综合解决方案是必然。
1.3多角度测算:AIDC究竟多耗电?
*总电量(GWh)=总功率(GW)×时间(h)
*总功率(GW)=IT设备功率(GW)×PUE(能效比)
1.3.1测算角度一(保守):AI芯片
测算逻辑:测算角度一是从芯片数量角度出发,推演到2030年,再用芯片数量*芯片功耗来预测用电总量,
未考虑服务器整体功耗会大于单芯片*数量,未考虑将来芯片升级迭代后可能发生的单芯片功耗提升情况,
因此我们认为测算角度一属于“保守型”测算,测算数据是几种方法中较小的,2030年AIDC用电需求为57GW。
在用GPU、TPU数量:
根据DCD报道,2023年英伟达、AMD和英特尔三家企业数据中心GPU总出货量预估为385万个,2023年为谷歌生产的TPU数量预计为93万个。进一步追溯供应链,台积电预测,2024至2029年AI服务器制造的需求的同比增长率约为50%。以此计算,2030年GPU出货量约为6578万,TPU出货量约为1589万。而根据英伟达官方说法,大部分H100、A100的使用寿命平均为5年,因此我们假设2030年在用芯片数量为26-30年芯片出货量的总和,因此2030年在用GPU、TPU数量约为17136万和4139万。
GPU、TPU功耗:
H100 NVL的最大功率可达到800W。则2030年预计将有17136万个GPU,假设GPU、TPU能耗占IT设备总能耗的90%,假设美国占比34%,利用率为80%,PUE为1.3计算,2030年美国AIDC中GPU电力需求约为54GW(GPU数量*GPU功耗*美国占比*PUE*利用率÷芯片占比=17136万个*0.8kW*34%*1.3*80%÷90%=54GW);
而根据谷歌官方说法,TPU v4芯片平均功率为200W,结合上述2030年在用TPU量约为4139万的估计,我们预计2030年TPU总功耗约为3.3GW(其他指标假设与GPU相同)。
角度一结论:2030年美国AIDC用电总量为57GW。
23-26年芯片存量仅考虑23年之后的芯片出货量进行加总,其他计算方法与上述方法相同,27年至30年与上述计算方法相同,最终加总GPU与TPU功耗得出美国AIDC所需电容量在24-30年将分别达到3/6/10/17/25/38/57GW。
假设一:芯片增速为每年50%(参考台积电说法)。
假设二:假设芯片平均寿命为5年(参考英伟达给出的GPU寿命)。
假设三:IT设备平均功率利用率为90%(考虑IT设备中NVSwitches、NVLink、NIC、重定时器、网络收发器等功耗,假设GPU、TPU耗能占比90%,其他IT设备耗能占比10%)。
假设四:考虑IT不可能都满负荷运行,且不可能永远24小时运行,参考Semi analysis,将可能利用率设置为80%。
假设五:PUE为1.3(PUE为数据中心总耗电量除以IT设备所用电量)。
假设六:美国算力需求占比全球34%(经中国信息通信研究院测算,美国在全球算力规模中的份额为34%)。
1.3.2测算角度二(乐观):数据中心
测算逻辑:测算角度二是从数据中心建设角度出发,参考第三方预测的全球数据中心建设进度(复合增速25%),同时由于预测数据截至2026年,我们假设2027至2030年依旧维持25%的复合增速,对全球数据中心电力需求进行预测,并假设其中AIDC的用电量和占比,因此我们认为,该预测角度得到的数据较为“乐观”,最终预测到2030年美国AIDC用电需求最高为91GW。
研究公司SemiAnalysis利用了5000多个数据中心的分析和建设预测,并将这些数据与全球数据以及卫星图像分析相结合,预计未来几年数据中心电力容量增长将加速至25%的复合年增长率,同时AIDC占比将进一步提升,数据中心方面,根据预测数据,全球数据中心关键IT电力需求将从23年的49GW激增到26年的96GW,我们假设27-30年继续保持数据中心25%的复合增速(参考2023到2026年增速,为25%),那么到29、30年全球数据中心关键IT电力需求分别增长至188、234GW;参考Semi Analysis数据,结合AI算力蓬勃发展、下游应用陆续爆发大背景,我们认为未来AI在数据中心中占比有望持续加速提升,因此我们假设23-30年全球AIDC占比分别达到12%/16%/30%/44%/56%/68%/78%/88%,从而计算出29、30年全球的AIDC IT设备电力需求分别为65GW、91GW。
角度二结论:以美国占比为34%,PUE为1.3计算,到2030年美国AIDC电力需求将达到91GW。
假设一:结合AI算力蓬勃发展、下游应用陆续爆发大背景,我们认为未来AI在数据中心中占比有望持续加速提升,因此我们假设23-30年全球AIDC占比分别达到12%/16%/30%/44%/56%/68%/78%/88%。
假设二:PUE为1.3(PUE为数据中心总耗电量除以IT设备所用电量)。
假设三:美国算力需求占比全球34%(经中国信息通信研究院测算,美国在全球算力规模中的份额为34%)。
1.3.3总结一:AIDC占比全美总耗电比例提升
(1)AI耗电量占全美耗电量比重提升,占比有望超1成
根据Statista预测数据,2022年,美国的电力使用量约为4085太瓦时,预计未来几十年美国的电力使用量将继续上升,到2030年达到4315太瓦时(对应493GW),到 2050年将达到5178太瓦时。
根据我们前面的“测算角度一”,假如2030年AIDC总功耗最高为57GW,那么占全美用电量的比重将提升至12%(57GW/493GW),较2023年的4%大幅提升。
1.3.3总结二:AIDC耗电量有望比肩比特币挖矿
在我们2024年8月6日发布的报告《AI东风已至,比特币矿场开启第二增长曲线》中,对比特币矿场用电量进行过假设和预测,在该报告中,据我们预测2024/2025/2026/2027/2028年得州比特币矿场负荷分别为4.7/6.5/8.3/10.1/11.9GW(假设得州比特币矿场年新增负荷为1.8GW),关于得州比特币矿场负荷在美国的份额,我们假设保持28.5%不变,因此据我们预测美国比特币矿场年负荷分别为17/23/29/36/42GW。
为了方便对比,我们将数据预测至2030年,假设:1)得州比特币矿场年新增负荷为1.8GW,2)假设2029年和2030年德州矿场份额保持28.5%不变。因此得出2024/2025/2026/2027/2028/2029/2030年,美国比特币矿场每年耗电分别为17GW/23GW/29GW/26GW/42GW/48GW/54GW。
结论:保守预测下,美国AIDC耗电量将在2030年赶超比特币挖矿电力需求;乐观预测下,美国AIDC电力需求将在2029年超过比特币挖矿。