本文讨论了AI与能源的关系,指出了AI发展中面临的能源问题以及未来的发展趋势。文章比较了人脑和AI的能量消耗方式,并详细阐述了AI发展的四个主要趋势,包括单机柜电源功率的扩大、PSU在机柜中的空间增加、新增BBU的趋势以及DC供电电压的大幅提升。每个趋势背后都隐藏着大量的投资机会。
AI的发展离不开能源的支持,随着AI技术的不断进步,对能源的需求也在不断增加。文章通过对比人脑和AI的能量消耗方式,阐述了AI发展中面临的能源问题以及未来的发展趋势。
文章详细阐述了AI发展的四个主要趋势,包括单机柜电源功率的扩大、PSU在机柜中的空间增加、新增BBU的趋势以及DC供电电压的大幅提升。这些趋势的出现,标志着AI技术的发展进入了一个新的阶段。
文章指出,这四个趋势背后都隐藏着大量的投资机会。投资者可以通过对这些趋势的研究,找到具有投资潜力的领域,并获取投资回报。
AI的尽头是能源。
为什么这么说呢?
因为从能量消耗角度考虑,我们对比人脑和AI:
为什么会有这么大的差异?其根本原因在于
信息处理方式
:
-
人脑
:
人脑拥有 800 亿到 900 亿个神经元,每个神经元可以建立近 1 万个连接,神经元之间相连、互动,形成了非常复杂的神经网络,大脑将信息存储在这些神经元中,并通过复杂的互动形成密集的神经连接网,以高度并行和分布式的方式处理信息,使得大脑能够在低能耗下同时处理多个任务,如思考、想象、感知等
。
-
AI
:
目前的 AI 系统大多基于冯・诺依曼架构,数据的处理和存储是分开的,通过中央处理器(CPU)或图形处理器(GPU)等硬件依次对数据进行处理,在处理大规模数据和复杂任务时,需要消耗大量的能量来进行数据的传输和计算。
所以,
AI电源会是一个长期甚至没有尽头的话题
,
这里面可以涉及电路拓扑结构、机械排布方式、元器件参数升级、元器件材料变更、产业链供应商变更等等话题。
从总量上来看,麦肯锡预计:
-
全球服务器电源功率将从2024年的60GW高速发展至2030年的410GW,增长幅度为583%;
-
其中主要增长来自于生成式AI服务器的电源需求;
-
生成式AI服务器电源功率在2024年占比仅6%,属于细分市场;但是到2030年生成式AI服务器电源功率占比一举成为绝对主力,占比高达66%;
-
未来6年,生成式AI服务器电源将以94%的年复合增长率增长;
-
未来6年,其他服务器电源也将以17%的年复合增长速度增长,同样不可小觑。
生成式AI服务器电源以年均复合94%的增速增长,这里面又有哪些新变化、新趋势呢?
第一个趋势:单机柜电源功率在迅速扩大。
未来6年间,单机柜的功率将迅速扩大30-60倍。由此带来的控制系统、监测系统以及热管理系统的新需求;
这么大的电源功率需求来自于英伟达、AMD、Intel等算力芯片。如下图左侧所示,过去几年这三家公司的GPU/CPU等算力芯片功耗呈现指数级增长。也正是芯片功耗变大,用于散热的方式和空间也在变化。在芯片功耗400W以下时采用气冷方式,高于400W则需要开始考虑液冷方式,即使是400W以下的功耗,气冷方式也是依据功率大小对空间要求有所不同的。
第二个趋势:PSU(Power Supply Unit,供电单元)将在机柜中占据更大空间、更多的数量。
比如Meta公司的HPR(High Power Rack,高功率机柜)中电源占据更大空间,3个以上的机柜。比如英伟达NVL72 和Meta的HPR都采用了机柜顶部和机柜底部配置PSU的方式。
第三个趋势:新增了BBU(Battery Backup Unit,电池备份单元)
,如下图所示,一个PSU再加了一个BBU,给n个IT Gear(可以理解为具体的功能单元)供电。
那么为什么现在要增加BBU?其实以前也是有的,是UPS用来防止市电掉电或者不稳定,所以这里的BBU起的就是UPS的作用。只不过这里对BBU要求比以前的铅酸UPS要求更高。
如下图所示,当AC Voltage(市电)掉电,PSU单元延迟4-5ms监测到,给出一个AC_Loss_L信号告诉IT gear(机柜内部的功能电路单元),但此时PSU依然可以正常输出供电给各个IT gear,因为PSU电源模块中有电容等储能元件,而且PSU单元在给出AC掉电信号之后还能坚持供电5ms以上。在这4-5ms+5ms 约为10ms的时间内,BBU就开始顶上PSU给IT gear供电了。
不过这个BBU的储能有限,加上机柜内部功能电路单元功耗太大,BBU并不能撑太久。如下图所示,高功率机柜的BBU如果4kw输出只能撑240秒,如果是5.5kw输出就只能撑90秒了。很多人会有疑问,不是当前HPR的机柜功率是接近200kw,怎么才5.5kw?那是因为很多个BBU并行供电,所以英伟达NVL72机架中就需要24个。单个BBU的价值量约为300-400美元。
BBU的构成主要有充放电电路+锂离子电池+监测通信电路+散热结构部件。正如上面所说,BBU必须在市电掉电的10毫秒内快速顶上。锂电电池充放电是没那么迅速的,所以需要超级电容帮助。因为超级电容充放电可以很快,可以迅速顶上,但是储能容量没有电池大,所以超级电容在供电给IT Gear的时候,背后还需要电池给超级电容续命。
英伟达的GB300就是首次引入BBU,其中超级电容器是日本武藏(Musashi ,7220.T)提供。7220.T股价在一个月内翻倍,就是因为这个原因。
第四个趋势:DC(直流)供电电压要大幅提升。
当前英伟达的AI服务器NVL72供电方式是:市电(交流电)经过AC/DC变成48V直流电,48V直流电再降压成1.1/1.2/3.3/5/12V的各种电压给各个芯片。
然而未来,48V这个直流电压不够用,需要正负400V的直流电压来满足机柜功耗和空间的需求,如下图所示。
然而48V也并不是一开始的设置,最早的时候机柜内部交流电转直流电是12V。后面随着需求升级一路从12V提升到48V。下图就是谷歌服务器电源升级的历史图谱。至于为什么是48V一下子直接干到正负400V?因为人体安全电压是60V,所以既然要突破人体安全电压,那就直接搞高点,直接到正负400V(压差就是800V)。所以正负400V的问题就是安全性。
一下子DC/DC的输入电压提升几十倍,这里面电路肯定是有不少变化的。不单是电路拓扑结构,还包括元器件的参数,甚至电子元器件的材质要求。