AI的尽头是能源。
为什么这么说呢?
因为从能量消耗角度考虑,我们对比人脑和AI:
为什么会有这么大的差异?其根本原因在于信息处理方式:
人脑:人脑拥有 800 亿到 900 亿个神经元,每个神经元可以建立近 1 万个连接,神经元之间相连、互动,形成了非常复杂的神经网络,大脑将信息存储在这些神经元中,并通过复杂的互动形成密集的神经连接网,以高度并行和分布式的方式处理信息,使得大脑能够在低能耗下同时处理多个任务,如思考、想象、感知等。
AI:目前的 AI 系统大多基于冯・诺依曼架构,数据的处理和存储是分开的,通过中央处理器(CPU)或图形处理器(GPU)等硬件依次对数据进行处理,在处理大规模数据和复杂任务时,需要消耗大量的能量来进行数据的传输和计算。
所以,AI电源会是一个长期甚至没有尽头的话题,这里面可以涉及电路拓扑结构、机械排布方式、元器件参数升级、元器件材料变更、产业链供应商变更等等话题。
从总量上来看,麦肯锡预计:
全球服务器电源功率将从2024年的60GW高速发展至2030年的410GW,增长幅度为583%;
其中主要增长来自于生成式AI服务器的电源需求;
生成式AI服务器电源功率在2024年占比仅6%,属于细分市场;但是到2030年生成式AI服务器电源功率占比一举成为绝对主力,占比高达66%;
未来6年,生成式AI服务器电源将以94%的年复合增长率增长;
未来6年,其他服务器电源也将以17%的年复合增长速度增长,同样不可小觑。
生成式AI服务器电源以年均复合94%的增速增长,这里面又有哪些新变化、新趋势呢?
第一个趋势:单机柜电源功率在迅速扩大。未来6年间,单机柜的功率将迅速扩大30-60倍。由此带来的控制系统、监测系统以及热管理系统的新需求;
这么大的电源功率需求来自于英伟达、AMD、Intel等算力芯片。如下图左侧所示,过去几年这三家公司的GPU/CPU等算力芯片功耗呈现指数级增长。也正是芯片功耗变大,用于散热的方式和空间也在变化。在芯片功耗400W以下时采用气冷方式,高于400W则需要开始考虑液冷方式,即使是400W以下的功耗,气冷方式也是依据功率大小对空间要求有所不同的。
第二个趋势:PSU(Power Supply Unit,供电单元)将在机柜中占据更大空间、更多的数量。比如Meta公司的HPR(High Power Rack,高功率机柜)中电源占据更大空间,3个以上的机柜。比如英伟达NVL72 和Meta的HPR都采用了机柜顶部和机柜底部配置PSU的方式。
第三个趋势:新增了BBU(Battery Backup Unit,电池备份单元),如下图所示,一个PSU再加了一个BBU,给n个IT Gear(可以理解为具体的功能单元)供电。
那么为什么现在要增加BBU?其实以前也是有的,是UPS用来防止市电掉电或者不稳定,所以这里的BBU起的就是UPS的作用。只不过这里对BBU要求比以前的铅酸UPS要求更高。
如下图所示,当AC Voltage(市电)掉电,PSU单元延迟4-5ms监测到,给出一个AC_Loss_L信号告诉IT gear(机柜内部的功能电路单元),但此时PSU依然可以正常输出供电给各个IT gear,因为PSU电源模块中有电容等储能元件,而且PSU单元在给出AC掉电信号之后还能坚持供电5ms以上。在这4-5ms+5ms 约为10ms的时间内,BBU就开始顶上PSU给IT gear供电了。
不过这个BBU的储能有限,加上机柜内部功能电路单元功耗太大,BBU并不能撑太久。如下图所示,高功率机柜的BBU如果4kw输出只能撑240秒,如果是5.5kw输出就只能撑90秒了。很多人会有疑问,不是当前HPR的机柜功率是接近200kw,怎么才5.5kw?那是因为很多个BBU并行供电,所以英伟达NVL72机架中就需要24个。单个BBU的价值量约为300-400美元。
BBU的构成主要有充放电电路+锂离子电池+监测通信电路+散热结构部件。正如上面所说,BBU必须在市电掉电的10毫秒内快速顶上。锂电电池充放电是没那么迅速的,所以需要超级电容帮助。因为超级电容充放电可以很快,可以迅速顶上,但是储能容量没有电池大,所以超级电容在供电给IT Gear的时候,背后还需要电池给超级电容续命。
英伟达的GB300就是首次引入BBU,其中超级电容器是日本武藏(Musashi ,7220.T)提供。7220.T股价在一个月内翻倍,就是因为这个原因。
第四个趋势:DC(直流)供电电压要大幅提升。
当前英伟达的AI服务器NVL72供电方式是:市电(交流电)经过AC/DC变成48V直流电,48V直流电再降压成1.1/1.2/3.3/5/12V的各种电压给各个芯片。
然而未来,48V这个直流电压不够用,需要正负400V的直流电压来满足机柜功耗和空间的需求,如下图所示。
然而48V也并不是一开始的设置,最早的时候机柜内部交流电转直流电是12V。后面随着需求升级一路从12V提升到48V。下图就是谷歌服务器电源升级的历史图谱。至于为什么是48V一下子直接干到正负400V?因为人体安全电压是60V,所以既然要突破人体安全电压,那就直接搞高点,直接到正负400V(压差就是800V)。所以正负400V的问题就是安全性。
一下子DC/DC的输入电压提升几十倍,这里面电路肯定是有不少变化的。不单是电路拓扑结构,还包括元器件的参数,甚至电子元器件的材质要求。
上面的四个大趋势:
每一个趋势背后都是大量的投资机会,就像文中显示的第三个趋势下的日本武藏(Musashi ,7220.T)因为要给GB300供货超级电容器股价在一个月内翻倍。 四个趋势每个背后都隐藏了大量的投资机会。欢迎各位进入知识星球一起探讨挖掘。
新加入的星球会员免费参加每周日科技大讲堂!老会员也享受两折半优惠!知识星球二维码如下: