专栏名称: 刘翔电子研究
国信电子行业分析师:刘翔、蓝逸翔、马红丽、唐泓翼,关注中国电子产业在全球产业链中角色的渐进式升级,致力于为A股二级市场机构投资者提供专业的电子板块股票投资咨询,为中国电子产业与资本共荣尽一己绵薄之力。
目录
相关文章推荐
歸藏的AI工具箱  ·  AI ... ·  2 天前  
歸藏的AI工具箱  ·  AI ... ·  2 天前  
贵州省文化和旅游厅  ·  逛观山湖灯会庙市有“门”道,快来瞧~ ·  3 天前  
贵州省文化和旅游厅  ·  逛观山湖灯会庙市有“门”道,快来瞧~ ·  3 天前  
春江潮起  ·  刚刚,果然爆了!网友:强到可怕 ·  3 天前  
春江潮起  ·  刚刚,果然爆了!网友:强到可怕 ·  3 天前  
时代财经APP  ·  “新贵”DeepSeek招人出手阔绰,实习生 ... ·  3 天前  
时代财经APP  ·  “新贵”DeepSeek招人出手阔绰,实习生 ... ·  3 天前  
51好读  ›  专栏  ›  刘翔电子研究

AI电源新趋势、关键变化及关键点

刘翔电子研究  · 公众号  · 互联网短视频 科技自媒体  · 2024-12-09 00:07

主要观点总结

本文讨论了AI与能源的关系,指出了AI发展中面临的能源问题以及未来的发展趋势。文章比较了人脑和AI的能量消耗方式,并详细阐述了AI发展的四个主要趋势,包括单机柜电源功率的扩大、PSU在机柜中的空间增加、新增BBU的趋势以及DC供电电压的大幅提升。每个趋势背后都隐藏着大量的投资机会。

关键观点总结

关键观点1: AI与能源的关系及未来发展

AI的发展离不开能源的支持,随着AI技术的不断进步,对能源的需求也在不断增加。文章通过对比人脑和AI的能量消耗方式,阐述了AI发展中面临的能源问题以及未来的发展趋势。

关键观点2: 四个主要趋势

文章详细阐述了AI发展的四个主要趋势,包括单机柜电源功率的扩大、PSU在机柜中的空间增加、新增BBU的趋势以及DC供电电压的大幅提升。这些趋势的出现,标志着AI技术的发展进入了一个新的阶段。

关键观点3: 投资机会

文章指出,这四个趋势背后都隐藏着大量的投资机会。投资者可以通过对这些趋势的研究,找到具有投资潜力的领域,并获取投资回报。


正文

AI的尽头是能源。

为什么这么说呢?

因为从能量消耗角度考虑,我们对比人脑和AI:

  • 人脑 :人脑的功率消耗大约在 10 到 25 瓦特之间,通常仅需耗能 15 瓦 - 20 瓦左右,占人体总能量消耗的 20% 左右,但却能高效地进行复杂的信息处理和认知活动。

  • AI :以超级计算机为例,运行则需要数兆瓦的电力,如 ChatGPT 每天提供约 2 亿条回答,消耗 50 万千瓦时电力 ,而训练像 GPT-3 这样的语言模型需要 10 吉瓦时的能量。

为什么会有这么大的差异?其根本原因在于 信息处理方式

  • 人脑 人脑拥有 800 亿到 900 亿个神经元,每个神经元可以建立近 1 万个连接,神经元之间相连、互动,形成了非常复杂的神经网络,大脑将信息存储在这些神经元中,并通过复杂的互动形成密集的神经连接网,以高度并行和分布式的方式处理信息,使得大脑能够在低能耗下同时处理多个任务,如思考、想象、感知等

  • AI 目前的 AI 系统大多基于冯・诺依曼架构,数据的处理和存储是分开的,通过中央处理器(CPU)或图形处理器(GPU)等硬件依次对数据进行处理,在处理大规模数据和复杂任务时,需要消耗大量的能量来进行数据的传输和计算。

所以, AI电源会是一个长期甚至没有尽头的话题 这里面可以涉及电路拓扑结构、机械排布方式、元器件参数升级、元器件材料变更、产业链供应商变更等等话题。

从总量上来看,麦肯锡预计:

  • 全球服务器电源功率将从2024年的60GW高速发展至2030年的410GW,增长幅度为583%;

  • 其中主要增长来自于生成式AI服务器的电源需求;

  • 生成式AI服务器电源功率在2024年占比仅6%,属于细分市场;但是到2030年生成式AI服务器电源功率占比一举成为绝对主力,占比高达66%;

  • 未来6年,生成式AI服务器电源将以94%的年复合增长率增长;

  • 未来6年,其他服务器电源也将以17%的年复合增长速度增长,同样不可小觑。

生成式AI服务器电源以年均复合94%的增速增长,这里面又有哪些新变化、新趋势呢?

第一个趋势:单机柜电源功率在迅速扩大。 未来6年间,单机柜的功率将迅速扩大30-60倍。由此带来的控制系统、监测系统以及热管理系统的新需求;

这么大的电源功率需求来自于英伟达、AMD、Intel等算力芯片。如下图左侧所示,过去几年这三家公司的GPU/CPU等算力芯片功耗呈现指数级增长。也正是芯片功耗变大,用于散热的方式和空间也在变化。在芯片功耗400W以下时采用气冷方式,高于400W则需要开始考虑液冷方式,即使是400W以下的功耗,气冷方式也是依据功率大小对空间要求有所不同的。

第二个趋势:PSU(Power Supply Unit,供电单元)将在机柜中占据更大空间、更多的数量。 比如Meta公司的HPR(High Power Rack,高功率机柜)中电源占据更大空间,3个以上的机柜。比如英伟达NVL72 和Meta的HPR都采用了机柜顶部和机柜底部配置PSU的方式。

第三个趋势:新增了BBU(Battery Backup Unit,电池备份单元) ,如下图所示,一个PSU再加了一个BBU,给n个IT Gear(可以理解为具体的功能单元)供电。

那么为什么现在要增加BBU?其实以前也是有的,是UPS用来防止市电掉电或者不稳定,所以这里的BBU起的就是UPS的作用。只不过这里对BBU要求比以前的铅酸UPS要求更高。

如下图所示,当AC Voltage(市电)掉电,PSU单元延迟4-5ms监测到,给出一个AC_Loss_L信号告诉IT gear(机柜内部的功能电路单元),但此时PSU依然可以正常输出供电给各个IT gear,因为PSU电源模块中有电容等储能元件,而且PSU单元在给出AC掉电信号之后还能坚持供电5ms以上。在这4-5ms+5ms 约为10ms的时间内,BBU就开始顶上PSU给IT gear供电了。

不过这个BBU的储能有限,加上机柜内部功能电路单元功耗太大,BBU并不能撑太久。如下图所示,高功率机柜的BBU如果4kw输出只能撑240秒,如果是5.5kw输出就只能撑90秒了。很多人会有疑问,不是当前HPR的机柜功率是接近200kw,怎么才5.5kw?那是因为很多个BBU并行供电,所以英伟达NVL72机架中就需要24个。单个BBU的价值量约为300-400美元。

BBU的构成主要有充放电电路+锂离子电池+监测通信电路+散热结构部件。正如上面所说,BBU必须在市电掉电的10毫秒内快速顶上。锂电电池充放电是没那么迅速的,所以需要超级电容帮助。因为超级电容充放电可以很快,可以迅速顶上,但是储能容量没有电池大,所以超级电容在供电给IT Gear的时候,背后还需要电池给超级电容续命。

英伟达的GB300就是首次引入BBU,其中超级电容器是日本武藏(Musashi ,7220.T)提供。7220.T股价在一个月内翻倍,就是因为这个原因。

第四个趋势:DC(直流)供电电压要大幅提升。

当前英伟达的AI服务器NVL72供电方式是:市电(交流电)经过AC/DC变成48V直流电,48V直流电再降压成1.1/1.2/3.3/5/12V的各种电压给各个芯片。

然而未来,48V这个直流电压不够用,需要正负400V的直流电压来满足机柜功耗和空间的需求,如下图所示。

然而48V也并不是一开始的设置,最早的时候机柜内部交流电转直流电是12V。后面随着需求升级一路从12V提升到48V。下图就是谷歌服务器电源升级的历史图谱。至于为什么是48V一下子直接干到正负400V?因为人体安全电压是60V,所以既然要突破人体安全电压,那就直接搞高点,直接到正负400V(压差就是800V)。所以正负400V的问题就是安全性。

一下子DC/DC的输入电压提升几十倍,这里面电路肯定是有不少变化的。不单是电路拓扑结构,还包括元器件的参数,甚至电子元器件的材质要求。







请到「今天看啥」查看全文