拿什么来遏制失控的AI功耗？

TechSugar · 公众号 · · 2024-08-20 08:00

正文

为什么英伟达CEO黄仁勋不断地强调自家算力芯片的算力功耗比和TCO？为什么OpenAI的CEO奥特曼宣称需要融资几万亿美元，其中很大一部分预算是用来建电站？

主要是因为现在AI算力集群是十足的吞电狂魔。比如说英伟达NVL72一个机架的功耗就超过200KW。什么概念？一台家用空调额定功率大概1KW，一个NVL72机架大小相当于一台家用单开门冰箱，但其功率超过200KW，就相当于一台家用单开门冰箱里面塞下200台空调。

数据中心、人工智能（AI）和加密货币领域的电力消耗预计在2026年可能会较2023年翻倍，达到1000太瓦时（TWh），这大约相当于日本的电力消耗总量。

早在若干年前，网友就把英伟达的显卡芯片戏称为核弹，就是因为这个原因。随着GPU用于AI计算并持续迭代升级，AI算力芯片的功耗较几年前又增大了数倍乃至十倍。现代单颗AI算力芯片拥有数百亿个晶体管，更好的计算性能是以成倍增长的功耗需求为代价的。因此用于人工智能（AI）和机器学习（ML）等应用的高性能处理器需要不断增加的功耗。这个趋势并没有出现放缓的迹象。

拿什么来遏制失控的AI功耗？

最先站出来的是，以台积电为代表的晶圆制造厂商们。他们通过使用更为先进的制程，不单可以将单颗晶体管体积做小，还能使晶体管的工作电压降低。根据P=U*I（功率=电压*电流）可知，先进制程是降功耗的一个重要手段。

虽然核心电压下降了，但先进处理器的晶体管的数量却并没有减少，反而呈指数级增加，所以处理器的电流并不是减少，而是巨幅增加的。比如，无论是英伟达的H100还是AMD的MI300亦或英特尔的高迪3，2000A (安培)的峰值电流是稀松平常的事。大部分人对安培这个电流单位没有概念。我记得我在上初中时最开始接触电学的时候，我们物理老师就告诉我们，安培是一个很大的单位。家庭照明的主LED灯的电流大概50mA=0.05A。

除了电流大之外，人工智能工作负载还有典型的高动态特性。所谓的高动态特性，就是平时不运算的时候待机，一旦要工作的时候能迅速进入状态。即电源要对芯片施加持续数微秒的高di/dt瞬态（di/dt就是电流爬坡速度）。也就是在微秒的时间内，电流从0一下子陡升到2000A。这些瞬变会对PDN （Power Distribution NetWork电源分配网络）产生冲击。

为了抑制这种不断上升的能源消耗及能源冲击，人工智能处理器的供电网络经历了多代的演变。这些演变升级涉及电路架构、电源转换拓扑、材料科学、封装和机械/热工程方面的创新。

其中电源架构创新主要有三个手段：

负载点（POL，Point-Of-Load ）
分比式电源架构（FPD，Factorized Power Delivery）
垂直供电

负载点（POL，Point-Of-Load ）

因为元件多且杂的缘故，工程师们不太可能直接从一次电源那里直接选择高隔离的DC-DC模块进行转换，一方面是设计电路和结构的麻烦；另一方面也是成本的考虑。这个时候，POL就大放溢彩了，工程师会先选用一个大功率高隔离稳压的二次电源做为一个总线电压（中间电源电压），当然这个二次电源一般是PCB上面最主要的一个功率元件所需要的，或是要求负载较大、最通用的那个电源电压，然后工程师再根据各个功能器件的要求不同，选用各式各样的POL进行三级转换，给后端的功率元件供电，因为二次电源选用了稳压隔离，所以很多时候就不要求POL再需要隔离稳压了。

这样的两级转换本身在电源设计的角度来看，就是一种常有的理念，因为这样可以保证转换效率及其稳定性，另一方面设计结构也清晰简单，而且设计成本也要低很多。

CPU、FPGA、网络交换处理器以及现在的AI训练和推理芯片中最重要的供电架构就是负载点（PoL）方法。它比传统的多相电压平均法、分比式PoL电流倍增方法实现了更高的功率和电流密度。

这种电源架构利用了理想化变压器“匝数比”的概念，其中分压产生电流倍增。电流倍增的可扩展特性使得在不同输出电压水平和输出电流水平下开发全面的PoL转换器系列成为可能。这对客户来说至关重要，因为高级 AI 训练处理器的要求正在迅速变化。

分比式电源架构—分立调节和变压功能

总结生成式AI电源系统设计的主要挑战如下：

非常高的电流传输能力，从500到2000安培不等
需要高动态性能的负载
PDN损耗和阻抗大
标准化使用48V总线基础设施，需要48V至sub-1V能力

解决高电流和高密度负载点（PoL）问题需要使用不同的方法。先进的分比式电源架构（FPA）分解并调节电压转换、电流倍增功能，使这些供电级能够得到最佳放置，并实现尽可能高的效率和功率/电流密度。

稳压器会在某个电压输入输出值时获取最佳效率，并且随着稳压器输入输出比的变化而失去效率。典型输入电压在36V和60V之间变化时（为什么典型输入在36-60V之间？因为60V是人体安全电压），最佳输出总线电压为48V，而不是典型的12V。根据P=VI，48V输出总线电流仅为12V时的1/4。PDN损耗功率等于损耗等效电阻乘以电流的平方（P=I*I*R），因而输出48V时的损耗仅为12V的1/16。

因此，首先放置稳压器并调节至48V输出将实现最高效率。当低于48V的输入时，稳压器也必须接受，因此需要一个降压-升压调节级来满足。一旦输入电压被调节成48V，下一步就是将48转换为1V。

在负载要求为1V的情况下，最佳变换比为48：1。在这种情况下，稳压器首先将输入降压或升压至48V输出，再利用变压器将电压从48V降至1V。鉴于变压器输入输出端功率不变，则变压器实为电流倍增器，实现电流的48倍倍增。为了将大电流输出的PDN损耗降至最低，损耗电阻必须要进来小。如果损耗电阻要尽量小，那么变压器要尽可能靠近最终负载。

通过稳压器和变压器（电流倍增器）的组合，就构成了分比式电源架构。这两款器件相互配合，各自有效地发挥其专用作用，实现完整的DC-DC转换功能。

稳压器提供稳定的输出电压，该电压给变压器（电流倍增器）供电，电流倍增器将分比式总线电压转换为负载所需的电平。

拿什么来遏制失控的AI功耗？

正文

请到「今天看啥」查看全文