依据谷歌于
24
年
10
月在
OCP Global Summit
披露的《
+/-400Vdc Rack for AI/ML Applications
》,伴随芯片功率的迭代升级,服务器机架设计的复杂性不断增加,机架功率的需求增长速度超过了电池模块与
AC/DC
电源功率密度的提升速度,叠加下一代的机架可能没有足够的空间容纳电源组件。因此,未来的电源架构需要革新,在不影响机架直流配电的优势下将电源组件放置在机架外。
现有结构的限制:
(
1
)下图左侧,上方红框部分为
AC/DC
电源,中间层为
48VDC
到
PoL
负载,下方为
48VDC
的
UPS
。在功率持续增加的趋势中,越来越多的机架空间需要分配给
AC/DC
与
UPS
。
图表
.
现行机架电源结构
数据来源:谷歌
(
2
)母线
Busbar
亦需要调整以支持更高的电流,机架设计需要容纳更大
/
更重的母线
/
连接器,同时需要运行主动冷却以支持更高的电流。
图表
.
母线调整以支持功率升级
数据来源:谷歌
下图为谷歌电源设计的演变历史,
AC/DC+UPS
功能从托盘上升级到机架内,而下一代预期在机架外重新定位,需要更高的直流电压(
+/-400Vdc
)以实现架外电源解决方案。
图表
.
电源设计进化过程
数据来源:谷歌
推荐使用
+/-400Vdc
的原因:
图表
.
三种方案优缺点对比
数据来源:谷歌
48VDC
机架电源系统的优势在于转换阶段更少,高可靠性以及更小的故障域;
+/
-400Vdc
的优势在于与
DC
机架电源系统相同的系统效率
/
可靠性优势;更好的功率密度与效率;可依托于电动汽车行业开发成熟的
400Vdc
组件生态系统(关注相关企业切入产业链)。
图表
. 48Vdc
与
+/-400Vdc
结构
数据来源:谷歌
过渡到
+/-400Vdc
架构:数据中心更改为该架构是颠覆性的,如何管理现有的
48V
设备成为关注点。若没有匹配的基础设施支持,转换是不可行的,需要新产品支持转换。一是引入
+/-400Vdc
侧车电源架
Sidecar power rack
,用于从有效载荷架上移除
AC/DC
电源转换器和备用电池;二是研究在
+/-400Vdc
的环境中支持传统的
48V
机架设备。
侧车电源架
可在配置传统
416/480V
电源的数据中心里部署
+/-400Vdc
结构,可根据需求决定是否配置
BBUs
和支持不同的载荷架配置,用于从
48V
向
+/-400V
过渡,对数据中心空间占用较小。
图表
.
侧车电源架
数据来源:谷歌
2.
AI
数据中心四种供电系统架构
根据谷歌的披露,目前
AI
数据中心供电系统构架有两种成熟解决方案:
架构
1
:传统供电方式
机架外
UPS+
机架内
/
托盘内
PSU
图表
.
数据中心供电方式架构
1
架构
2
:
OCP ORV3
交付架构
机架内
PSU+BBU
图表
.
数据中心供电方式架构
2
以上两种架构共同点是
AC/DC
转换环节均放于服务器机柜内部。机架配电均在
54Vdc
,
200Kw
机架的配电损耗基本在
0.2-0.5%
,两种的生态系统成熟度都很高。
两种架构主要区别在于备用电源的选择与放置位置:架构
1
选择在线
UPS
(双重转换),且
UPS
独立于服务器机柜,从市电输入端到负载输出端整体效率在
93.13%-93.4%
。架构
2
则选择
BBU+
超级电容作为备用电源,端到端效率在
96.02%-96.32%
,较架构
1
有明显提升。空间占用层面,架构
1
对
IT
机架的空间消耗较低,但对数据中心占地面积消耗大;架构
2
对
IT
机架的空间消耗高,对数据中心占地面积消耗也高。
根据野村,英伟达
GB300
或将考虑使用架构
2
,具体的方案可能是单个备用电源模组包含
6
个
BBU+
一个超级电容器。架构
2
将备用电源进行分布式布置,同时由于
BBU
采用锂电池,使用寿命也将有明显提升(但对应会有安全问题,在之前的《
BBU
基础信息》中有详细介绍)。
此外,谷歌还提供了两类未来方向:
架构
3
:
Sidecar +/-400Vdc
电力输送
图表
.
数据中心供电方式架构
3
架构
4
:
Northstar-
建筑级
+/-400Vdc
采用储能
/
微网的电力输送架构
图表
.
数据中心供电方式架构
4
架构
3
采用了前文提到的
Sidecar
作为从传统配置向
+/-400V
的过渡方案,
AC/DC
转换环节与
BBU
从机架内移出至
Sidecar
。从市电输入端到负载输出端整体效率在
96.05%
,机架配电是
+/-400Vdc
,几乎没有机架配电损耗,不消耗机架内空间,但对数据中心占地面积消耗高,整体生态系统成熟度中等。
架构
4
采用了
Northstar
(
HVDC
高压直流)方案,
AC/DC
转换与
BBU
被放置在数据中心基础设施环节。从市电输入端到负载输出端整体效率约在
96.53%
,机架配电是
+/-400Vdc
,几乎没有机架配电损耗,不消耗机架内空间,对数据中心面积也几乎没有额外占用,但整体生态系统成熟度仍然处于低位。
图表
. AI
数据中心
4
种供电解决方案架构特点对比
数据来源:《
+/-400Vdc Rack for AI/ML Applications
》、
野村东方国际证券
图表
.
数据中心全直流供电架构
数据来源:维谛
未来,
HVDC
架构有望大规模应用,在更高功率数据中心的渗透率不断提升。先将输入端市电转换为
400V
直流电,
AC-DC
大功率化,再进行降压处理至服务器适用电压范围。
依据谷歌和野村,采用
HVDC
架构的主要优势有:(
1
)提升能源效率;(
2
)服务器机架配电损耗降至约
0%
,成熟方案配电损耗
0.2%-0.5%
;(
3
)
AI
电源移出服务器机柜,节省服务器机柜空间;(
4
)令更高的功率密度成为可能。
主要的挑战有:(
1
)电弧闪络危害
Arc Flash Hazards
,直流接地的风险;(
2
)设备兼容性的问题,供应商与组件需要完成
AC
至
DC
的转换;(
3
)复杂性与成本问题,包含设计、安装、维护等环节。
综上,目前海外数据中心
HVDC
技术方案还处于相对较新的阶段,虽然短期实施存在挑战,但考虑到现有的电源系统无法支持未来机架功率密度的快速增长,叠加
HVDC
架构在能源效率、可靠性、空间节省、未来适应性等方面的潜在优势,使其成为未来有吸引力的选择。数据中心的电源生态系统或发生转变,通过开发接口产品来适应现有的电源基础设施以适应