大规模部署AI面临着巨大的挑战,因为工作负载需要庞大的计算能力和高速通信带宽。
大型 AI 集群需要大量的网络基础设施来处理处理器、内存和存储之间的数据流。如果没有这些基础设施,即使是最先进的模型,其性能也会受到制约。Meta 的数据显示,
数据在数据中心停留的时间中,大约有 40% 都浪费在了网络传输上
。
来源:Meta
简而言之,
网络连接能力已成为限制发展的关键原因之一
,AI需要专门的硬件来实现极致的数据传输速度。
AI数据中心与传统数据中心
与传统数据中心不同,AI数据中心在前端网络中配备了专门用于AI处理的计算基础设施,并在后端构建了ML加速集群。
AI的大规模训练工作负载会在后端网络上产生高带宽流量,这种流量通常遵循固定的模式,不需要前端网络所需的逐包处理。当所有组件和网络都正常工作时,AI系统能够以非常高的效率和利用率运行。
低延迟至关重要,因为需要快速访问其他资源,这通过扁平化的层次结构得以实现。为了避免(昂贵的)计算资源利用率不足,交换机也必须是非阻塞的。需要注意的是,哪怕只有一条链路频繁丢包,也可能拖慢整个AI网络的速度。所以,网络的稳定和可靠也非常关键,后端的ML网络设计时需要考虑到这些问题。
AI数据中心所需的连接套件
如果我们将网络简化为只有两个CPU 或 XPU,就能清楚看到所需的连接类型。
首先从连接前端网络的CPU说起,这部分仍然使用以太网。目前是112G,而224G则将是未来的标准。
前端网卡(以及其他外设)通过PCIe连接——通常是Gen5或Gen6,Gen7标准即将确定,并将于 2025 年进入数据中心。当前,CPU和XPU通过PCIe或CXL(v3)访问存储,从而降低延迟。未来还有可能实现从芯片存储到GPU的直接连接,同时将存储设备以分散的形式放置在各自机架中的集中存储池中。
在后端,通常看到的是定制化的以太网或PCIe,例如NVIDIA的InfiniBand。
对于服务器内部的XPU之间以及CPU之间的连接,有多种解决方案,包括NVIDIA的NVLink或UALink。最后,XPU与内存之间的连接使用高带宽内存(HBM)。
小芯片技术
为满足AI大规模应用的需求,传统的单片 SoC 要在不超出光刻设备掩模版极限的前提下,集成所需的通信带宽以及其他功能,变得越来越困难。
与传统的单片 SoC 不同,小芯片(Chiplet)将系统分解为更小的、专门的模块,每个模块都采用最适合其功能的工艺进行开发,来自多个供应商的小芯片被集成到最终的 SoC中。这种方法提供了更高的灵活性和模块化程度。
迁移到小芯片模式的好处之一是,由于芯片尺寸更小,良品率得到了提高。此外,成本也更低,因为能够重复使用已经经过验证的芯片IP,从而减少了一次性工程成本。也有数据表明,通过对芯片工艺和架构进行智能组合,还可以将整个系统的功耗降低 25% 到 50%。
这些小芯片具有不同的I/O连接配置,可以处理各种类型的输入输出需求。这些 I/O 小芯片将与存储小芯片相结合,以满足不同类型的存储子系统的需求,同时与计算小芯片相结合,以处理不同类型的工作负载或AI应用。
芯片间互连也有行业标准。例如,UCIe(Universal Chiplet Interconnect Express)以及基于网络芯片(NoC)生态系统的芯片间链路协议。此外,行业合作对于小芯片的崛起也至关重要,它使得行业能够整合供应链,从而简化组装过程。这一合作主要由晶圆厂推动,例如三星的MDI联盟和台积电的3DFabric™联盟。
向1.6T演进
我们已经处于掩模版极限(reticle die limit )五年多了。在此之前,业界通过增加芯片尺寸来提高带宽。但芯片面积越大,引脚数量越多,这会导致成本失控。
以前可以通过增加交换机上的端口数量来提升数据处理能力,但现在这条路走不通了,因为芯片周围和电缆中的通道数量已经饱和。前面板也不能无限增加端口,散热是个大问题。数据中心的机架大小是标准化的,也不能随便加更多的前面板。
解决方案是增加每条通道的带宽,并转向更具可扩展性的架构。举个例子,现在有一个51.2T的交换机,使用512通道 x 100G链路。未来,可以将每个链路的速度提升到200G,这样只需要256个链路就能达到同样的总带宽,并且不会超出制造芯片的物理限制。通过小芯片技术,未来还可以进一步扩展到512个200G链路,提供更高的带宽和更好的灵活性。
如下图所示,小芯片的最佳芯片间互连(以Gbps/mm和pJ/bit为单位)是UCIe并行接口。由UCIe和224G SerDes驱动的小芯片设计能够支持下一代交换机使用场景。