专栏名称: SDNLAB

SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台，涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域，提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。

为什么 UCIe 是下一代 AI 芯片连接的关键？

SDNLAB · 公众号 · · 2025-03-06 15:30

正文

大规模部署AI面临着巨大的挑战，因为工作负载需要庞大的计算能力和高速通信带宽。

大型 AI 集群需要大量的网络基础设施来处理处理器、内存和存储之间的数据流。如果没有这些基础设施，即使是最先进的模型，其性能也会受到制约。Meta 的数据显示， 数据在数据中心停留的时间中，大约有 40% 都浪费在了网络传输上 。

来源：Meta

简而言之， 网络连接能力已成为限制发展的关键原因之一 ，AI需要专门的硬件来实现极致的数据传输速度。

AI数据中心与传统数据中心

与传统数据中心不同，AI数据中心在前端网络中配备了专门用于AI处理的计算基础设施，并在后端构建了ML加速集群。

AI的大规模训练工作负载会在后端网络上产生高带宽流量，这种流量通常遵循固定的模式，不需要前端网络所需的逐包处理。当所有组件和网络都正常工作时，AI系统能够以非常高的效率和利用率运行。

低延迟至关重要，因为需要快速访问其他资源，这通过扁平化的层次结构得以实现。为了避免（昂贵的）计算资源利用率不足，交换机也必须是非阻塞的。需要注意的是，哪怕只有一条链路频繁丢包，也可能拖慢整个AI网络的速度。所以，网络的稳定和可靠也非常关键，后端的ML网络设计时需要考虑到这些问题。

AI数据中心所需的连接套件

如果我们将网络简化为只有两个CPU 或 XPU，就能清楚看到所需的连接类型。

首先从连接前端网络的CPU说起，这部分仍然使用以太网。目前是112G，而224G则将是未来的标准。

前端网卡（以及其他外设）通过PCIe连接——通常是Gen5或Gen6，Gen7标准即将确定，并将于 2025 年进入数据中心。当前，CPU和XPU通过PCIe或CXL（v3）访问存储，从而降低延迟。未来还有可能实现从芯片存储到GPU的直接连接，同时将存储设备以分散的形式放置在各自机架中的集中存储池中。

在后端，通常看到的是定制化的以太网或PCIe，例如NVIDIA的InfiniBand。

对于服务器内部的XPU之间以及CPU之间的连接，有多种解决方案，包括NVIDIA的NVLink或UALink。最后，XPU与内存之间的连接使用高带宽内存（HBM）。

小芯片技术

为满足AI大规模应用的需求，传统的单片 SoC 要在不超出光刻设备掩模版极限的前提下，集成所需的通信带宽以及其他功能，变得越来越困难。

与传统的单片 SoC 不同，小芯片（Chiplet）将系统分解为更小的、专门的模块，每个模块都采用最适合其功能的工艺进行开发，来自多个供应商的小芯片被集成到最终的 SoC中。这种方法提供了更高的灵活性和模块化程度。

迁移到小芯片模式的好处之一是，由于芯片尺寸更小，良品率得到了提高。此外，成本也更低，因为能够重复使用已经经过验证的芯片IP，从而减少了一次性工程成本。也有数据表明，通过对芯片工艺和架构进行智能组合，还可以将整个系统的功耗降低 25% 到 50%。

这些小芯片具有不同的I/O连接配置，可以处理各种类型的输入输出需求。这些 I/O 小芯片将与存储小芯片相结合，以满足不同类型的存储子系统的需求，同时与计算小芯片相结合，以处理不同类型的工作负载或AI应用。

芯片间互连也有行业标准。例如，UCIe（Universal Chiplet Interconnect Express）以及基于网络芯片（NoC）生态系统的芯片间链路协议。此外，行业合作对于小芯片的崛起也至关重要，它使得行业能够整合供应链，从而简化组装过程。这一合作主要由晶圆厂推动，例如三星的MDI联盟和台积电的3DFabric™联盟。

向1.6T演进

我们已经处于掩模版极限（reticle die limit ）五年多了。在此之前，业界通过增加芯片尺寸来提高带宽。但芯片面积越大，引脚数量越多，这会导致成本失控。

以前可以通过增加交换机上的端口数量来提升数据处理能力，但现在这条路走不通了，因为芯片周围和电缆中的通道数量已经饱和。前面板也不能无限增加端口，散热是个大问题。数据中心的机架大小是标准化的，也不能随便加更多的前面板。

解决方案是增加每条通道的带宽，并转向更具可扩展性的架构。举个例子，现在有一个51.2T的交换机，使用512通道 x 100G链路。未来，可以将每个链路的速度提升到200G，这样只需要256个链路就能达到同样的总带宽，并且不会超出制造芯片的物理限制。通过小芯片技术，未来还可以进一步扩展到512个200G链路，提供更高的带宽和更好的灵活性。

如下图所示，小芯片的最佳芯片间互连（以Gbps/mm和pJ/bit为单位）是UCIe并行接口。由UCIe和224G SerDes驱动的小芯片设计能够支持下一代交换机使用场景。

为什么 UCIe 是下一代 AI 芯片连接的关键？

正文

请到「今天看啥」查看全文