专栏名称: 半导体行业观察
最有深度的半导体新媒体,实时、专业、原创、深度,60万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。
目录
相关文章推荐
江苏药品监管  ·  不是错觉!过了这个年纪,真的更容易长胖 ·  22 小时前  
渭南最生活  ·  国家版减肥指南来了!陕西人可以这样吃→ ·  昨天  
八闽药闻  ·  快感冒了吃点药能压下去吗? ·  昨天  
51好读  ›  专栏  ›  半导体行业观察

PCIE,博通的新芯片路线图

半导体行业观察  · 公众号  ·  · 2025-02-28 11:08

正文

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~


来源:内容编译自nextplatform,谢谢。


PCI-Express 带宽每隔三年增加一次,从首次谈论换挡到其芯片首次投入使用也间隔了三年,因此很难不焦急地等待下一个 PCI-Express 版本投入使用。


因此,人们都在等待服务器和交换机上的 PCI-Express 6.0 端口以及用于扩展和互连端口的重定时器,因此很多人都在为此而努力。但是,据博通称,其母公司 Avago Technologies于 2014 年 6 月以 3.09 亿美元收购了 PCI-Express 交换机制造商 PLX Technology ,从而进入了 PCI-Express 交换机市场。


那次收购发生之前(2015 年 5 月 Avago 以 670 亿美元收购博通并更名之前),部分原因是系统架构师试图将大量 GPU、其他类型的加速器、闪存和网络接口塞进端口太少的服务器中。因此需要某种交换机。此外,公司还在寻找一种在机架规模上聚合计算的方法,该方法比使用 InfiniBand 和以太网具有更低的延迟和更低的成本。PCI -Express 交换机符合这两种要求。


快进十年,在服务器内部和机架顶部拥有大量 PCI-Express 交换机已经完全正常,尽管 Nvidia 利用其专有的 NVSwitch 架构做得更好,该架构拥有更大的带宽来将 GPU 和现在的 CPU 耦合在一起,并在节点内部甚至跨节点共享内存。


全世界都希望有一种开放且价格合理的 NVSwitch 替代方案,用于将组件粘合在一起以创建服务器节点或机架式系统,而 PCI-Express 交换是其中的核心。PCI-Express 6.0 是一个特别棘手的速度飞跃,因为很多东西都在同时发生变化,因为如果要将带宽加倍,并且延迟要或多或少地保持不变,那么它们就必须这样做,因为随着信号速率的提高,纠错需求会变得更加复杂。


正如我们之前讨论过的那样,PCI-Express 6.0 转向 PAM-4 编码(以太网和 InfiniBand 已经采用了这种编码),与早于 PAM-4 且每个信号只有一位的不归零 (NRZ) 编码相比,这种编码每个信号可获得两位,从而有效地将数据速率提高了一倍。但 PAM-4 的信号更脏,在相同时钟速度下,其误码率比 PCI-Express 5.0 及其 NRZ 编码高出三个数量级。高错误率需要前向纠错 (FEC),这会增加延迟。哎呀。因此,由英特尔、博通和其他公司牵头的 PCI-SIG 使用了流控制单元 (FLIT) 和循环冗余校验 (CRC) 错误检测的混合体,这只会增加小数据包大小的延迟,而实际上将大数据包大小的延迟减少了一半。本垒打!


遗憾的是,服务器平台、以太网和 InfiniBand 互连每两年更新一次,而 PCI-Express 端口、重定时器和交换机需要三年才能投入使用——多年来,我们一直对此感到遗憾,认为这是阻抗不匹配。但事实就是如此。


博通一直遵循 PCI-SIG 设定的节奏,推出了多代“Atlas”PCI-Express 交换机和“Vantage”重定时器。重定时器变得越来越重要,因为每次将铜线上的带宽提高两倍时,铜线上的噪声就会变得非常严重,以至于你只能通过将铜线长度减半来减轻噪声。因此,你需要一个重定时器来增强信号,将其推到以前在较低带宽下几乎可以免费获得的距离。


以下是去年 PCI-Express 交换机和重定时器的路线图:



以下是本周发布的版本:



Vantage 5 重定时器支持 PCI-Express 5.0 32 Gb/秒 NRZ 和 PCI-Express 6.0 PAM-4 编码,这是通过 Broadcom 创建的“Talon 5”SerDes 实现的。我们强烈怀疑 Talon 5 SerDes 也用于 Atlas 3 PCI-Express 交换机并提供 PAM-4 支持。


对于那些希望构建更开放、更便宜的 AI 和 HPC 系统的人来说,你可以想象 PCI-Express 6.0 的到来速度是远远不够的。好消息是,它正在按计划进行,Broadcom 数据中心解决方案集团 PCI-Express 交换产品线经理 Sreeni Bagalkote 告诉The Next Platform。本周,Broad 推出了其 PCI-Express 6.0 Interop 开发平台,其中包括“Atlas 3”PEX90144 交换机和配套的“Vantage 5”BCM85668A1 重定时器,


Bagalkote 表示:“PCI-Express Gen 6 可能是 PCI-Express 领域最重要的一步。我们不仅宣布了交换机和重定时器产品组合,还为生态系统中的合作伙伴提供了互操作开发平台。Gen 6.0 将是一个艰难的过渡,因为很多事情都在发生变化。这种转变将首先发生在测试人员中。有些人已经开始使用我们的 Atlas 3 交换机构建他们的测试设备。然后,您将看到公司进入制造测试阶段,到第三季度末或第四季度初,您将开始看到使用 Gen 6 设备的系统制造。真正的 Gen 6 AI 服务器将在明年某个时候开始增加。”


在 PCI-Express 3.0 时代以及 PCI-Express 4.0 过渡的早期阶段,推动 PCI-Express 交换机和重定时器采用率的是英特尔,其次是 IBM 和 AMD(程度较小)。到了 PCI-Express 5.0 代,对更高带宽 PCI-Express 交换机和重定时器的需求,以及在 AI 服务器中塞入更多加速器、闪存和网络接口的需求推动了时序。Bagalkote 说,随着 PCI-Express 6.0 代的出现,AI 服务器成为各公司如此努力实现性能更上一层楼的主要原因。一台典型的配备八个 GPU 的 AI 服务器有四个 PCI-Express 交换机,而对于 Broadcom Atlas 2 和 3 设备,每个交换机有 144 个通道,实现为 72 个端口。Bagalkote 称,这比其他 PCI-Express 6.0 交换机多 2.25 倍的通道数;我们不确定这些数据来自哪里。(我们还没有看到 Microchip 发布 PCI-Express 6.0 的消息,但应该很快就会发布。)


我们确实知道,现代人工智能服务器需要更多更快的通道,不仅用于连接,还用于遥测和排除这些复杂系统的故障。


“与传统 PCIe 不同,在传统 PCIe 中,所有流量都通过 CPU 流动,而在 AI 服务器中,没有中央 CPU 编排,因为 AI 加速器使用 GPUDirect 相互通信,并使用 GPUDirect 与存储通信。加速器和网络接口使用点对点通信。因此,这些设备之间有很多交互,而且复杂性很高。因此,我们不仅需要非常强大的 PCI-Express 交换机,而且我们还发现,我们在不知不觉中几乎是偶然地成为了世界上大多数 AI 服务器的遥测和诊断中心。我们一直拥有大量的调试能力,但我们意识到这还不够。我们需要在机架级别启用 AI 生态系统才能进行调试,因此我们将所有底层功能连贯地拼接起来,并开始将其展示给服务器供应商以及 AI 部署者,即超大规模者。”


互操作开发平台旨在将合作伙伴和客户聚集在一起,构建一套连贯的遥测系统并使其正常运转。


该互操作工具包括来自 Broadcom 的 ASIC、来自 Teledyne 的 LeCroy 训练器和分析仪以及来自 Micron Technology 的闪存驱动器接口。


这一切都很好,我们很高兴 PCI-Express 正在不断发展。但我们有一个想法。是的,PCI-Express 交换机非常适合将闪存和 NIC 绑定到 AI 服务器或任何类型的 HPC 服务器或数据分析服务器中的加速器和 CPU。


但也许我们需要的是看起来和闻起来更像 NVLink 端口和 NVSwitches 的东西?像 Nvidia 使用 NVSwitch 那样聚合 PCI-Express 端口怎么样?您需要在计算引擎上创建一个匹配的 NVLink 模拟,以便它们可以相互链接或链接到主机 CPU。比 PCI-Express x16 通道聚合大得多的东西。


Nvidia 在 NVLink 和 NVSwitch 上可能并没有发挥出应有的魔力。我们在 2024 年 3 月详细介绍过的NVSwitch 4 ASIC在总共 288 条以 200 Gb/秒速度运行的通道上拥有 57.6 Tb/秒的总带宽。Nvidia 需要 72 条通道来构成一个 NVLink 5 端口,因此每个 NVSwitch 4 只有四个端口。该 NVLink 5 端口提供 1.8 TB/秒的带宽,这看起来很疯狂,但对于 AI 工作负载来说,有时这是必要的。


PCI-Express 通道在 PCI-Express 6.0 下以 64 Gb/秒的速度运行,并且通过 x16 通道聚合,可为您提供 256 GB/秒的带宽(双工)。如果您创建了某种意义上的 x64 端口,那么您将拥有 1 TB/秒的带宽,并且您将有 16 个 PCI-Express 6.0 通道剩余,可用于 144 通道交换机中的其他用途。您可以将其称为 PCI-Link 1.0,然后着手为 PCI-Express 6.0 交换机提供比目前更多的带宽。在 CPU 和 GPU 上添加一些 CXL 内存寻址,您也可以在其上执行一致性内存。


参考链接

https://www.nextplatform.com/2025/02/26/broadcom-itching-to-get-pci-express-6-0-into-the-field/


END


👇半导体精品公众号推荐👇


▲点击上方名片即可关注

专注半导体领域更多原创内容


▲点击上方名片即可关注

关注全球半导体产业动向与趋势


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第4049期内容,欢迎关注。


推荐阅读


一颗改变了世界的芯片

美国商务部长:华为的芯片没那么先进

“ASML新光刻机,太贵了!”

悄然崛起的英伟达新对手

芯片暴跌,全怪特朗普

替代EUV光刻,新方案公布!

半导体设备巨头,工资暴涨40%







请到「今天看啥」查看全文