专栏名称: 调研纪要
机构调研、电话会议
目录
相关文章推荐
一条漫画  ·  能不能放过我们这群笑点低的... ·  21 小时前  
一条漫画  ·  把男朋友藏蛋糕里的求婚戒指咬断了... ·  昨天  
鼠绘情报站  ·  海贼王1138丨从科学的角度解读神典与壁画! ... ·  6 天前  
51好读  ›  专栏  ›  调研纪要

光铜之辩

调研纪要  · 公众号  ·  · 2025-01-19 23:30

正文

周末海外算力方面,有关铜和光的讨论非常热闹,基本围绕黄教主的发言视频展开, 其中一个采访发言是“ 应该尽可能继续使用铜连接技术,硅光子技术还需要几年” ;另一个发言是“ 晶片越来越复杂,封装难度加大,令人兴奋的是这些封装都将通过硅光子连接” ,表述来看这个晶片级连接应该指的是OIO(GPU-GPU/CPU之间互联)。讨论下来,其实市场对这些概念和场景的认识应该还是混乱的,稍作一些解释:


1、铜连接(Overpass/DAC/AEC)和光连接(光模块—CPO/OIO)都是目前NVDA算力集群非常重要的互联互通方式,这也是算力集群能不断迭代的重要核心之一。 目前铜连接场景更多在“柜内连接”以及“服务器到柜顶交换机之间的连接”;光连接(目前是以可插拔光模块为绝对主力)是更高层交换机的连接;两钟连接方式都在不断迭代,各自在各自适合的场景下共同实现集训的高效运转。


2、 展望未来,一是机柜外交换机层面 ,原来可插拔光模块衍生出CPO的技术分支,从1.6T到6.4T周期中逐步实现形态转型,但也会是并行共存的状态,这个层面的连接目前主要是交换机厂最为积极,光模块厂根据行业进度做前瞻布局。 另一个是柜内连接, 包括GPU-GPU/CPU互联,NVSwitch互联,一方面铜连接单通道速率还在迭代,另一方面是设想实现OIO(Optical Input/Output)连接,目前能看到是Ayar Labs(NVDA、AMD、Intel所投)、Marvel等较为活跃。所以目前整体判断,机柜外交换机互联一直是光,只是形态和供应链的变化,预计今年NVDA会逐步发布系列产品,渗透率提升到一定量级需要两三年时间;柜内互联若采用OIO,对现有供应链变化最大,但难度和时间可能也会更不好精确判断。


3、技术路线选择是个复杂问题,不是简单的A进B退,而是技术推动者(nv/博通/tsmc/aph等)与买单方(云厂商)的博弈结果。 双方从稳定性/可演进/带宽/功耗/部署便宜性/维护成本/采购成本等多维度权衡取舍。 云厂商在商业模式上的“解耦”“自研”也深刻影响技术路线的选择。 目前看多技术路线共存并共同成长概率较大。

  • 在Scale-out场景(设备之间): cpo是长期趋势但是两三年内云厂商需求仍以测试为主,大规模商用尚需时日。可插拔光模块受影响程度被严重高估,且即使进入cpo时代,光模块龙头仍凭借其长期硅光芯片设计积累的knowhow、光电封装的深刻理解及技术储备、调制及大规模人工测试能力扮演重要角色。

  • 在Scale-up场景(算力单元内部,芯片之间): 重点关注NV rubin柜内互联方案。目前看oio/pcb/dac/aec/aoc都有可能,我们认为相对可能性较大的是aec和aoc的高低搭配方案,亦不排除其他方案技术路线进步/成熟带来的变化,需继续跟踪。

4、主流的柜内互联方案 梳理:

1)GB200/GB300:DAC互联方式,通过paladin2和overpass线缆组合成的背板互联方式进行互联;

2)CSP自研:亚马逊Trainium2加速卡配套的16/64卡服务器均采用AEC互联,谷歌TPUv6也将导入AEC;

3)Rubin机柜目前仍处开发阶段,其柜内互联的可能方案有:

- DAC方案:速率升级到448G;

- AEC方案:相较DAC,提升了抗干扰、传输距离等;

- PTFE PCB方案:价格便宜,目前处于早期验证中;

➠铜互联: DAC和AEC的主要应用场景为短距离、高带宽、低成本互联,其中AEC为DAC的进阶方案,在抗干扰和衰减、传输距离、线径的方面有较大优势,但由于增加了Retimer芯片,所以提升了成本,AEC目前是业内公认的下一代解决机柜内部互联瓶颈的核心方案。

➠CPO:

⏰时间表:

1)台积电COUPE 2.0 预计将于2026年发布;

2)NVDA X800 CPO版以太网交换机,预计将于2025年 GTC大会发布,8月份量产;

光or铜?

1)Scale-Up在可见的数年内,将依旧采用铜互联(未来可能会转向OIO,但为时尚早);

2)Scale-Out目前是光模块,未来将转向CPO(目前也有采用铜的技术探讨,但受制于传输距离、良率等因素,没有看到落地的可能性);







请到「今天看啥」查看全文