专栏名称: 调研纪要
机构调研、电话会议
目录
相关文章推荐
每日豆瓣  ·  城市随机观察|公园与夜曲 ·  昨天  
每日经济新闻  ·  最新!特朗普:加沙将会由以色列转交给美国,以 ... ·  21 小时前  
51好读  ›  专栏  ›  调研纪要

GB200不行了?

调研纪要  · 公众号  ·  · 2024-12-07 23:38

主要观点总结

本文主要报道了微软对GB200机架订单的调整,以及关于cartridge链接和组装问题的行业观察和市场展望。

关键观点总结

关键观点1: 微软对GB200和GB300的订单调整

微软在近期对GB200的订单有所调整,并将部分需求转向GB300。这一变化与上下游产业链的观点相呼应,即GB200下游的增长速度将慢于预期。

关键观点2: cartridge的产量和产能问题

供应商正在努力提升cartridge的产量和产能,以解决此前遇到的问题。目前已经有了显著的进步,但仍然存在一些挑战,如自动化产线的稳定性和测试效率等问题。

关键观点3: 自动化产线的稳定性和测试手段

自动化产线在生产过程中起到了重要的作用,但其稳定性和测试手段的提升仍是关键。公司正在开发新的测试治具,以提高测试效率和准确性。

关键观点4: 连接器和线缆的性能测试

连接器和线缆的性能测试是确保产品质量的重要环节。公司通过SI测试和误码测试等手段,来确保产品的稳定性和性能。

关键观点5: 安装过程中的问题

在安装过程中,可能出现一些问题,如pin的变形、线缆的弯曲等,这些问题可能会影响产品的性能。公司正在优化设计和生产流程,以减小这些问题的影响。


正文

JMP:近期,有媒体报道了微软在2025年对GB200机架的有意义订单削减,并将部分需求转向GB300。 在本报告中,我们概述了上下游产业链的观点。总体而言,这与我们之前的报告相呼应,即GB200下游的增长速度将慢于预期,但我们认为,Blackwell上游的出货量不太可能发生变化(2025年约为500万台)。这可能对鸿海和液冷供应商构成额外的负面影响。

报告全文&GB300产业链跟踪详见星球,以下专家解读交流纪要:


Q: 之前市场传闻基于贵司的铜缆cartridge链接和组装问题,可能导致GB200再次延期或订单改变,您对此的行业观察和市场展望是什么?

A: 供应商cartridge产量和产能处于快速提升中,10月之前产能有限,几乎没有大批量量产,而10月之后处于量产状态,当然这种量产规模和产能状况尚未达到英伟达预期,例如英伟达可能希望每个月满足2000~3000台NVL72所需要的cartridge需求,目前远远没有达到,但已经进入量产状态,至于您提到的问题,过去可能花了几个月时间和英伟达一起解决技术问题,这里指的是出货之后、机架安装过程中的面对的问题和优化,同时公司自己过去几个月也花了很多时间和精力取改善产线,以及优化产线、模具等,以保证最终产品性能,您说的问题可能更多指出货后、在客户侧发生的问题,但这个问题个人认为目前应该基本解决,已经进入量产阶段。

Q: 展望下之前产能遇到的瓶颈是什么?

A: 只谈线缆背板部分,NVL72将线缆背板分成4个部分,每个部分称为1个cartidge,是一个铁壳,里面包裹很多电缆,而电缆包括两边的连接器和中间的线缆,组装成1条线,然后多条线组装至cartridge的壳里,再把链接器露出来,这是最终的成品。核心的部件是三个部分,一是连接器,主要由连接器工厂完成,二是中间的线缆,由线缆供应商完成,两个工厂做完后运至组装工厂来组装生产,组装业务指的是将连接器,如cartidae里可能有1300对差分信号,需要将这些差分信号和连接器焊接起来,最后组装成8个pair,最后多条线缆组装成cartridge,这是组装产线的步骤。对于连接器、线缆、组装这3个部分,制约产能的还是组装,当然也能听闻称线材也存在产能不足,但可通过和外面一些供应商合作来解决产能问题,而连接器部分,本身也用于其他场景,相对而言更容易制造,很多工作都是自动化产线完成,且其只是做成一个零件而已,运至最终的组装产线工厂,因此,真正的产能瓶颈是最终组装产线部分,包括自动化产线,及组装完后的测试。而自动化产线,即焊接组装的这部分产线应该是最大的瓶颈。

Q: 展望下目前自动化率大概达到百分之多少?

A: 连接器基本上都是自动化产线完成。线材是过去标准的、常规的线材组装生产线。这两个部分运到组装产线后,第一步焊接:每一对差分信号线与线缆焊接,包括线材的裁线、拨线和焊接,整个过程都是自动化产线完成。多条线再组装成一个cartridge,这些过程是手工完成。从这个角度,主要核心工作都是自动化产线完成,但后面将目前来看不太可能用自动化产线完成,都是手工完成。至于焊接过程,连接器与线之间的焊接,其拼成最终产品,包括线材的裁线、拨线和焊接,很多公司产量不大,这些动作可以人工完成,只是稳定性不如自动化产线。如果问焊接过程有多少百分比是自动化产线完成的,那就是100%。但如果问整个cartridge有多少是自动化产线完成、多少是手工完成,个人觉得大概是60%由自动化产线完成,40%是人工完成。

Q: 因此现在主要出问题的、不稳定地方是手工部分,自动化的几个步骤是否非常稳定?

A: 也不能完全这么说,但是即使是自动化产线,如果达不到预期性能,每个自动化产线结束后,会进行S1测试(信号完整性测试)。如果焊接不好,会被判定为失败,这条线就不会被使用。所以只要通过测试并进入下一个流程环节,就是一个合格线缆。理论上,自动化产线不代表100%没问题。如果有问题,会在Sl测试中过滤掉。而后面多个环节是手工组装,这个过程也可能会有问题,但是这些问题最终也会做测试,过去刚开始时候也是做SI产品线测试,后面也会做一些误码测试(类似模拟客户在真实系统里的误码测试),这种测试当中肯定是会发生发现一些问题,随着生产经验越来越多,之前的问题也逐渐被优化和减少。因此,如果说出问题,每个环节都有可能有问题,但前面的自动化产线是下线就立即做测试,后面的这些步骤,从pair到组cable,再到cartridae,这里没有办法对每个过程都做SI测试,因此可能最后才会发现有问题,再追溯这些问题在何处发生,相对而言是一个比较复杂的过程,如果有问题,会在最终测试中被拦截下来。

Q: 现在整体而言,失败率或合格率是多少?

A: 个人没有这个数据,个人可以尝试取猜测这个数字。个人认为,基于整个过程已经算比较成熟,大家都比较有经验,因此,个人猜测目前每个过程中被被拦截下来的可能最多是百分之几这样一个比例,如3~5%。以后这种比例可能会非常低,如99%都不会有问题。

Q: 您指的3~5%是某一个环节还是拉通来看?

A: 自动化产线部分可能1%不到存在问题,即绝大部分都不会有问题。后面组装成一条线的过程,还会做一个测试,这个地方以前可能3%左右的失败率,而目前可能真实状况应该也在1%左右,个人相信最终通过率会非常高。到做成一个cartridge环节,因为如果有一个pair有问题,或1300对信号当中有一根线有问题,整个cartridge都算fail,比如说生产100个cartridge,乘以1300对信号,13万对信号中只要出现3对信号有问题,这三对信号发生在三个不同的cartridge上,意味最终cartridge失败率就3%,从这个角度,估计可能有3~5%失效率,但这些比例个人相信未来都会降低。

Q: 所以您的意思是从整个cartridge角度看是3%失败率,而不是从线、一对差分对的角度来讲是3%?

A: 对。

Q: 这个水平是否已经算很低?

A: 是很低的。虽然很低,但这里指的是前面环节已经做了最少2次SI测试,前面有失败的地方已经将其拿走将前面两个环节已经认为100%没问题的线,拿去做组装,最后还是有失效的情况。

Q: 对于刚才所说的失效率,是否最终检查测试结果都OK,但发给英伟达之后,英伟达已经降至3%水平,给组装厂,结果在整机组装环节,发现整机不能点亮,或有些端口速率跑不满,进行倒查发现是cartridge铜缆问题,又给公司反馈回来,是否会有这种情况?

A: 个人认为,这种情况可能过去几个月会有,而且这是连接器行业常见的情况。之前测试手段相对单一,后面可能确实有过这些问题,所以英伟达把类似于整机柜的机架,包括switch或computing tray,都提供给本公司,让cartridge在出货之前,往上面插试一下,来做简单的测试,当然这不是一个真正意义switch或server,里面主要是无源板子,来进行误码测试。因此,之前发生过这样的问题,但后面在英伟达提供了设备让本公司测试后,如果每个产品出货前都做了这个测试,基本上不太可能运到现场再出问题,而且是本公司产品的问题,这种可能性不大。因为在出货之前已经模拟了真实应用场景。但该测试并非100%都做过,这点个人不敢肯定。因为如果要100%去测试每个产品,效率会很低。因此,英伟达又让本公司开发另外一套测试治具,将cartridge放置于测试设备里,也类似模拟了真实场景,即用一些板子插入cartridge上,板子上装载一些芯片,来模拟其芯片速率来进行误码测试,这样测试的效率更高。这种测试设备在后期应用后,效率更高,成本也相对更低。总之,随着这些新的测试手段运行,cartridge出问题的概率会低,但也无法说绝对不会发生,

Q: 意思是目前测试设备里没有真正的Blackwell,而是一些假芯片?

A: 个人理解,是的。

Q: 之后改进的设备,是否会有真正的Blackwell芯片?

A: 现在相当于把机架和Server Switch运过来,但个人估计里边是假的,可能没有很多功能板,只是外形一样。个人没看过里面是否有Blackwell,不清楚里面具体是什么样子,总之是芯片在里面,进而可以快速检测信号能否跑通。后面需要让cartridge装在机架上的这种方式比较麻烦,这是其真实应用场景,但并不适合做测试,基于测试需要每一个都装到上面,再把Switch推进去,而这个设计本身就不是用来做测试的,如果这样去做测试,效率很低。因此公司从信号对、整个cartridge豆联关系、每一对的位置、什么位置应该跑什么样的信号、测试误码率等方面类似模拟其应用场景,来做100%的每一对的误码率测试,这样测试效率会高很多。

Q: 虽然新测试工具效率提高,但基于其装在GB200里,如果运行一些大模型训练任务,功耗可能很高、整体工作负载也较重,而具体业务场景、软件类兼容性等较真实业务场景可能无法测试到,是否测试治具上没问题,但真实场景可能无法达成预期效果?

A: 一般不会。在连接器、线缆或PCB行业,对通道的信号完整性的性能要求是可以量化。如自动化产线做一条线后,会立刻做SI测试。客户最终系统是否能跑通,是可以量化每一段的S!指标要求,只要计算、评估给出的标准没问题即可。当然如果给的指标很严格,可能无法达到,如果太宽,可能导致系统无法工作。如果客户给的S!指标很准确,公司也做了100%测试,理论上无黑再误码测试,就可以判断为没问题。坦白而言,公司无法100%将SI每个指标都做测试,一般PCB其实是不测的,也无法测,要装上测试头才可以测。而线缆可以测试,但也无法100%将所有指标都测一遍,而是通常测两个指标,即插入损耗和阳抗,这两个指标如果有问题,可能反映出组装过程有问题。串扰的部分,不是没办法测试,而是测试效率太低,要花很长时间。而且一般产品设计后,不太可能影响串扰了。如果阻抗做的测试也没问题,意味着生产线没有问题,一般通过Sl来做这样的测试。之所以刚才说要做误码率测试,主要是基于跑的码率更接近真实业务,理论上可以模拟真实应用场景,而且时间不会很长。例如,对于秒钟的224G而言,已经是224乘以10的9次方的字节,因此测试十几、二十几秒,也已经是很多字节。所以可以较快做这种误码测试,但测试打的码确实和业务不同,因此也不能完全反映客户系统最终状况。但一般误码测试或S测试通过后,基本不会有问题。因此行业里出现问题,大概率不是本公司连接器或线缆SI问题,而是机械结构等方面引起的。例如,这么多线放在一起,线需要弯曲、缠绕,如果弯折太厉害,可能导致里边信号完整性被破坏,如果原始设计做得好,线没有乱动,是没问题的。但如果安装过程中把线掰来掰去,或者连接器变形,类似机械结构或环境等因素导致最后业务没跑通或跑通但产生很多误码,这并非原始产品问题。当然,如果是一开始生产时不稳定导致的问题,以现在多个环节、多种测试手段来看,那种漏网之鱼的概率很低,更多是因为后期,在测试之后不知道何种原因导致SI性能变化,这种可能性更大。







请到「今天看啥」查看全文