专栏名称: 水木纪要
最有效、最及时分享公私募、公司、行业等投研纪要和市场热点分析。掌握市场信息差,掌握财富代码。
目录
相关文章推荐
新浪科技  ·  【#外国人开始在X上卖中国AI的课# ... ·  21 小时前  
哎咆科技  ·  iPhone SE 4 最快明天发布?直接上架! ·  昨天  
51好读  ›  专栏  ›  水木纪要

B200设计缺陷源于互联,Ultra或成25年主力,Rubin推迟风险!

水木纪要  · 公众号  · 硬件 科技媒体  · 2024-08-09 23:37

正文

更多一手调研纪要和研报数据,点击上面图片小程序

B100 B200 是否存在设计缺陷?源于哪里?

问题在 chiplet 上,之前英伟达都没有使用 chiplet 的技术,它的两个 die 之间的互联出现了信号及设计上的问题。另外一个是 CoWoS-L 涉及到了一些材质的问题,它要解决一些未来产品的可靠性的问题,比如如何去在高温下防止它的变形,以及它中间的硅层如何设计。所以就导致它的 CoWoS-L 良率较低。

是标准单元的设计问题?

标准单元指的就是 chiplet 之间的互联解决方案,它本身的这种互联是多路 SerDes 来实现的,它每路 SerDes 本身的频率是 256G ,但是它有很多组这样子的设计是总线去把它连接起来,实现两个之间的这种高转换,就是它在这个 SerDes 的单元上出现了问题。

之前经历了流片和很多次测试,为什么没有发现这些问题?

首先这种 chiplet 技术对于某些公司来讲可能并不很新鲜,但是对于英伟达来讲是第一次,因为以前它的设计都是单 die 。其次是这种的设计的验证,是需要大规模的同时还要需要 foundry 的配合,才能够去找到这个问题。所以如果只是小规模的使用的话,你只是会前期发现它可能有一些性能上的问题,或者说有一些稳定性上的不足,但是只有在大规模投产的时候,才能看到这个 chiplet 可能会造成的问题。所以这个是属于英伟达在上市之前,它的测试验证的过程当中它发现的问题,是在量产之前发现了这个问题。

互联的设计问题可能在多久之内解决?

Chiplet 的互联是比较简单的,并不是一个非常复杂的技术,它更多的是它 SerDes 之间的设计问题,所以这个更多是它本身 SerDes IP 可能存在的一些不稳定性,或者说它 IP 本身里边的一些代码或信号处理有一些不足,所以这个它想解决问题并不大,它只要在设计当中去把余量放宽放大,同时对它的 IP 做小规模修改,再重新流片就可以做了。所以预计在 3 个月以后,这款产品有可能还能再重新出来,因为它基本上一次设计改动以及它的一次流片的周期差不多就是 3-5 个月。

B200 SerDes IP 是英伟达自己的?

对,是 Mellanox 的。

目前 B 系列交付了多少?

现在基本上还没有最终用户拿到,只是部分交付到了 ODM 手里。因为现在它的产品还是在 ODM 手里去做,系统级的验证和测试还没有最终交付。

自身问题导致的出货推迟会不会发生赔偿?

应该不会,因为本身从合同交付的时间来讲,英伟达就留出了一定的余量,所以这个延期还属于它正常的交付窗口期之内。现在的设计很可能在一段时间之内,它的双 die 的这种设计会少,它可能会一段时间之内都主要是单 die 的设计。

B200 推迟 3-5 个月的话,对于 GB200 的出货量和时点的影响大概多久?

GB200 B200 只是属于芯片层面上的一个使用区别,所以预计在 B200 能够正常出货后大概 1~2 个月,他的 GB200 就也能正常出货了,但可能 GB200 所支持的这种 MGX 产品的延迟会比较多,因为这个会涉及到它整体的系统验证和测试,不是简单的一个模组问题。

CoWoS-L 这边的问题是不是也影响到 MI300X 的生产交付?

没有,因为 AMD 暂时没有用这个技术, AMD 用的还是比较传统 CoWoS-S

B200A 的规格?

B200a 就是一个纯粹的单 die ,避免了 chiplet 的问题,所以可以很快就出来。

B200A 改回用到 CoWoS-S 会不会对性能有影响?

性能上影响不是很大,但是它对于它的本身的成本影响会比较大一点。

B200A 是用 4 12-hi HBM3e

对,单颗是 36G

B200A 如果 Q2 下半旬批量交货, HBM3E 的供应是否跟得上?

B200A HBM3E 在紧急采用三星的产品,这个月刚认证完。未来 B200A 很有可能最大的供应是三星。

B200 除了封装和互联问题以外,海力士的 HBM 有没有出现问题?

目前最大的问题是封装和互联的问题。 HBM 是一直就有问题的,良品率不是非常高,所以在很多系统当中出现了不稳定或者闪退问题,大家都一样,没有谁能够逃出这个问题。

英特尔的 IFS 拿到了多少 CoWoS-S 的订单?良率怎么样?

它本身的封装技术( Foveros )就非常类似于 CoWoS-S 。给英特尔不多,英特尔的这一部分是得到过验证的,所以良率能够达到 90% 多,但还没有达到一个封装最好的水平。

台积电 CoWoS-L 的良率要提高到 90% 左右才可以量产?需要多久能达到?

估计在 2025 年的 Q1-2 它大概能解决这个问题,所以英伟达在今年下半年的整个的封装技术还是以 CoWoS-S 为主。

所以相比 SerDes 设计封装才是最大的瓶颈,如果慢的话 B200 要等到 Q2 出,意味着 GB200 甚至要等到 Q3 出?

对,但是现在它的一个改变方法就是第一它出单 die 来解决它 SerDes 的问题。第二是它有一部分 B200 会转到 CoWoS-S 来保证 B200 的出货。所以如果单看它用 CoWoS-L 的产品它会往后延,但如果单看 B200 本身的量产交货时间应该是 25 Q1

SerDes 的设计问题和 CoWoS-L 的良率等问题和他把新品周期缩短到一年是否有关?

有一定的关系,因为这些技术都是需要花比较长的时间来进行验证的,现在它缩短到一年,而且采用了很多他以前没有使用的新技术,对于英伟达的整个验证时间来讲压力比较大。而且新技术并不只是英伟达初次使用,而是基本上还没有厂商使用,它是最早的。

HGX B100 B200 的需求比例?

HGX B100 现在的需求并不是非常高,很多 CSP 还是希望直接使用 HGX B200 ,因为 B100 B200 的性能差距还是蛮大的, B100 唯一的好处就是可以继续使用风冷, B200 只能使用液冷。现在很多大互联网厂商基本都在积极改造数据中心去满足液冷需求。

头部 CSP NVL HGX B200 的比重?

专家预测 NVL 25 年都不会是主流, B200 Ultra 这款产品有可能未来的量会比较大,而且在 25 年应该是主流,大概占到整个 B 系列的 60% ,另外 B200A 20% 左右, NVL 10% 多一点,应该不到 15% B200 的量可能就很少了,英伟达下一步很可能是直接会切到 B200 Ultra 。很多的客户里都认可 NVL 的设计,未来应该是个趋势,但是他们对于 NVL 现在的很多问题还存在比较大的疑问。

B200 Ultra 是不是要等到 Q3 下半旬才能出货?

对,英伟达可能会把 B200A 的时间往前提,然后把 B200 Ultra 稍稍往后放一点

怎么看 H B 系列的 double order 的情况?

这个情况存在,尤其像 B 系列最近出现这个问题之后,有些厂家把原来的 B 系列的订单转到了 H (两边都下),厂家现在目前在观望 B 系列的出货和良率情况,所以现在是有一些厂家出于订单的急迫性,现在是下了 H 系列的,但他们 B 系列的订单并没有取消。但如果 B 系列后期它的问题很快能得到解决的话,它这些厂家会把它的 H 系列的订单切换到 B 系列。最近英伟达在允许客户追加 H 系列订单的时候,它是允许厂家可以取消这个订单的。

英伟达的所有订单都是可以随时取消,没有后果的取消的对吧?

看情况,多数情况下是可以的。所以现在对于很多厂家来讲就下订单,一是说保他们的需求可以随时满足,二是他们不承担任何的风险就可以做切换。

B 系列的推迟和需求向 H 系列的转移是否导致最近一周 H 系列涨价?

没有,因为 B 系列和 H 系列的用户都是国外比较大型的厂家,他们跟这些厂家的整体的价格都是以年度去谈的价格,所以还是维持原有的价格。

GB200A 的解决方案是一个 Grace 加一个 B200A

有一个是 1:2 的,有一个是 1:4 的,还有一个 2:4 的。

CoWoS-S L 是否有比较大的二供可以及时出货,可能是哪一家?

S 现在有若干家,像日月光,安靠都有类似 S 的解决方案,甚至包括通富。 L 现在只有台积电有。

如果提前发货 GB200A 的话,会不会反噬 GB200 Bianca Ariel 的需求?

不太会,因为这两个一是在 die 上的差异,二是内存的带宽和算力差别还是蛮大的,所以一些追求极致的客户会优先选 GB200 。而且 GB200A 未来没有 NVL 的解决方案,如果未来客户想用这种 NVL 的解决方案,它还得要用 GB200 的。 GB200a 主要还是以 HGX 的方式出货。

所谓的 B102 B200A 还是 B20

B102 B200A code

B 系列的推迟,包括 CoWoS-L 的问题会不会导致 B200 Ultra 和下一代 Rubin 推迟的概率上升?

Robin 可能会造成一定的推迟,因为这两代间隔时间太短,英伟达现在把很大的精力花在去解决 B200 的问题上。按原计划的话留给 Rubin 的窗口期太短了。而且它也现在要看竞争对手的一个表现情况,从它的 B200 来讲,它相比 AMD 已经弥补了在 HBM 带宽上的差距,所以 B200 完全可以在一定程度上还是保持领先优势,所以 Rubin 对英伟达来说可能暂时不是非常急切的一个东西。

B200 的推迟是否会让 MI300X 在客户端的导入加快?

MI300 的市占率不会有太多的提升,因为一些客户目前给的反馈来讲,认为这款芯片还是存在一定的软件上的一些问题。所以 AMD 如果让客户大规模使用,势必还要做更多开发,弥补它软件上的不足。所以现在 AMD 的产品还是有限的,厂家在有选择性的使用,所以并不会抢 B200 的份额。

B200A 的性能怎么和 H200 B200 B200 Ultra 相比?

预计比 H200 略有提升,范围大概在 1.5-2 倍之间,可能只是一些非常特殊的场景到 2 倍,多数情况下应该在 1.5-1.7 倍。 B200 基本上是 B200A 1.3 倍多一点的水平。 B200 Ultra 会是 B200A 2 倍。

台积电 CoWoS-L CoW 的部分的 bonder 供应商预计什么时候可以通过验证?最终的方案是 Shibaura+Protec 吗?

它的验证现在主要是它的现在量不够大,所以它在里边的验证没有经过大规模场景下的评测。 Protec 的这个东西没有什么新鲜的,因为这个东西本身已经有若干年了,但只不过是在 L 的情况下是把两种不同的材质结合在一块,可能会造成了一些验证工作的难度提升,所以估计它的材质的认证大概 5-6 个月。因为它需要一定的时间去做更大量的评测和验证,他之前的问题就是这方面的验证做的不多。

Bonder lead time 还是 6 个月吗?

是的。

英特尔最近暂停股息加 15% 的裁员,裁员有特别提到对 R&D 的影响,是否会影响到 Gaudi 的研发和产品的推出?

Gaudi 3 不会有太大的影响,下一代可能会有一些。

怎么看 Azure AI 未来几年的增速?

Azure AI 现在的提升不高主要是因为它现在的收费应用场景还不是很多,它现在最主流的云当中的收费场景是它的 OS Office 。但是 Azure AI 这部分还没有全面进入它的 Office ,它只是在里边的一部分业务才能使用,所以现在要看他的这款产品什么时候能够在他的 Office 里面,比如 Copilot Search 里边未来会扮演的角色会越来越重要。那么在这种情况下,它的未来的占比会有所提升,而且还有一个原因就是现在的 Copilot 目前还只是对企业级用户开展有限的这种评测,还并没有成为一个标准的通用型产品对大家开放。所以现在的情况更多的是微软在不断打磨它 Azure







请到「今天看啥」查看全文