更多一手调研纪要和研报数据,点击上面图片小程序
B100
和
B200
是否存在设计缺陷?源于哪里?
问题在
chiplet
上,之前英伟达都没有使用
chiplet
的技术,它的两个
die
之间的互联出现了信号及设计上的问题。另外一个是
CoWoS-L
涉及到了一些材质的问题,它要解决一些未来产品的可靠性的问题,比如如何去在高温下防止它的变形,以及它中间的硅层如何设计。所以就导致它的
CoWoS-L
良率较低。
是标准单元的设计问题?
标准单元指的就是
chiplet
之间的互联解决方案,它本身的这种互联是多路
SerDes
来实现的,它每路
SerDes
本身的频率是
256G
,但是它有很多组这样子的设计是总线去把它连接起来,实现两个之间的这种高转换,就是它在这个
SerDes
的单元上出现了问题。
之前经历了流片和很多次测试,为什么没有发现这些问题?
首先这种
chiplet
技术对于某些公司来讲可能并不很新鲜,但是对于英伟达来讲是第一次,因为以前它的设计都是单
die
。其次是这种的设计的验证,是需要大规模的同时还要需要
foundry
的配合,才能够去找到这个问题。所以如果只是小规模的使用的话,你只是会前期发现它可能有一些性能上的问题,或者说有一些稳定性上的不足,但是只有在大规模投产的时候,才能看到这个
chiplet
可能会造成的问题。所以这个是属于英伟达在上市之前,它的测试验证的过程当中它发现的问题,是在量产之前发现了这个问题。
互联的设计问题可能在多久之内解决?
Chiplet
的互联是比较简单的,并不是一个非常复杂的技术,它更多的是它
SerDes
之间的设计问题,所以这个更多是它本身
SerDes IP
可能存在的一些不稳定性,或者说它
IP
本身里边的一些代码或信号处理有一些不足,所以这个它想解决问题并不大,它只要在设计当中去把余量放宽放大,同时对它的
IP
做小规模修改,再重新流片就可以做了。所以预计在
3
个月以后,这款产品有可能还能再重新出来,因为它基本上一次设计改动以及它的一次流片的周期差不多就是
3-5
个月。
B200
的
SerDes IP
是英伟达自己的?
对,是
Mellanox
的。
目前
B
系列交付了多少?
现在基本上还没有最终用户拿到,只是部分交付到了
ODM
手里。因为现在它的产品还是在
ODM
手里去做,系统级的验证和测试还没有最终交付。
自身问题导致的出货推迟会不会发生赔偿?
应该不会,因为本身从合同交付的时间来讲,英伟达就留出了一定的余量,所以这个延期还属于它正常的交付窗口期之内。现在的设计很可能在一段时间之内,它的双
die
的这种设计会少,它可能会一段时间之内都主要是单
die
的设计。
B200
推迟
3-5
个月的话,对于
GB200
的出货量和时点的影响大概多久?
GB200
跟
B200
只是属于芯片层面上的一个使用区别,所以预计在
B200
能够正常出货后大概
1~2
个月,他的
GB200
就也能正常出货了,但可能
GB200
所支持的这种
MGX
产品的延迟会比较多,因为这个会涉及到它整体的系统验证和测试,不是简单的一个模组问题。
CoWoS-L
这边的问题是不是也影响到
MI300X
的生产交付?
没有,因为
AMD
暂时没有用这个技术,
AMD
用的还是比较传统
CoWoS-S
。
B200A
的规格?
B200a
就是一个纯粹的单
die
,避免了
chiplet
的问题,所以可以很快就出来。
B200A
改回用到
CoWoS-S
会不会对性能有影响?
性能上影响不是很大,但是它对于它的本身的成本影响会比较大一点。
B200A
是用
4
颗
12-hi
的
HBM3e
?
对,单颗是
36G
。
B200A
如果
Q2
下半旬批量交货,
HBM3E
的供应是否跟得上?
B200A
的
HBM3E
在紧急采用三星的产品,这个月刚认证完。未来
B200A
很有可能最大的供应是三星。
B200
除了封装和互联问题以外,海力士的
HBM
有没有出现问题?
目前最大的问题是封装和互联的问题。
HBM
是一直就有问题的,良品率不是非常高,所以在很多系统当中出现了不稳定或者闪退问题,大家都一样,没有谁能够逃出这个问题。
英特尔的
IFS
拿到了多少
CoWoS-S
的订单?良率怎么样?
它本身的封装技术(
Foveros
)就非常类似于
CoWoS-S
。给英特尔不多,英特尔的这一部分是得到过验证的,所以良率能够达到
90%
多,但还没有达到一个封装最好的水平。
台积电
CoWoS-L
的良率要提高到
90%
左右才可以量产?需要多久能达到?
估计在
2025
年的
Q1-2
它大概能解决这个问题,所以英伟达在今年下半年的整个的封装技术还是以
CoWoS-S
为主。
所以相比
SerDes
设计封装才是最大的瓶颈,如果慢的话
B200
要等到
Q2
出,意味着
GB200
甚至要等到
Q3
出?
对,但是现在它的一个改变方法就是第一它出单
die
来解决它
SerDes
的问题。第二是它有一部分
B200
会转到
CoWoS-S
来保证
B200
的出货。所以如果单看它用
CoWoS-L
的产品它会往后延,但如果单看
B200
本身的量产交货时间应该是
25
年
Q1
。
SerDes
的设计问题和
CoWoS-L
的良率等问题和他把新品周期缩短到一年是否有关?
有一定的关系,因为这些技术都是需要花比较长的时间来进行验证的,现在它缩短到一年,而且采用了很多他以前没有使用的新技术,对于英伟达的整个验证时间来讲压力比较大。而且新技术并不只是英伟达初次使用,而是基本上还没有厂商使用,它是最早的。
HGX B100
和
B200
的需求比例?
HGX B100
现在的需求并不是非常高,很多
CSP
还是希望直接使用
HGX B200
,因为
B100
和
B200
的性能差距还是蛮大的,
B100
唯一的好处就是可以继续使用风冷,
B200
只能使用液冷。现在很多大互联网厂商基本都在积极改造数据中心去满足液冷需求。
头部
CSP
的
NVL
和
HGX B200
的比重?
专家预测
NVL
到
25
年都不会是主流,
B200 Ultra
这款产品有可能未来的量会比较大,而且在
25
年应该是主流,大概占到整个
B
系列的
60%
,另外
B200A
占
20%
左右,
NVL
占
10%
多一点,应该不到
15%
,
B200
的量可能就很少了,英伟达下一步很可能是直接会切到
B200 Ultra
。很多的客户里都认可
NVL
的设计,未来应该是个趋势,但是他们对于
NVL
现在的很多问题还存在比较大的疑问。
B200 Ultra
是不是要等到
Q3
下半旬才能出货?
对,英伟达可能会把
B200A
的时间往前提,然后把
B200 Ultra
稍稍往后放一点
怎么看
H
和
B
系列的
double order
的情况?
这个情况存在,尤其像
B
系列最近出现这个问题之后,有些厂家把原来的
B
系列的订单转到了
H
(两边都下),厂家现在目前在观望
B
系列的出货和良率情况,所以现在是有一些厂家出于订单的急迫性,现在是下了
H
系列的,但他们
B
系列的订单并没有取消。但如果
B
系列后期它的问题很快能得到解决的话,它这些厂家会把它的
H
系列的订单切换到
B
系列。最近英伟达在允许客户追加
H
系列订单的时候,它是允许厂家可以取消这个订单的。
英伟达的所有订单都是可以随时取消,没有后果的取消的对吧?
看情况,多数情况下是可以的。所以现在对于很多厂家来讲就下订单,一是说保他们的需求可以随时满足,二是他们不承担任何的风险就可以做切换。
B
系列的推迟和需求向
H
系列的转移是否导致最近一周
H
系列涨价?
没有,因为
B
系列和
H
系列的用户都是国外比较大型的厂家,他们跟这些厂家的整体的价格都是以年度去谈的价格,所以还是维持原有的价格。
GB200A
的解决方案是一个
Grace
加一个
B200A
?
有一个是
1:2
的,有一个是
1:4
的,还有一个
2:4
的。
CoWoS-S
和
L
是否有比较大的二供可以及时出货,可能是哪一家?
S
现在有若干家,像日月光,安靠都有类似
S
的解决方案,甚至包括通富。
L
现在只有台积电有。
如果提前发货
GB200A
的话,会不会反噬
GB200 Bianca
和
Ariel
的需求?
不太会,因为这两个一是在
die
上的差异,二是内存的带宽和算力差别还是蛮大的,所以一些追求极致的客户会优先选
GB200
。而且
GB200A
未来没有
NVL
的解决方案,如果未来客户想用这种
NVL
的解决方案,它还得要用
GB200
的。
GB200a
主要还是以
HGX
的方式出货。
所谓的
B102
是
B200A
还是
B20
?
B102
是
B200A
的
code
。
B
系列的推迟,包括
CoWoS-L
的问题会不会导致
B200 Ultra
和下一代
Rubin
推迟的概率上升?
对
Robin
可能会造成一定的推迟,因为这两代间隔时间太短,英伟达现在把很大的精力花在去解决
B200
的问题上。按原计划的话留给
Rubin
的窗口期太短了。而且它也现在要看竞争对手的一个表现情况,从它的
B200
来讲,它相比
AMD
已经弥补了在
HBM
带宽上的差距,所以
B200
完全可以在一定程度上还是保持领先优势,所以
Rubin
对英伟达来说可能暂时不是非常急切的一个东西。
B200
的推迟是否会让
MI300X
在客户端的导入加快?
MI300
的市占率不会有太多的提升,因为一些客户目前给的反馈来讲,认为这款芯片还是存在一定的软件上的一些问题。所以
AMD
如果让客户大规模使用,势必还要做更多开发,弥补它软件上的不足。所以现在
AMD
的产品还是有限的,厂家在有选择性的使用,所以并不会抢
B200
的份额。
B200A
的性能怎么和
H200
、
B200
和
B200 Ultra
相比?
预计比
H200
略有提升,范围大概在
1.5-2
倍之间,可能只是一些非常特殊的场景到
2
倍,多数情况下应该在
1.5-1.7
倍。
B200
基本上是
B200A
的
1.3
倍多一点的水平。
B200 Ultra
会是
B200A
的
2
倍。
台积电
CoWoS-L
的
CoW
的部分的
bonder
供应商预计什么时候可以通过验证?最终的方案是
Shibaura+Protec
吗?
它的验证现在主要是它的现在量不够大,所以它在里边的验证没有经过大规模场景下的评测。
Protec
的这个东西没有什么新鲜的,因为这个东西本身已经有若干年了,但只不过是在
L
的情况下是把两种不同的材质结合在一块,可能会造成了一些验证工作的难度提升,所以估计它的材质的认证大概
5-6
个月。因为它需要一定的时间去做更大量的评测和验证,他之前的问题就是这方面的验证做的不多。
Bonder
的
lead time
还是
6
个月吗?
是的。
英特尔最近暂停股息加
15%
的裁员,裁员有特别提到对
R&D
的影响,是否会影响到
Gaudi
的研发和产品的推出?
对
Gaudi 3
不会有太大的影响,下一代可能会有一些。
怎么看
Azure AI
未来几年的增速?
Azure AI
现在的提升不高主要是因为它现在的收费应用场景还不是很多,它现在最主流的云当中的收费场景是它的
OS
和
Office
。但是
Azure AI
这部分还没有全面进入它的
Office
,它只是在里边的一部分业务才能使用,所以现在要看他的这款产品什么时候能够在他的
Office
里面,比如
Copilot
和
Search
里边未来会扮演的角色会越来越重要。那么在这种情况下,它的未来的占比会有所提升,而且还有一个原因就是现在的
Copilot
目前还只是对企业级用户开展有限的这种评测,还并没有成为一个标准的通用型产品对大家开放。所以现在的情况更多的是微软在不断打磨它
Azure