正文
A:有消息称GB200将从2024年Q4推迟到2025年Q1。英伟达官方理由是由于GB200为客户提供了最佳的性能和价值,对GB200的需求持续超过预期。英伟达正努力让部分产品在4Q2024推出,但是大部分可能会在1Q2025开始出货。几乎所有的hyperscalers都将B100或B200切换成GB200,英伟达基本已经取消了B100和B200芯片的生产,GB200应该会在2025年1月份开始出货。
A:DGX-B200跟GB200时间几乎一样,可能会略快一些。据了解,亚马逊和英伟达合作开发的ProjectCeiba是采用DGXCloud的AI超级计算机,搭载了20736颗GB200芯片,目前还不清楚是DGX还是仅仅是芯片,我们的猜测是它可能仅仅是芯片,但看起来英伟达就签了这份GB200的合同,他们可能会优先推出DGX,因为这涉及到了DGXCloud的发布,所以预计DGX-GB200可能会在相同的时间线出货,也有可能会稍早一些。
A:Lambda几乎每周都在和英伟达进行沟通,但是他们并没有特别聚焦在具体的产品上,基本上只关注芯片本身,没有指定DGX或HGX。但是推测英伟达可能会优先快速推出DGX-GB200,因为距离上次更新DGX产品线已经有一段时间了。另外,大家担心的一个主要问题是关于液冷。Lambda内部有些人认为英伟达可能会优先将DGX出货给能够提供液冷解决方案的云厂商。然后英伟达目前面临的最大挑战可能是,美国和全球的数据中心空间还没有能力满足如此多的液冷芯片的需求。英伟达也有可能会优先推出HGX,这意味着英伟达会将其推向更有可能成功的云厂商,但是目前英伟达没有详细说明哪个会先出货。
Q:GB200除了液冷限制外,还有其他芯片级或封装级问题吗?
A:听说可能存在rack方面的问题,不知道这是否与服务器机箱本身、电力还是液冷有关。不确定这是否仅仅是英伟达与单一供应商合作的问题。目前了解到最新的消息就英伟达在与GB200相关的机架问题上遇到了困难,但还没有听说芯片级别上的问题。
Q:您预计客户何时会开始在他们的数据中心部署GB200?
A:一些hyperscalers计划在2025年Q1末也就是3月份部署。所以如果保守一点的话,预计会在Q2的4月份。
Q:考虑到GB200的延迟,如何预估2025年GB200的出货量?
A:英伟达没有与我们分享具体的数字,但有听到一些传言说GB200在使用CoWoS工艺中芯片接合时遇到了一些良率上的问题,导致实际的产率可能只有计划的60%。至于B200,好像已经被取消掉,但也有可能会有一些非常有限的供应量,或许只有Meta或特斯拉这种战略性的非CSP的hyperscaler可能会得到少许B200的分配。另一个传言是所有的CSPs都决定从H100直接过渡到GB200,如果大家都在争夺同一款芯片的供应,就可能会导致一个缓慢的出货过程,考虑到一些出货的优先级等事情。但是目前还没有得到任何确认的消息,还没有听说芯片本身存在什么问题,只是听说量产爬坡速度的增长比预期的要慢。