专栏名称: 刘翔电子研究
国信电子行业分析师:刘翔、蓝逸翔、马红丽、唐泓翼,关注中国电子产业在全球产业链中角色的渐进式升级,致力于为A股二级市场机构投资者提供专业的电子板块股票投资咨询,为中国电子产业与资本共荣尽一己绵薄之力。
目录
相关文章推荐
算法与数学之美  ·  二级教授、大学原副校长,国务院特殊津贴获得者 ... ·  5 小时前  
算法与数学之美  ·  丘成桐任首任院长!顶尖大学成立新学院:8年制 ... ·  5 小时前  
九章算法  ·  升到L6,谈谈今年的情况 ·  3 天前  
51好读  ›  专栏  ›  刘翔电子研究

未来AI硬科技的难点在这里,机会点也在这里

刘翔电子研究  · 公众号  ·  · 2024-11-21 21:27

正文

最近有一篇报道,如下:

英伟达 最新的Blackwell AI芯片在服务器部署中遇到 严重的散热问题 。这个问题可能影响包括Meta、Google和Microsoft在内的主要客户的数据中心建设计划。”

即使有这些问题,英伟达基于Blackwell芯片的NVL平台依然在供不应求的出货中。没有办法,云厂商们对AI算力需求太渴望了,即使 散热带病出征。

应朋友的要求,先广告推荐他的一个公众号,做科技硬件终端研究的达人。

尽管 B200 仍在出货爬坡中,但一些 CSP(超大规模云)厂商已经开始与供应链互动B300。B300 (Blackwell Ultra)正如其名,是B200的升级版本。 其三个关键更新:

  • 首先是使用 x86 CPU 的替代方案,这表明仍然需要 PCI-E 接口(和相关组件)。

  • 其次是电源 – 超级电容器和 BBU(Battery Backup Unit)(如 UPS)的引入旨在解决电源问题。

  • 第三是更灵活地决定零部件供应商。


第一点的意思是: 可以不使用英伟达自己家的Grace CPU ,而使用其他家的CPU。而其他家的CPU的外设接口用的是PCIe接口;

第二点的意思是: 机架的功耗增加需要超级电容来做备份 。(电池本质上就是一个充放电时间很长的电容)。那为什么以前不需要,现在需要呢?不就是因为功耗增加了,要求运算峰值的时候爆发一把,非峰值的时候就蓄电。

第三点的意思是上游零部件供应商可以有更多地灵活选择。 对非一供的厂商有利

这三点展开谈都可以谈很多,我今天 重点说说第二点功耗及相关

正如上面报道所言,电源给服务器供电,但是并不是所有的能量都百分之百用于正途(计算、传输或者存储),电子之间的碰撞不可避免就产生了热。能量真正有效比例就是效率,集成电路的效率。效率和CMOS材料有关,集成电路工艺可以升级,但是效率却基本无法提升。因为工艺升级并没有改变材料。 总输入的能量或者功耗增加了 ,效率没有改善, 意味着耗散出来的热量必然就会增加。

B300是B200的升级版本,所以B200出现的 严重散热问题在B300不但仍然存在,而且会更加严重。

这一点成为AI硬件当前最大难点 。毫无疑问,谁能解决这个难点,谁就有价值。

对于散热,我认为当前市场有着极大的误解。 他们心目中的散热难点是芯片壳体温度降到环境温度; 然而,真实的难点是:芯片封装内部die到芯片壳体+ 芯片与芯片之间的热串扰。

这个难点已经严重困扰了整个产业界,以致于在今年OCP(开放计算平台组织)会议上 作为最重要的话题拿出来讨论

为什么不是以前,而是今年成为业界的聚焦点?本质上还是因为GPU的高算力及GPU配套的高存储、高传输。过去CPU时代不成为问题的问题,现在因为GPU功耗快速增速而成为显著问题。

GPU的出现让散热问题越来越突出,这点很好理解。但其实 散热分为两部分 第一部分 是芯 片弱晶圆die到芯片封装外壳 ;第二部分是芯片封装外壳到环境温度。

正如以下这个ppt所言,第二部分可以很好解决, 真正的难点是第一部分:晶圆die到芯片封装外壳 以及芯片与芯片之间的热串扰。

面PPT的右下角柱状图表的两支,左边是ASIC(专用集成电路),右边是HBM。HBM中芯片封装内部热阻抗(蓝色部分)占比73%,明显高于AISIC的蓝色部分,就是说 HBM散热要求更高 。为啥HBM散热要求高?道理很简单,8层或12层或者16层叠在一起肯定发热更多嘛。

这些散热要求 不仅仅在芯片内部 芯片和散热片之间 ,也同样在 芯片与中间层(interposer)的内部与之间 interposer与载板的内部与之间 载板与PCB的内部与之间 。这也是业内探讨用玻璃材质取代硅晶圆来做interposer的理由之一。

更有未来不论是硅光还是其他,集成是大趋势。HBM、GPU、还有其他的芯片都封装在一起,这里面芯片之间的串热和散热搅在一起,散热的要求就更高了。如下图这就是台积电未来的COWOS封装方案,整合在一起,统统整合到一个芯片里面。

事实上,确实如此。英伟达的 下一代GPU,Rubin 就要将自己家设计的CPU、GPU整合到一起。Blackwell的下一代Rubin方案 主要特点如下

  • 内存和带宽 :Rubin架构的GPU将支持12层HBM4堆栈,而Rubin Ultra将支持16层HBM4堆栈,这将显著提升内存容量和带宽,为AI和高性能计算提供更强的数据吞吐能力

  • CPU集成 :与Rubin GPU一同公布的还有名为Vera的新型CPU, 该CPU将被集成在名为Vera Rubin的加速卡上,形成超级芯片 ,这标志着NVIDIA在CPU领域的进一步扩展。

  • 网络性能 :Rubin平台采用了NVLink 6交换机,其速度高达3,600 GB/s,以及CX9 SuperNIC组件,提供高达1,600 GB/s的速率,这将极大地提升数据中心内部的数据传输效率。







请到「今天看啥」查看全文