英伟达特供版AI芯片交流纪要

有道调研 · 公众号 · · 2024-03-03 22:51

正文

更多投研纪要移步知识星球：

Q： H20是H800做训练的6-7成。原来H的时候，算力使用效率是3-4成，新的H20加大带宽，组成集群的大模型训练效率可能比H800更好吗？

A：国内软件训练框架比较弱，国内是GPT1.0\2.0 架构为主，H800算力性能很高，但还是在几百万的训练参数方面没有办法使用起来，H800使用效率很低。但是H20方面，更容易取得训练参数不是很高的方面，很适合多卡堆叠与多个AI服务器的使用。

Q：改良版芯片是更容易大模型训练的吗？

A：国内大模型训练方面，不能单独看硬件。一是卡，二是框架。 GPT4.0是基本囊括国内所有知识，但国内3.0、4.0都没办法用，正规渠道都是1.0 / 2.0，训练参数、性能都局限了。即使H100 有卡也训练不出来，因为底层软件有局限。英伟达推出H20的卡，是可以通过国内客户多买卡实现与A100、H800同样效率。NV可以多买卡，又满足美国禁令，也不会让基于GPT2.0训练模型框架训练处更高的模型，这个模式也是一举多得的。 NV不会完全切断NV与国内的来往，硬件可以给，但是软件层面切断，国内没办法用千亿级训练模型的框架。 NV的IB交换机，光模块的400G\800G不是必须的。因为H100 AI服务器，可以用400G光模块，也可以 800G （ 8张卡是4个800G光模块）。因为AI服务器数量多了，光模块数量也会多的。组网方面，是NV用ib交换机，正常组网还是以太网交换机。

Q： H20产品的 HBM3 是一个板用了3个，就是算力是A100的30%，HBM用量一样？

A：单卡的HBM量与H800相近，H20的cowos的制程与800相比更简单。卡的算力高低，在于晶元制程，nm越低，集成度越高，算力越强。H20的算力来看，设计工艺是一般，还不如910B的算力设计工艺好。代工厂而言，可以用一些比较差的制造工艺来复用，成本下降了。唯一是HBM的好了，价值量3倍。

Q：H20的 NVLINK 是 900GB/S，H800只是400 ，可以达到吗？

A： NVLINK对NV不是高端的，很成熟了，H系列都可以支撑。网络带宽支撑这么大，可以买更多的卡达到，nvlink的传输速度可以领先的。昇腾达不到的，现在是400G，8卡一连就是200了。

Q：训练框架是指？

A：训练模型都是用语言框架支撑，软件框架。软件更新换代，或者技术迭代，国内训练语言框架方面，软件版本比较低，为1.0、2.0，海外升级到 GPT 4.0版本。API端口不给国内账户申请试用，所以体会不到4.0里面软件功能。美国封锁A100\H100 是不愿意分享制造工艺。

Q：为什么H20 卡不需要covos封装？

A：看到有 HBM，但是cowos是4 或 3nm以上，是高端封装，所以A100\A800\H20，制造工艺不像H100那么高，所以封装架构不需要cowos，成本下降。明年H100北美需求旺盛，所以不会为了中国的量，占用封装产能。

Q：对算力租赁影响？

A：从前大部分是A\H800，但是现在对于禁令以后，算力租赁停滞了。现在NV推出H20以后，可以组建算力中心、算力租赁中心。可以通过NVLINK、IB网络架构，使用多张H20，多个基于H20的AI服务器，搭建数据中心。大部分算力公司是基于 cuda架构的，H20的出现会帮助算力租赁中心缓解数据中心搭建的缺卡情况。

Q：是不是可以理解为缓解算力的短缺，限制算力的涨价，对算力租赁公司偏利空？

A：算力公司来讲，是利空的状态。算力租赁行业对卡的依赖性很强，没有生存的价值。

Q： H20可以保留NVLINK，此前带宽要求不影响了吗？

A：限制A\H100时候，有限制网络互联带宽。但是现在11月份对H800禁令来看，取消带宽限制。这是美国政府的问题，如何既不给高端卡，但是不切断业务来往，买更多的卡，达到A\H100的性能。NV会对NVLINK卡间互联做文章，堆叠卡提升性能，是一个好的商业模式。

Q： H20组成集群的性能与HW的比较？

A：服务器卡间瓶颈，服务器间瓶颈。卡间互联910B的互联带宽是H20的一半，卡间互联性能下降一半。服务器间互联，英伟达有一分半IB交换机，没有替代解决方案。国内是400、800G集群交换机，算力损耗比较大。

Q：昇腾卡的性能对标A100 ，软件方面差距在哪里？

A：1）软件方面，商用的软件方面，基本的高端软件都是海外的软件公司。国内公司做兼容性适配是很困难的，NV的出卡之前会做相应性能兼容性测试与调优，所以NV在销售平台上使用方面是最好的。

2）国内卡的客户在互联网公司，他们不会用商业软件，是开源软件做开发，因为每个互联网公司商用方式不同，会做一些开发。他们用互联网的自研平台，迁移适配到国内的卡方面，适配成本迁移成本比较低。大家对互联网行业很关注，国内芯片行业对其也很关注，因为切入NV中，互联网是最容易切入的，没有商业软件的影响，都是自研。软件开发周期比硬件长得多。

Q： 17号禁令下单之后，会有H20 订单的转换吗？还是再次重新下单呢？

A：禁令以后得订单取消掉了，NV的取消。所以H20的订单是重新来的，不能同等替代。

Q：阉割版上市有用吗？客户端需要4 多久业务适配？

A：英伟达的卡在于互联网公司，适配到小批量-大批量，需要半年时间，从引入测试到小批量是半年。卡的阶段是英伟达的设计完成，自身做检测，但没有下方代工厂商，交付给互联网引入测试，下方给服务器代工厂小批量生产调试，再做小批量供应，与互联网同步，半年采购。

Q：大家从训练模型的角度，到底是看INT8还是看FP16甚至是FP32，感觉说法很多，我们评判国内外的卡主要是看哪个指标的算力呢？

Q：主要是FP32与FP64，FP16是国内由于设计工艺原因，没办法达到，真正看浮点运算，还是FP32与FP64。英伟达基本不会做FP16浮点运算参数。国内模型框架，FP16还是可以用的，但还是一旦训练参数激增，就是FP32与FP64。

Q：相对H100等先进芯片，NV变通方案会对成本上升多少呢？

A：运营成本上升会与卡的采购量上升成正比的。以一个通俗例子来看，H100的卡的运营成本，与H800的成本不同，空间、功耗、人员费用方面，卡的费用都是很高的。H20比H100功耗有一些下降，但是比A100提升不少，通过H20来看，未来大批量使用的成本提升A100的3-4倍，比H100低一些。

Q：H20使用液冷方案吗？

A： H20是风冷，液冷还是H100,750w功耗。H20加了2-3张卡，功耗是A100的3-4倍。

英伟达特供版AI芯片交流纪要

正文

请到「今天看啥」查看全文