专栏名称: 独角兽智库

独角兽智库是一个新兴产业投研平台，搭建新兴领域高端技术与投资机构、传统行业的桥梁，让专业的资本找到优质的企业，实现新兴产业的快速发展。平台提供新兴产业干货报告、专家咨询服务。

英伟达AI服务器代工专家交流纪要

独角兽智库 · 公众号 · 科技投资 · 2025-01-23 00:00

正文

独角兽智库产业研究第一智库

独角兽投研情报群招募
独角兽智库发展至今，历时9年，积累了大量资源，也和顶尖投研资源形成了利益共同体，并经过今年近一年的产品测试，小范围会员服务近两年。
十一月精准把握住了固态电池、AI+等板块机会，个股桂发祥、华胜天成、供销大集等
现开放体验名额，加微信：itouzi8888，文末有二维码

拜登下台之前，对台积电的11月份禁令，后续是否真的去执行？对于禁16nm、AI算力等方面，能否梳理一下？

专家：台积电的禁令，基本上是300 millimeter square、30个billion transistor、7纳米，这些比较针对AI，但最后拜登又说16nm可能要禁，但后面这件事比较不确定。如果16nm都要禁止，是很麻烦的事情，而前面的那部分，是已经确定在执行中。所以影响的主要和AI相关，还有智驾车部分，不过智驾车不一定完全会被禁，而是比较高阶的智驾车应该也无法避免。如果是Edge AI可能还好。

是否可以理解为，例如寒武纪、自动驾驶的理想、地平线等不能在台积电做？

专家：对。如果是7nm以下，基本是很困难的。

关于Intel的事，业内近期有什么说法？

专家：听说马斯克带着一些人，如博通，要去买英特尔。不过，个人认为，如果整个要买，谈判可能非常长。但马斯克和博通都不是做Fab出身。所以即使博通和马斯克进驻，要把Foundry救起来，困难度较高。如果要拆分，英特尔可能需要自己先梳理一下如何拆分。例如他把FPGA已经梳理出去，剩下是如何把Foundry独立变成子公司，中间按公司运作。一开始可能Foundry会赔钱。但Foundry自己要想办法如何拓展生意。这些必须要做，且越早做对英特尔本身越好，不管有没有人买它。因为卖总要卖好价格，梳理完毕才知道如何卖比较好。

英伟达GB200，最近又在传各种delay，想了解一下时间线。GB200最新check，市场还说有漏水、组装、测试、部署问题，目前情况如何？和之前有时间线上有哪些区别？是否会再次delay？Q1、Q2会出多少？

专家：从生产这边，Blackwell本身GPU生产似乎没有太大问题，但Bianca的生产的确面临到生产良率问题，这里指板子本身。所以一开始Bianca主要供应商是富士康。后来纬创也被要求加入生产Bianca，基于发现整体良率提升不快，整个Bianca良率现在可能只有80%多。

现在良率还只有80%多？

专家：对。

但板子的问题，在七、八月份时就说有问题，后来说解决了？

专家：主要指生产良率，即生产得first pass yield rate。因为生产也不是那么容易。因为要做治具测试。而目前first pass yield rate不是那么顺利，至少要提到95%，不然花时间再去retest这些板子，进而影响到throughput。一开始鸿海在做，接下来纬创也被要求进来生产Bianca，且要快速提升，所以上礼拜五黄仁勋去纬创尾牙，他在台上和负责生产Nvidia工厂的人视讯，给他们红包，这些在纬创生产Nvidia板子的工厂，总共有900多人都不能参加尾牙，这是其中一个因素，throughput良率要提升，那么first pass yield rate要提高，否则每天能够出货板子不高。

现在基于90%的良率的throughput，一天能做多少？

专家：本来Bianca在富士康，纬创主要是baseboard。baseboard第一季已经下调很多，去年一季，如H200可以做到100K+，一个月大约40K左右。现在板子，一季已经滑落至剩下50~60K。Bianca，本来纬创在第一季不是很多，现在要求纬创把产能提升，希望一季能提高到近100K生产水平。对纬创而言，整体产能比过去只生产baseboard更大。如果用一季来看，Bianca，在刚提到的100K中，纬创是现在近30K。

富士康Q1有多少？

专家：理论上也被要求应该是这个水准以上，个人对富士康没有double check。估计是富士康良率提升较慢，所以纬创才会加进来。

Nvidia Q1总共Bianca有多少？纬创能占多少？1/3是否有呢？

专家：以按照现在情形，纬创可能比1/3多一点。

意思是Nvidia可能Q1是100K以内的Bianca？

专家：纬创Q1是近100K，一个月大概30K。

100K，就是20万颗GPU？

专家：对，20万颗。

如果纬创占一半，英伟达就是四五十万？

专家：对。如果用四五十万去换算成NVL 72是多少呢？

大概6000柜。

专家：即使是这样，应该出不了6000柜，为什么出不了6000柜？鸿海他们组装给Microsoft，广达组装给Google、AWS、Meta。目前鸿海组装并非那么顺利，其中有几个原因：第一，整个机柜设计，本来就会造成组装不容易。如果去看组装，后面是UQD，还有很复杂的connector。每个compute tray透过两根不是那么强固的把手，定位到后面UQD和cable cartridge，这困难度较高。个人认为，精准定位是一个问题。

第二，它需要阻力也很大，要把tray插进UQD，后面connector能够插到cable cartridge，且能够定位非常好，这也是困难。再加上这一次的设计，里面有两个大cold plate，每个cold plate大概10公斤，两个cold plate是20公斤。

基于后面两个大的UQD，在这么多台里，有那么多水冷的component，都需要透过liquid去测试，会有两个问题：第一，UQD良率即使是99%，如果生产几百柜，就会有几柜UQD有问题。第二，这些component，用liquid to liquid的coolant测试，一段时间coolant就要换掉，不然可能会影响到测试品质。这些都会影响throughput，这是有关liquid部分。第三，有关cable cartridge，事实上，当组装时，要插到定位，make sure connection firm没有那么容易。这有可能造成几个问题：第一个问题，不小心有可能bend pin，第二，有可能组装时没有插到定位。在测试时就会发现，有可能一开始测就测不过，有可能测了一半发现突然讯号怪怪的，这些会影响到throughput。第四，之前说的安费诺的cable问题，现在安费诺加紧加班，影响可能稍小一点。这几个可能影响到throughput无法提升。最近英伟达本身系统测试程式也不reliable，一直在改版。而当你组装起来要测试时，发现问题后，然后问人家用哪一个版本，他说已经改了，可不可以再用新版本？这个从不管是鸿海、广达甚至纬创，纬创现在有做给Dell，时常要面临这些问题。

目前这些问题还在陆续解决中，这里鸿海NVL72最辛苦，Microsoft的人也进驻鸿海工厂，且鸿海这些工厂过年也无法放假。广达目前主要出货是Google、Meta，也是所谓的NVL36。NVL36在组装上面碰到问题较小，但在测试上还会碰到一些问题。整体来看，第一季如果能出2000柜已经很好。第二季能再从2000变到4000也很厉害。所以个人预估，上半年大概是6000柜。

您认为鸿海现在产能一天有多少柜？是否有50~100柜？

专家：应该做不到50~100柜。去年鸿海从11月开始到12月可能出不到50柜。

今年Q1 2000、Q2 4000，这已经比之前说的要低很多，因为之前最多时候觉得全年要出个四五万柜？上半年至少出两万柜，后又下修到上半年出1万柜，现在意思是上半年只能出6000柜，又进一步下修？

专家：是的，目前看到的情形是这样。

从Nvidia的角度，业绩是否会miss？还是反正四五十万颗Bianca芯片卖出去了，先去认列收入，所以Q1出2000柜也并不影响到业绩，如何看待？

专家：以2、3、4这几个月，因为马上要guidance，可以看看他如何guidance，所以，事实上大家12月开始买，因为12月出pre sample。至于后面3/4月，需要观察的是：个人现在几乎每个礼拜在和鸿海、纬创、广达去check他们组装的throughput。这里有两个问题：throughput和first pass yield rate组装起来以后，到底组装机柜的first pass yield rate有多少，一开始很惨，可能组起来后测试只有20~30%良率，然后要工程师去看到底哪边出问题。到现在为止，不管是鸿海、纬创，广达个人不太确定，所有engineer都被迫到工厂支援，教工厂人如何做debug。当然良率会随着组装技巧、测试程式成熟来调升，throughput也会越来越高。如果良率很低，例如20~30%，这样的话，如果出10台，那就还有几十台留在工厂。所以货已经从Nvidia出去，但大部分留在ODM工厂，对Nvidia可以认列出营业额，只是货留在ODM工厂，没有真正出到end customer。变成ODM工厂会有很多货，这些货又分两种情形：一种是buy and sell，一种是consign。如果是buy and sell，对ODM的finance burden很大，如果是consign就还好。所以如果看接下来到底谁比较辛苦，要看ODM和CSP采取哪一种business model。

不管和CSP选哪种，在英伟达这边需要先买过来？英伟达能先认列？

专家：对，英伟达绝对是先认列。

刚才说组装良率很低，截止现在为止，良率从之前20~30%现在提升到多少了？

专家：每天都一直在变，个人相信现在组装50%水平应该没有问题。

良率的概念是什么意思？是指组装好十台机器，有五台不能点亮、不能开机，还是只要这五台在测试里有一些标准没有达标？即使它能开机、够跑，但如果没有达到最佳性能，都算不良品？

专家：没错。

是第一种还是第二种？

专家：包含两种，一个开机就不work，第二个是开机没有多久就不良，这也算不良的，组装起来就没有办法通过测试的都叫不良。

个人听到一个说法，微软认为他们知道现在组装起来良率较低，但他们可以接受有一些没有pass测试的，先拉货到数据中心，然后他们慢慢去work，因为他们觉得GPU基本功能可以保障就可以，然后再慢慢改进。

专家：统计的时候还是算不良，当然不良有各式各样类型，可能Microsoft会挑一些可以的，先把这些东西打包起来先出，但对工厂而言就是不良，而且测试程式还一直在fine tune，所以很辛苦，每个人都在加班。黄仁勋说全世界有45家工厂，每家都24小时帮英伟达工作。良率、throughput都不高，所以只好加班来改善问题。

这是从供给端，如果从需求端，是否发生以下的情况：例如客户着急，问这些机器怎么还有很多问题，考虑换HGX 8卡的B200？第二种情况：先拉H200，因为Hopper现在价格也降下来，供给较稳定。第三种：先暂停，什么也不拉，等下半年B300直接跳到next generation。第四种：英伟达地卡暂时都不买，自己做ASIC？

专家：这几个都有持续在发生，且每个CSP做法、想法都不一样，第一，Nvidia自己的product planning，H系列在去年就没有再下单了，全部都改成B系列，所以即使要H，都是库存的，因为没有再下H。

H200也不接受下单？

专家：对，都没有了，都改成B。对Nvidia而言，没有生产H，只生产B。B系列里，以H200到B200，纬创在B200的baseboard，8个GPU的，原来一个月不到20K，现在提高至一个月可能超过20~30K，从纬创视角看到这样的提升，这是B200部分，看到GB200不行就增加B200的产能，这个for sure，谁在这部分跑得较快？主要是AWS、Google。这是关于B200部分。

而OEM目前GB200都相对不是那么active，所以他们也是focus在B200的提货。GB200的部分，的确直接先下修GB200需求，转而再看GB300何时ready。同样在Dell那里，也一样下修GB200的需求，也在看GB300。而AWS本身就对GB的需求没那么大，相对其他CSP，所以没听到他有特别做调整。对于Google和Meta，其中Meta本来就focus在NVL 36，所以也没看他在这个时间点做太大调整。Google也以NVL 36为主，但他也会转成NVL 72。这边有可能会有动作，目前也没有特别听到特别的想法。

GB300，现在得到的消息：2月ES sample会出来，4月QS sample，6月PS sample。如果都一切顺利，当然很大一部分人会把GB200单子转成GB300。GB300本身主要也是针对GB200看到的问题去改善。包含：第一，板子部分。板子做了几个大的改变，本来是2块板子，变成一大块板子。一大块板子里，GPU本身solder，在板子上面变成module。然后把CPU的DRAM，本来也是solder，变成module。这也是板子的主要改动。第二个改动是thermal。整个cold plate完全不一样，原先是一个CPU、两个GPU，变成一个大的cold plate，现在是CPU和GPU的cold plate都拆开，变成各自独立的cold plate。里面所谓的软管，或tube manifold改变也很大，本来是两根internal manifold在旁边，现在变成三根，中间横着一根。横着的一根主要是让tube可以拉起、对直风流。基于原先的tube，第一个问题是很大，会折到两边去，从而影响风流，现在tube变小，也和风流拉起了，所以改善了风流。第二是降低重量，把整个cold plate重量降低。另外一个，GB为了解决系统的稳定性问题，加了超级电容，这个是有关系统additional的解决，所以比较GB300和GB200，除了GPU本身HBM容量变大，其他改变相对比较minor。叠加如果能够找到方法，让组装速度和良率可以提升，甚至cable cartridge那部分，还听他们在讲为了让他可以真正到位，还要用glue润滑油类似的东西，让其可以顺利进去，能够docking。这些会改善GB200现在的问题。如果这些可以顺利、组装，大概GB200会是非常短寿命的一代。

HGX B200的baseboard在纬创这边，是否独供？

专家：是的。

纬创100% 的share？

专家：对。

一个月从20K提升到30K？

专家：是的。

相当于最新forecast，Q1整个季度有90K，乘以8，也就是说70多万颗GPU？

专家：差不多。

有这么多？

专家：因为是forecast，所以是不是可以真正做到这么多？个人不知道，但目前forecast是这样。

因为这个量挺大，GB200的forecast才40~50万颗，而最终出2000柜，也就是十几万颗，意思是Q1，GB200的Blackwell芯片出十几万颗，但HGX8卡B200要出70~80万颗，这很反直觉，这是否make sense？

专家：主要是GB出货不顺，如果GB出货顺，正好反过来。GB出货不顺，Nvidia开始和客人去讨论到底要出什么，所以是不是能够按照这个出，事实上也要看纬创这边，纬创也被要求过年加班了，他们本来就没有planning B200要出那么多。所以包含生产测试设备、物料齐建，的确第一季比较辛苦，完全打乱Nvidia的planning。

这样Nvidia收入特别高，Nvidia第一季有近100多万颗Blackwell，这很夸张。

专家：他今年不是要做400万颗？

但这远高于市场一致预期，现在一致预期是第一季可能出个20~30万颗Blackwell。您现在告诉本人，第一季可能要出100万颗Blackwell。

专家：如果按照这样，今年要做400万颗，如何能做得到？第一季如果二三十万颗。

所以大家觉得会前低后高，第一季是个air pocket。

专家：可后面要出400万颗，第一季应该不会太少，以目前看到的情形是GB的组装的确非常不顺，8卡还可以，要把产能往上拉。能否出到那么多？个人并不不知道，因为以前没有planning。

但有两个地方很奇怪，第一个地方是对客户而言，用GB200 NVL72其实更好，因为可以用到NVLink，在高速域上相当于多一个功能，如果用8卡 HGX，只有NVLink 8，那客户肯定不愿意要，肯定愿用最好的互联性能。为什么客户会愿意换8卡？还不如等等，要NVLink B300就好。

专家：所以就做不出来，事实上纬创也没有expect 8卡会持续有这种产能，只有urgent request。

可能先第一季备给后面用，也不是第一季全部出？

专家：当然有可能。因为GB根本生产不出来，不管是鸿海、广达或是纬创，现在都很辛苦地完成生产。

您刚说主要客户是AWS？他要用8卡。X.AI是否用？

专家：X.AI也转向GB，是否回来用B200很难说，GB如果生产不顺，基于他主要找Dell和Supermicro，但目前没有听到Supermicro开始做GB，Dell开始做GB，但Dell做得非常不顺。所以是否会转向Supermicro来购买他的B200，这很难说。所以如果GB输不顺，为了某些原因直接转向Supermicro买B200的水冷，这也有可能。

Supermicro B200是ready的？

专家：当然，对他而言改动不大。

这是Supermicro一个比较大的upside，可能GB不顺，之后客户转8卡，然后找他。

专家：有这个可能性，而不能说现在已经这样，这才第一个月，大家还在努力中，所有人都在努力中。

您觉得那些Supermicro那些tier2 cloud的客户，包括Coreweave，另外还有一些enterprise、NCP等算力租赁的客人，是否会找Supermicro买B200？

专家：这也不排除，因为Supermicro现在面临较大的问题是是否被下市，要2月才比较明朗，所以传统OEM，无论是Dell或HPE，可能会瓜分Supermicro份额，除了Dell、HPE，这次台湾厂商都进来，包含技嘉、华硕、Pegatron，也会影响到Supermicro的订单，如果针对Supermicro来看，它的竞争态势越来越越严峻。

今年四个季度里都会没有Hopper的收入了吗？

专家：可能还有一点点。

Q1还有50K？

专家：Q1没有那么多，Q1只剩一点。后面基本上就没了。对纬创而言，基本上已经没有多少。这单已经生产的差不多。但对于市场而言，maybe还有。

最开始说的是100K 的Hopper下降到50K，那个是指Q4还是？

专家：那是Q1，但是Q1调整更快，主要转成Blackwell。Hopper基本上会很少。

Q1还有没有50K？Q4有多少？

专家：Q4算起来应该还有100K出头。

Q3呢？

专家：Q3 是140。

Q4环比下滑30个点，Q1环比下滑50~60个点？

专家：对，转成Blackwell了。

一直以来都觉得很奇怪的事情是，Nvidia业绩确认时，按纬创算的，应该比英伟达报出来的业绩多很多。英伟达这里是否做了一些库存？个人不清楚。

专家：已经做一些调整，自己也会make sure每一季成长。出货给到hub。hub本身自己会做调整。

什么叫出货给hub？

专家：因为纬创出来以后会到他的仓库。他的仓库出给CSP还是出给OEM、还是出给谁？

在hub里做一些调整？平滑每个季度。

专家：是的。

今年看全年NVIDIA能做400万颗GPU吗？

专家：我觉得现在还有点难说，今年不一定有办法做到400万颗，可能往后去push。

Patrick：ASIC是否了解？现在英伟达这边供应链不顺，这几家CSP做ASIC进度是否顺利？然后他们有改变forecast吗？

专家：ASIC部分，Meta和Microsoft，因为ASIC performance没有特别好，所以这一代ASIC，Maia还有MTIA都没那么强势，都着重在下一代开发，主要还是Google的TPU6和AWS的Trainum 2。按照目前看到的，Google TPU6的确从博通加单较多，所以Google的TPU6应该比去年的量更多。AWS的Trainum 2主要生产也在纬颖和智邦。纬颖是主要的组装。去年纬颖在AWS的ASIC，每个月可能从大概1K的rack，到今年成长到每个月2K，从capacity的planning来看，事实上整个AWS ASIC在今年的forecast比去年更大，而且大很多。

今年全年预估Trainum2有多少万颗？

专家：应该是170万颗的forecast。AWS此次展示那64颗的cluster，本来一开始设计的时候就只有32颗的cluster，这次做了一些调整，用两柜来兜成一个cluster，所以有64颗。AWS最近做它的Trainum 2的水冷，应该过完年就知道到底谁是它的水冷design partner。

刚刚说的两千柜是NVL 32？

专家：是32。纬颖主要partner，但是他还有其他的partner，Flex、甚至鸿海等。整体的量，从智邦那边了解会较清楚，当然整个supply chain里面就是TSMC、Marvell、智邦、纬颖等。这样去了解大概量可以估的较准，纬颖是系统的部分。

Trainum 2一片wafer可以切几颗？

专家：Trainum 2的die size应该在400mm square左右，所以应该是100多颗。

切五六十颗吧，如果是前道的话？

专家：如果是800的话，大概切五六十几颗。

但它是两个die拼一个。

专家：是的，2个die拼一个，每个die有两个HBM。如果用CoWos来看，也没有很多。

特斯拉Dojo，这个案子是否了解？是不是在纬颖做？

专家：特斯拉Dojo是在纬创做。

design partner是谁？是Alchip？

专家：没有design service partner，它直接和TSMC做完SOW，然后和纬创做整个Dojo的module。

Dojo的量大吗？

专家：目前很小。

之后forecast大吗？

专家：不大，很小。他们现在都在做下一代。下一代CoWoS-L SOW，用CoWoS L的技术来做SOW。下一代不少人开始对这个有兴趣。原因是第一代的SOW用INFO技术。第二代用CoWoS-L，而CoWoS-L是chip last。第一代INFO是chip first，而chip first只能用homogeneous，所以第一代都是同样的，而第二代可以放HBM。第二代是2026~2027出来。

这个是英伟达那个CES拿出来的。

专家：对，但他没有明说，这是未来，事实上对他而言可能是2030的事情。但对其他的CSP较早。

特斯拉FSD AI5 design service是谁？

专家：特斯拉基本上FSD是自己做，也没有design service，FSD AI5的生产从三星改到TSMC。

字节本来在博通做design，因为禁令或地缘政治因素是否有可能有变化？

专家：现在无法确定，当然也可能会被影响。

如果被影响的话，是哪家去帮他做？

专家：应该没有人帮他做，因为主要是生产问题，因为TSMC一定要做background check，所以会影响。而不是谁帮做的问题。

有人认为Trainum 2的170万颗是今年的量？除以32就是53K rack，但专家又刚才说纬颖现在是2K一个月，所以要做两年？

专家：纬颖虽然是2K，但是AWS要求纬颖从2K提到4K，纬颖的forecast不一定会comply with AWS的需求从2K提到4K，所以还有很多的AI partner一起来和他做，所以AWS是否可以做到170万颗？个人不清楚，但整个ecosystem forecast是这样。纬颖如果还是keep 2K的per month per rack，他可能只能分到50%的allocation，其他会去分其他的allocation。

如果第一季英伟达GB200出2000柜NVL 72的话，能出多少台B200的HGX8卡的服务器？

专家：个人猜测，可能第一季40~50K。

这也不算少。

专家：因为它没有良率问题，主要是生产capacity之前测试需求。

但如果只是亚马逊这个客人感兴趣，亚马逊哪需要得了这么多？他一季最多也就拉个10万多台左右。

专家：OEM的需求，OEM没得选择，只能拼命卖B200。

那就只能压在OEM那边，但是OEM也要找客人。

专家：对，OEM没有H，当然就推B，然后 tier2的CSP也不会先放GB，还是一样是B

现开放投研情报群体验名额，更多投研情报服务，请往下看