专栏名称: 独角兽智库
独角兽智库是一个新兴产业投研平台,搭建新兴领域高端技术与投资机构、传统行业的桥梁,让专业的资本找到优质的企业,实现新兴产业的快速发展。平台提供新兴产业干货报告、专家咨询服务。
目录
相关文章推荐
独角兽智库  ·  机器人新思路 ·  2 天前  
独角兽智库  ·  ​OpenAI智能体如期发布,AI ... ·  2 天前  
高毅资产管理  ·  新的一年,如何保持精力充沛? ·  2 天前  
独角兽智库  ·  2025年机器人产业投资节奏与潜在催化节点 ·  5 天前  
51好读  ›  专栏  ›  独角兽智库

英伟达AI服务器代工专家交流纪要

独角兽智库  · 公众号  · 科技投资  · 2025-01-23 00:00

正文


独角兽智库 产业研究第一智库

独角兽投研情报群招募

独角兽智库发展至今,历时9年,积累了大量资源,也和顶尖投研资源形成了利益共同体,并经过今年近一年的产品测试,小范围会员服务近两年。

十一月精准把握住了固态电池、AI+等板块机会,个股桂发祥、华胜天成、供销大集

现开放体验名额,加微信:itouzi8888,文末有二维码


拜登下台之前,对台积电的11月份禁令,后续是否真的去执行?对于禁16nm、AI算力等方面,能否梳理一下?

专家:台积电的禁令,基本上是300 millimeter square、30个billion transistor、7纳米,这些比较针对AI,但最后拜登又说16nm可能要禁,但后面这件事比较不确定。如果16nm都要禁止,是很麻烦的事情,而前面的那部分,是已经确定在执行中。所以影响的主要和AI相关,还有智驾车部分,不过智驾车不一定完全会被禁,而是比较高阶的智驾车应该也无法避免。如果是Edge AI可能还好。

是否可以理解为,例如寒武纪、自动驾驶的理想、地平线等不能在台积电做?

专家:对。如果是7nm以下,基本是很困难的。

关于Intel的事,业内近期有什么说法?

专家:听说马斯克带着一些人,如博通,要去买英特尔。不过,个人认为,如果整个要买,谈判可能非常长。但马斯克和博通都不是做Fab出身。所以即使博通和马斯克进驻,要把Foundry救起来,困难度较高。如果要拆分,英特尔可能需要自己先梳理一下如何拆分。例如他把FPGA已经梳理出去,剩下是如何把Foundry独立变成子公司,中间按公司运作。一开始可能Foundry会赔钱。但Foundry自己要想办法如何拓展生意。这些必须要做,且越早做对英特尔本身越好,不管有没有人买它。因为卖总要卖好价格,梳理完毕才知道如何卖比较好。

英伟达GB200,最近又在传各种delay,想了解一下时间线。GB200最新check,市场还说有漏水、组装、测试、部署问题,目前情况如何?和之前有时间线上有哪些区别?是否会再次delay?Q1、Q2会出多少?

专家:从生产这边,Blackwell本身GPU生产似乎没有太大问题,但Bianca的生产的确面临到生产良率问题,这里指板子本身。所以一开始Bianca主要供应商是富士康。后来纬创也被要求加入生产Bianca,基于发现整体良率提升不快,整个Bianca良率现在可能只有80%多。

现在良率还只有80%多?

专家:对。

但板子的问题,在七、八月份时就说有问题,后来说解决了?

专家:主要指生产良率,即生产得first pass yield rate。因为生产也不是那么容易。因为要做治具测试。而目前first pass yield rate不是那么顺利,至少要提到95%,不然花时间再去retest这些板子,进而影响到throughput。一开始鸿海在做,接下来纬创也被要求进来生产Bianca,且要快速提升,所以上礼拜五黄仁勋去纬创尾牙,他在台上和负责生产Nvidia工厂的人视讯,给他们红包,这些在纬创生产Nvidia板子的工厂,总共有900多人都不能参加尾牙,这是其中一个因素,throughput良率要提升,那么first pass yield rate要提高,否则每天能够出货板子不高。

现在基于90%的良率的throughput,一天能做多少?

专家:本来Bianca在富士康,纬创主要是baseboard。baseboard第一季已经下调很多,去年一季,如H200可以做到100K+,一个月大约40K左右。现在板子,一季已经滑落至剩下50~60K。Bianca,本来纬创在第一季不是很多,现在要求纬创把产能提升,希望一季能提高到近100K生产水平。对纬创而言,整体产能比过去只生产baseboard更大。如果用一季来看,Bianca,在刚提到的100K中,纬创是现在近30K。

富士康Q1有多少?

专家:理论上也被要求应该是这个水准以上,个人对富士康没有double check。估计是富士康良率提升较慢,所以纬创才会加进来。

Nvidia Q1总共Bianca有多少?纬创能占多少?1/3是否有呢?

专家:以按照现在情形,纬创可能比1/3多一点。

意思是Nvidia可能Q1是100K以内的Bianca?

专家:纬创Q1是近100K,一个月大概30K。

100K,就是20万颗GPU?

专家:对,20万颗。

如果纬创占一半,英伟达就是四五十万?

专家:对。如果用四五十万去换算成NVL 72是多少呢?

大概6000柜。

专家:即使是这样,应该出不了6000柜,为什么出不了6000柜?鸿海他们组装给Microsoft,广达组装给Google、AWS、Meta。目前鸿海组装并非那么顺利,其中有几个原因:第一,整个机柜设计,本来就会造成组装不容易。如果去看组装,后面是UQD,还有很复杂 的connector。每个compute tray透过两根不是那么强固的把手,定位到后面UQD和cable cartridge,这困难度较高。个人认为,精准定位是一个问题。

第二,它需要阻力也很大,要把tray插进UQD,后面connector能够插到cable cartridge,且能够定位非常好,这也是困难。再加上这一次的设计,里面有两个大cold plate,每个cold plate大概10公斤,两个cold plate是20公斤。

基于后面两个大的UQD,在这么多台里,有那么多水冷的component,都需要透过liquid去测试,会有两个问题:第一,UQD良率即使是99%,如果生产几百柜,就会有几柜UQD有问题。第二,这些component,用liquid to liquid的coolant测试,一段时间coolant就要换掉,不然可能会影响到测试品质。这些都会影响throughput,这是有关liquid部分。第三,有关cable cartridge,事实上,当组装时,要插到定位,make sure connection firm没有那么容易。这有可能造成几个问题:第一个问题,不小心有可能bend pin,第二,有可能组装时没有插到定位。在测试时就会发现,有可能一开始测就测不过,有可能测了一半发现突然讯号怪怪的,这些会影响到throughput。第四,之前说的安费诺的cable问题,现在安费诺加紧加班,影响可能稍小一点。这几个可能影响到throughput无法提升。最近英伟达本身系统测试程式也不reliable,一直在改版。而当你组装起来要测试时,发现问题后,然后问人家用哪一个版本,他说已经改了,可不可以再用新版本?这个从不管是鸿海、广达甚至纬创,纬创现在有做给Dell,时常要面临这些问题。

目前这些问题还在陆续解决中,这里鸿海NVL72最辛苦,Microsoft的人也进驻鸿海工厂,且鸿海这些工厂过年也无法放假。广达目前主要出货是Google、Meta,也是所谓的NVL36。NVL36在组装上面碰到问题较小,但在测试上还会碰到一些问题。整体来看,第一季如果能出2000柜已经很好。第二季能再从2000变到4000也很厉害。所以个人预估,上半年大概是6000柜。

您认为鸿海现在产能一天有多少柜?是否有50~100柜?

专家:应该做不到50~100柜。去年鸿海从11月开始到12月可能出不到50柜。

今年Q1 2000、Q2 4000,这已经比之前说的要低很多,因为之前最多时候觉得全年要出个四五万柜?上半年至少出两万柜,后又下修到上半年出1万柜,现在意思是上半年只能出6000柜,又进一步下修?

专家:是的,目前看到的情形是这样。

从Nvidia的角度,业绩是否会miss?还是反正四五十万颗Bianca芯片卖出去了,先去认列收入,所以Q1出2000柜也并不影响到业绩,如何看待?

专家:以2、3、4这几个月,因为马上要guidance,可以看看他如何guidance,所以,事实上大家12月开始买,因为12月出pre sample。至于后面3/4月,需要观察的是:个人现在几乎每个礼拜在和鸿海、纬创、广达去check他们组装的throughput。这里有两个问题:throughput和first pass yield rate组装起来以后,到底组装机柜的first pass yield rate有多少,一开始很惨,可能组起来后测试只有20~30%良率,然后要工程师去看到底哪边出问题。到现在为止,不管是鸿海、纬创,广达个人不太确定,所有engineer都被迫到工厂支援,教工厂人如何做debug。当然良率会随着组装技巧、测试程式成熟来调升,throughput也会越来越高。如果良率很低,例如20~30%,这样的话,如果出10台,那就还有几十台留在工厂。所以货已经从Nvidia出去,但大部分留在ODM工厂,对Nvidia可以认列出营业额,只是货留在ODM工厂,没有真正出到end customer。变成ODM工厂会有很多货,这些货又分两种情形:一种是buy and sell,一种是consign。如果是buy and sell,对ODM的finance burden很大,如果是consign就还好。所以如果看接下来到底谁比较辛苦,要看ODM和CSP采取哪一种business model。

不管和CSP选哪种,在英伟达这边需要先买过来?英伟达能先认列?

专家:对,英伟达绝对是先认列。

刚才说组装良率很低,截止现在为止,良率从之前20~30%现在提升到多少了?

专家:每天都一直在变,个人相信现在组装50%水平应该没有问题。

良率的概念是什么意思?是指组装好十台机器,有五台不能点亮、不能开机,还是只要这五台在测试里有一些标准没有达标?即使它能开机、够跑,但如果没有达到最佳性能,都算不良品?

专家:没错。

是第一种还是第二种?

专家:包含两种,一个开机就不work,第二个是开机没有多久就不良,这也算不良的,组装起来就没有办法通过测试的都叫不良。

个人听到一个说法,微软认为他们知道现在组装起来良率较低,但他们可以接受有一些没有pass测试的,先拉货到数据中心,然后他们慢慢去work,因为他们觉得GPU基本功能可以保障就可以,然后再慢慢改进。

专家:统计的时候还是算不良,当然不良有各式各样类型,可能Microsoft会挑一些可以的,先把这些东西打包起来先出,但对工厂而言就是不良,而且测试程式还一直在fine tune,所以很辛苦,每个人都在加班。黄仁勋说全世界有45家工厂,每家都24小时帮英伟达工作。良率、throughput都不高,所以只好加班来改善问题。

这是从供给端,如果从需求端,是否发生以下的情况:例如客户着急,问这些机器怎么还有很多问题,考虑换HGX 8卡的B200?第二种情况:先拉H200,因为Hopper现在价格也降下来,供给较稳定。第三种:先暂停,什么也不拉,等下半年B300直接跳到next generation。第四种:英伟达地卡暂时都不买,自己做ASIC?

专家:这几个都有持续在发生,且每个CSP做法、想法都不一样,第一,Nvidia自己的product planning,H系列在去年就没有再下单了,全部都改成B系列,所以即使要H,都是库存的,因为没有再下H。

H200也不接受下单?

专家:对,都没有了,都改成B。对Nvidia而言,没有生产H,只生产B。B系列里,以H200到B200,纬创在B200的baseboard,8个GPU的,原来一个月不到20K,现在提高至一个月可能超过20~30K,从纬创视角看到这样的提升,这是B200部分,看到GB200不行就增加B200的产能,这个for sure,谁在这部分跑得较快?主要是AWS、Google。这是关于B200部分。

而OEM目前GB200都相对不是那么active,所以他们也是focus在B200的提货。GB200的部分,的确直接先下修GB200需求,转而再看GB300何时ready。同样在Dell那里,也一样下修GB200的需求,也在看GB300。而AWS本身就对GB的需求没那么大,相对其他CSP,所以没听到他有特别做调整。对于Google和Meta,其中Meta本来就focus在NVL 36,所以也没看他在这个时间点做太大调整。Google也以NVL 36为主,但他也会转成NVL 72。这边有可能会有动作,目前也没有特别听到特别的想法。

GB300,现在得到的消息:2月ES sample会出来,4月QS sample,6月PS sample。如果都一切顺利,当然很大一部分人会把GB200单子转成GB300。GB300本身主要也是针对GB200看到的问题去改善。包含:第一,板子部分。板子做了几个大的改变,本来是2块板子,变成一大块板子。一大块板子里,GPU本身solder,在板子上面变成module。然后把CPU的DRAM,本来也是solder,变成module。这也是板子的主要改动。第二个改动是thermal。整个cold plate完全不一样,原先是一个CPU、两个GPU,变成一个大的cold plate,现在是CPU和GPU的cold plate都拆开,变成各自独立的cold plate。里面所谓的软管,或tube manifold改变也很大,本来是两根internal manifold在旁边,现在变成三根,中间横着一根。横着的一根主要是让tube可以拉起、对直风流。基于原先的tube,第一个问题是很大,会折到两边去,从而影响风流,现在tube变小,也和风流拉起了,所以改善了风流。第二是降低重量,把整个cold plate重量降低。另外一个,GB为了解决系统的稳定性问题,加了超级电容,这个是有关系统additional的解决,所以比较GB300和GB200,除了GPU本身HBM容量变大,其他改变相对比较minor。叠加如果能够找到方法,让组装速度和良率可以提升,甚至cable cartridge那部分,还听他们在讲为了让他可以真正到位,还要用glue润滑油类似的东西,让其可以顺利进去,能够docking。这些会改善GB200现在的问题。如果这些可以顺利、组装,大概GB200会是非常短寿命的一代。

HGX B200的baseboard在纬创这边,是否独供?

专家:是的。

纬创100% 的share?

专家:对。

一个月从20K提升到30K?

专家:是的。

相当于最新forecast,Q1整个季度有90K,乘以8,也就是说70多万颗GPU?

专家:差不多。

有这么多?

专家:因为是forecast,所以是不是可以真正做到这么多?个人不知道,但目前forecast是这样。

因为这个量挺大,GB200的forecast才40~50万颗,而最终出2000柜,也就是十几万颗,意思是Q1,GB200的Blackwell芯片出十几万颗,但HGX8卡B200要出70~80万颗,这很反直觉,这是否make sense?

专家:主要是GB出货不顺,如果GB出货顺,正好反过来。GB出货不顺,Nvidia开始和客人去讨论到底要出什么,所以是不是能够按照这个出,事实上也要看纬创这边,纬创也被要求过年加班了,他们本来就没有planning B200要出那么多。所以包含生产测试设备、物料齐建,的确第一季比较辛苦,完全打乱Nvidia的planning。

这样Nvidia收入特别高,Nvidia第一季有近100多万颗Blackwell,这很夸张。

专家:他今年不是要做400万颗?

但这远高于市场一致预期,现在一致预期是第一季可能出个20~30万颗Blackwell。您现在告诉本人,第一季可能要出100万颗Blackwell。

专家:如果按照这样,今年要做400万颗,如何能做得到?第一季如果二三十万颗。

所以大家觉得会前低后高,第一季是个air pocket。

专家:可后面要出400万颗,第一季应该不会太少,以目前看到的情形是GB的组装的确非常不顺,8卡还可以,要把产能往上拉。能否出到那么多?个人并不不知道,因为以前没有planning。

但有两个地方很奇怪,第一个地方是对客户而言,用GB200 NVL72其实更好,因为可以用到NVLink,在高速域上相当于多一个功能,如果用8卡 HGX,只有NVLink 8,那客户肯定不愿意要,肯定愿用最好的互联性能。为什么客户会愿意换8卡?还不如等等,要NVLink B300就好。

专家:所以就做不出来,事实上纬创也没有expect 8卡会持续有这种产能,只有urgent request。

可能先第一季备给后面用,也不是第一季全部出?

专家:当然有可能。因为GB根本生产不出来,不管是鸿海、广达或是纬创,现在都很辛苦地完成生产。

您刚说主要客户是AWS?他要用8卡。X.AI是否用?

专家:X.AI也转向GB,是否回来用B200很难说,GB如果生产不顺,基于他主要找Dell和Supermicro,但目前没有听到Supermicro开始做GB,Dell开始做GB,但Dell做得非常不顺。所以是否会转向Supermicro来购买他的B200,这很难说。所以如果GB输不顺,为了某些原因直接转向Supermicro买B200的水冷,这也有可能。

Supermicro B200是ready的?

专家:当然,对他而言改动不大。

这是Supermicro一个比较大的upside,可能GB不顺,之后客户转8卡,然后找他。

专家:有这个可能性,而不能说现在已经这样,这才第一个月,大家还在努力中,所有人都在努力中。

您觉得那些Supermicro那些tier2 cloud的客户,包括Coreweave,另外还有一些enterprise、NCP等算力租赁的客人,是否会找Supermicro买B200?

专家:这也不排除,因为Supermicro现在面临较大的问题是是否被下市,要2月才比较明朗,所以传统OEM,无论是Dell或HPE,可能会瓜分Supermicro份额,除了Dell、HPE,这次台湾厂商都进来,包含技嘉、华硕、Pegatron,也会影响到Supermicro的订单,如果针对Supermicro来看,它的竞争态势越来越越严峻。

今年四个季度里都会没有Hopper的收入了吗?

专家:可能还有一点点。

Q1还有50K?

专家:Q1没有那么多,Q1只剩一点。后面基本上就没了。对纬创而言,基本上已经没有多少。这单已经生产的差不多。但对于市场而言,maybe还有。

最开始说的是100K 的Hopper下降到50K,那个是指Q4还是?

专家:那是Q1,但是Q1调整更快,主要转成Blackwell。Hopper基本上会很少。

Q1还有没有50K?Q4有多少?

专家:Q4算起来应该还有100K出头。

Q3呢?

专家:Q3 是140。

Q4环比下滑30个点,Q1环比下滑50~60个点?

专家:对,转成Blackwell了。

一直以来都觉得很奇怪的事情是,Nvidia业绩确认时,按纬创算的,应该比英伟达报出来的业绩多很多。英伟达这里是否做了一些库存?个人不清楚。

专家:已经做一些调整,自己也会make sure每一季成长。出货给到hub。hub本身自己会做调整。

什么叫出货给hub?

专家:因为纬创出来以后会到他的仓库。他的仓库出给CSP还是出给OEM、还是出给谁?

在hub里做一些调整?平滑每个季度。

专家:是的。

今年看全年NVIDIA能做400万颗GPU吗?

专家:我觉得现在还有点难说,今年不一定有办法做到400万颗,可能往后去push。

Patrick:ASIC是否了解?现在英伟达这边供应链不顺,这几家CSP做ASIC进度是否顺利?然后他们有改变forecast吗?

专家:ASIC部分,Meta和Microsoft,因为ASIC performance没有特别好,所以这一代ASIC,Maia还有MTIA都没那么强势,都着重在下一代开发,主要还是Google的TPU6和AWS的Trainum 2。按照目前看到的,Google TPU6的确从博通加单较多,所以Google的TPU6应该比去年的量更多。AWS的Trainum 2主要生产也在纬颖和智邦。纬颖是主要的组装。去年纬颖在AWS的ASIC,每个月可能从大概1K的rack,到今年成长到每个月2K,从capacity的planning来看,事实上整个AWS ASIC在今年的forecast比去年更大,而且大很多。

今年全年预估Trainum2有多少万颗?

专家:应该是170万颗的forecast。AWS此次展示那64颗的cluster,本来一开始设计的时候就只有32颗的cluster,这次做了一些调整,用两柜来兜成一个cluster,所以有64颗。AWS最近做它的Trainum 2的水冷,应该过完年就知道到底谁是它的水冷design partner。

刚刚说的两千柜是NVL 32?

专家:是32。纬颖主要partner,但是他还有其他的partner,Flex、甚至鸿海等。整体的量,从智邦那边了解会较清楚,当然整个supply chain里面就是TSMC、Marvell、智邦、纬颖等。这样去了解大概量可以估的较准,纬颖是系统的部分。

Trainum 2一片wafer可以切几颗?

专家:Trainum 2的die size应该在400mm square左右,所以应该是100多颗。

切五六十颗吧,如果是前道的话?

专家:如果是800的话,大概切五六十几颗。

但它是两个die拼一个。

专家:是的,2个die拼一个,每个die有两个HBM。如果用CoWos来看,也没有很多。

特斯拉Dojo,这个案子是否了解?是不是在纬颖做?

专家:特斯拉Dojo是在纬创做。

design partner是谁?是Alchip?

专家:没有design service partner,它直接和TSMC做完SOW,然后和纬创做整个Dojo的module。

Dojo的量大吗?

专家:目前很小。

之后forecast大吗?

专家:不大,很小。他们现在都在做下一代。下一代CoWoS-L SOW,用CoWoS L的技术来做SOW。下一代不少人开始对这个有兴趣。原因是第一代的SOW用INFO技术。第二代用CoWoS-L,而CoWoS-L是chip last。第一代INFO是chip first,而chip first只能用homogeneous,所以第一代都是同样的,而第二代可以放HBM。第二代是2026~2027出来。

这个是英伟达那个CES拿出来的。

专家:对,但他没有明说,这是未来,事实上对他而言可能是2030的事情。但对其他的CSP较早。

特斯拉FSD AI5 design service是谁?

专家:特斯拉基本上FSD是自己做,也没有design service,FSD AI5的生产从三星改到TSMC。

字节本来在博通做design,因为禁令或地缘政治因素是否有可能有变化?

专家:现在无法确定,当然也可能会被影响。

如果被影响的话,是哪家去帮他做?

专家:应该没有人帮他做,因为主要是生产问题,因为TSMC一定要做background check,所以会影响。而不是谁帮做的问题。

有人认为Trainum 2的170万颗是今年的量?除以32就是53K rack,但专家又刚才说纬颖现在是2K一个月,所以要做两年?

专家:纬颖虽然是2K,但是AWS要求纬颖从2K提到4K,纬颖的forecast不一定会comply with AWS的需求从2K提到4K,所以还有很多的AI partner一起来和他做,所以AWS是否可以做到170万颗?个人不清楚,但整个ecosystem forecast是这样。纬颖如果还是keep 2K的per month per rack,他可能只能分到50%的allocation,其他会去分其他的allocation。

如果第一季英伟达GB200出2000柜NVL 72的话,能出多少台B200的HGX8卡的服务器?

专家:个人猜测,可能第一季40~50K。

这也不算少。

专家:因为它没有良率问题,主要是生产capacity之前测试需求。

但如果只是亚马逊这个客人感兴趣,亚马逊哪需要得了这么多?他一季最多也就拉个10万多台左右。

专家:OEM的需求,OEM没得选择,只能拼命卖B200。

那就只能压在OEM那边,但是OEM也要找客人。

专家:对,OEM没有H,当然就推B,然后 tier2的CSP也不会先放GB,还是一样是B

现开放投研情报群体验名额,更多投研情报服务,请往下看


独角兽投研情报会员服务

服务概述

现在的A骨市场,风格切换极快,不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效,大多数时间亏损的情况,只有一点持续有价值,那就是快人一步的信息,这种信息不会是财联社的新闻,不是知识星球的调研纪要、更不会是公社的吹票逻辑。

服务主旨

提供各种快人一步的投研信息,让你明明白白知道盘中异动。

情报来源

独角兽智库投研情报团队已经根植在大A各个生态阶层:

1:公募核心圈,提前获取公募看好的大方向和主攻领域。

2:券商分析师圈,深入各大券商核心客户群,提前获取券商主推逻辑。

3:游资核心圈,在游资大佬的小圈子有一席之地,提前获取大资金动向。

4:产业链圈,各个新兴产业技术核心圈子,提前挖掘技术变革推动的A股炒作逻辑。

服务内容

1、大资金抱团动向

2、集合竞价龙头早知道

3、先手小作文

4、券商主推方向及逻辑

5、市场的机会和风向提示

6、个骨和行业避雷

服务方式:

微信群--只有微信群的消息才可以做到第一时间的信息传递。


现开放体验名额(非免费,白嫖勿扰)


加入体验方式(如果您关注短线交易)

请加微信:itouzi8888,备注:体验+姓名+公司+职位

如果您关注基本面,做波段或者价投

请加微信:itouzi5,备注:体验+姓名+公司+职位

群内其他历史记录如下,可自行验证其情报的价值,有投研情报群历史聊天记录的截图,在盘后都会截图并且发在当天文章内,请查看历史文章验证(11月份精选情报)































防止失联,关注备用号