专栏名称: 36氪Pro
「36氪Pro」是36氪推出的全新品牌,旨在为优秀的创新者,提供优质内容及深度服务。
目录
相关文章推荐
超级数学建模  ·  不是吧!瓷器也会开花? ·  2 天前  
超级数学建模  ·  3000一罐的贵妇面霜,真好用! ·  3 天前  
超级数学建模  ·  懂中式美学的人,真不简单! ·  3 天前  
超级数学建模  ·  他是DeepSeek关键人才!差点留在美国… ... ·  3 天前  
51好读  ›  专栏  ›  36氪Pro

围剿英伟达|深氪

36氪Pro  · 公众号  ·  · 2024-08-01 16:03

正文

ChatGPT爆火, 打开了一个价值千亿美元的AI芯片市场,谁能从看似无法战胜的芯片巨人英伟达身上, 撕下一块肉来?


邱晓芬
访谈 邱晓芬、杨逍
编辑 苏建勋、杨轩

封面来源 视觉中国

反抗

一个隐秘的微信群,在上海张江的AI芯片公司人士中口口相传,群名叫“国产芯片抱团取暖群”,进群的必须是国产芯片公司员工,在这里,即使是竞争对手,也会交换信息,互换商务资源。
“国产芯片抱团取暖群”圈定了一块停战区,同行可以暂时休战,互帮互助,只因为大家都有一个共同的敌人: 英伟达
因为英伟达的存在,国产芯片公司的销售,多少都尝过一点屈辱的滋味。
李明(化名)是一家国产GPU公司的销售,这一轮AI热潮掀起时,他曾信心满满地去见客户,可来不及寒暄,客户开口就是连环追问:
“你们的东西,和英伟达A100芯片相比,啥差距?英伟达有NVLink,你们有什么?”(作者注:NVLink是把多个GPU芯片连接起来,避免GPU的数据搬到CPU计算,以提升计算效率)
眼见用产品和技术打动不了客户,李明的团队开始想办法托关系,找“更有力的人士”去游说,但客户还是摆摆手,“我们还是想用英伟达”。
英伟达A100,826平方毫米面积上就塞了540亿 个晶体管,是打开AI大模型魔盒的钥匙。大模型训练,像是在海量数据中“炼丹”,目的是找出数据变化的规律; 而用英伟达芯片训练大模型,就好比让几亿个智商200的人来算数,而其它芯片的效果,只等同于找了几千个智商100的人来计算。
英伟达A100 图片来自英伟达官网
最顶尖的科技公司,都在疯狂抢购英伟达。谁拥有最多的英伟达高端GPU,谁就有机会训练出更聪明的大模型。
公开信息显示,OpenAI目前掌握着全世界最多的英伟达高端GPU,至少达五万片;谷歌、Meta也是万卡集群的拥有者(2.6万左右);而国内罕见有英伟达高端GPU万卡集群的互联网大厂,是字节跳动(1.3万)。
英伟达垄断着全球产业链上最好的资源——拥有台积电最充足的芯片先进制程产能、笼络着全世界最大的工程师用户群体,掌握了一众AI公司的计算命脉。
绝对的垄断,往往会滋生不满、愤怒和逃离。
“今天所有做大模型的,基本都在严重亏钱!只有一家在赚钱!英伟达”,一位行业人士语气忿忿不平—— “英伟达的利润率让所有的客户都很难受,很伤害AI行业!”
财报显示,英伟达毛利率达到71%,其中,热门产品A100和H100系列,毛利率高达90%。作为一家硬件公司,英伟达居然享有比互联网软件公司更高的毛利率。
高价暴利,让英伟达的大客户开始逃离。7月30日,苹果宣布其AI模型用8000片谷歌TPU来训练,而英伟达含量是0;消息一出,英伟达股价下跌超7%,创下近三个月最大跌幅,市值蒸发1930亿美元,几乎跌掉了一个拼多多。
英伟达股价跌幅图
对于所有想在英伟达身上撕下一块肉的国内GPU企业来说,2022年是个转机之年,美国数轮禁令下达,英伟达迫于生计,在中国持续推出阉割版本芯片,但又被快速禁用:
2022年9月,A100/H00禁止向中国出口,英伟达推出阉割版本A800/H800;
2023年10月,A800 / H800 / L40 / L40S / RTX4090被禁止向中国出口;
2024年6月,英伟达创始人黄仁勋称,将向中国推送阉割版本的L20、H20芯片。
然而,阉割版本引发了行业更激烈的声讨。英伟达即将推送的H20,价格虽是英伟达H100的一半,性能却前者只有1/3。一位AI行业人士怒斥——“这不就抢钱吗?纯纯智商税!”
当英伟达的客户开始不满与愤怒,那些想代替英伟达的国产芯片公司,却在这种情绪中得到了“滋养”。
过去,他们只能跟在英伟达的屁股后面,艰难分食一点点蛋糕碎屑。半导体分析公司TechInsights的一项数据显示,2023年,英伟达在数据中心GPU出货量市场份额高达98%,国产芯片和一众芯片巨头加起来,只占微弱的2%。
如今禁令袭来,完美的英伟达在中国市场被撕开一道口子,谁能替代英伟达?国产AI芯片厂商看到了生机。
“今年咔嚓,英伟达在中国的90%市场都给释放出来了, 能不能抢到,各凭本事 ”,一家国产GPU公司创始人表示。
36氪曾在2021年发表过 《深氪|宁德时代:万亿电池帝国的裂缝》 ,在动力电池行业,宁德时代一骑绝尘,被竞争对手们虎视眈眈。如今,在AI芯片领域一家独大的英伟达,也被诸多同行视为眼中钉、肉中刺,但英伟达的不同在于,它的壁垒更高,与对手们的差距更大。
我们尝试通过英伟达对手们的反抗,去找到“英伟达的裂缝”,放眼GPU行业,国产GPU、AI芯片厂商虽然力量孱弱,但他们更懂中国市场,打法更加本土化;而诸如英特尔、AMD等老牌芯片巨头,则有着更充足的粮草弹药,正面对击英伟达。
短期内,英伟达不会被打倒,但它也不会毫发无伤。

突围

想突围,就要找到对手的弱点。 英伟达的弱点之一是:傲慢。
芯片行业,本质上是一个To B软件行业。客户需要芯片厂商“陪伴感”的服务,比如把硬件调试好、把软硬件兼容做好,陪伴到位了,客户才有粘性,芯片产品就不容易被替换。
但多位国产芯片人士告诉36氪,在中国市场,除了像BAT、字节这样几十亿规模的大采购方,其余大部分公司交易额纵使达几千万,几乎很难得到来自英伟达的售后服务。
也就是说,当使用英伟达芯片的中国工程师们有疑惑时,只能靠自己到英伟达官网上搜索文档,或者去社区自学。
和英伟达合作时,中国客户们的种种需求经常得不到满足。 一位芯片行业人士告诉36氪,英伟达在中国一般会推最高配、最贵的全套方案,而当客户提出针对特定场景的定制化要求时,也一般会被否掉,客户们买完卡后,要“自己琢磨,或者再找厉害的算法公司搞定”。
英伟达的这种做法,积累了不少中小客户的抱怨。“英伟达如今作为大厂,对小客户已经不会像过去那样重视,他们的产品没有挑战者,不需要去费力讨好客户”,前述人士表示。
但在过去,英伟达生态的崛起其实印证了服务对于芯片行业的重要性:2006年,CUDA生态刚起步时,英伟达产品和如今的国产芯片一样并不出色。但英伟达团队先从高校的科研团队推起,再渗透到每一个细分行业的初创公司做软硬件适配,才有了如今的大片江山。

NVIDIA H100 图源:英伟达官网

中国芯片厂商们,也领悟到这一点,尝试从客户服务开始切入。
国内某家不愿具名的AI芯片公司,2023年以来,尝试让后台的研发人员走到一线亲自服务——不仅要驻场联合调教,在销售打单后,给客户专门拉个有研发人员的小群。客单价小到几百万、几十万不等,都能享受7×24小时的咨询。
光提供本地化的贴心服务远远不够,在英伟达中国大撤退之余, 芯片行业而早已不简单是芯片产品本身对决 ,更考验着各自对时间窗口期的把握。中国芯片厂商就像一群狼扑上来,轰轰烈烈的打单开始了。
华为来势最凶猛。华为此前联合讯飞,发布的设备“星火一体机”上,就搭载了“昇腾910B”。这颗芯片,曾号称单卡能力“对标英伟达A100”。不为人知的是,光鲜案例背后艰难的一面——36氪了解到,华为对此不惜人力成本,调配了几百名工程师下场帮讯飞调教参数。
华为和讯飞发布星火一体机,图源讯飞
尽管这被行业称为“手工打造”,但标杆案例一出,许多大模型公司、互联网公司都对华为抛出了测试的橄榄枝。
一家国产芯片销售惊讶发现,自从去年7月份至今,只要是公开招标的智能算力中心项目,都能看到华为级别不低的管理层在那驻场,“华为如今一个项目可以派几百个人上去服务,甚至一些关键项目不惜亏本,从别的项目获得收入”。
前述不具名芯片公司,也配齐了200名铁血销售——在国内芯片行业,这都是一个相当罕见的配置。他们的销售团队从大模型落地最火热的三个领域开始入手,金融、法律、工业,几乎出现在每一场与算力相关的展会, “芯片行业,资源第一,跑的慢了就死掉了”。
国产芯片一场隐秘的价格战也开始了。
芯片厂商一位人士告诉36氪,他们的目标是,不惜单价,也要拿下更多标杆智能算力中心的单子。36 氪观察到,有的国产公司推理卡,为了降低成本,不惜把价贵的HBM(高带宽内存)拿掉,甚至以低于成本价50%的价格在出货。
“不管怎么样,大家还是希望从各个切入点突破,各自从英伟达那切走一小小块蛋糕,让英伟达不再是一家独大”。
国内外AI芯片公司及关键产品,信息来自公开渠道
但现实却是残酷的,具体到产品上,国产AI芯片难免出现种种问题。
一位芯片人士向36氪举例:同样处理一个数据集,用英伟达的A100集群来跑,可能只需要十天,但用某些国产芯片产品,可能要跑上好几个月。 国产芯片硬件上积累的时间太短,又缺先进制程,硬件上的差距,导致使用效率不高。
软件短板也很明显。另一位行业人士测试发现,当使用国产芯片跑大模型时,若要在上面做更多酷炫应用,基础大模型做一旦改动,国产芯片就容易发生死机,“很多情况下,国产芯片大家基本是捏着鼻子用起来”。
如今,各家真正看清了眼前的“围剿”策略,也逐渐分化出了更现实的路径:
尽管还有少数派继续往万卡进发,着重训练场景,和英伟达硬刚,其中以摩尔线程、华为为代表;但更多数派的选择是,转而更关注大模型/小模型在各行各业的落地,从对硬件、软件要求都不高的推理场景抓起,以燧原、天数智芯等为代表。
(36氪注:大模型有训练和推理两个环节:训练是从几十亿数据库中寻找规律的过程,是“造”大模型;推理是在“用”大模型的过程,难度更小、对软硬件要求更低、与产业连接更紧密)
摩尔线程在2024年人工智能大会上发布夸娥万卡集群 36氪拍摄
“我们如今没有盲目追赶英伟达,我们追不起,不敢盲目做超大算力的芯片”,一位芯片行业人士直言。
国内芯片厂商们一个现实的考量是,英伟达的主要精力并不在此,国内厂商为此避开了英伟达的正面战火。
此前,大部分公司基于成本考虑,多采用英伟达消费级游戏显卡4090来跑推理——这些卡的问题一堆:功耗过高、内存不够、被禁用。英伟达官方也不允许这些消费级显卡被用于大模型推理。
国产芯片公司从英伟达这一空白处切入。天数智芯、燧原今年都在猛推对标4090的推理卡,打出了大内存、低功耗、供应稳定的卖点。
国产芯片厂商也明确了找准细分市场的重要性。比如则针对一些功耗敏感的场景,主打低功耗小芯片;或者扎进视频优化等细分场景,做小而美的生意。

巨头战场,剑拔弩张

当国产GPU公司将“超越英伟达”写进PPT,这更像一种美好的愿景,这群公司成立时间不长,迎上了国产替代的风口,即便只超越一点,也被视作是壮举,英伟达之于他们,是对手,也是标杆。
但论及与英伟达辈分相当的英特尔、AMD,气氛就更加剑拔弩张。
“我们内部将英伟达当作死敌”, AMD的一位MI系列产品线的研发人员告诉36氪。
在今年6月的台北电脑展(Computex 2024)上,AMD创始人苏姿丰(她还是英伟达创始人黄仁勋的表亲)也首次明确了未来AMD在GPU上的产品节奏——每年迭代一款新的GPU产品,和英伟达更新节奏保持一致。
英伟达几乎每上一款GPU,AMD都会第一时间从市场上买回来拆机,与还没上市的产品做对比。“这里要加点feature(指标)、那里参数要拉高”,他们追求的是,“硬件上不能落后于英伟达,参数上微赢”,前述人士对36氪提到。

苏姿丰在今年台北电脑展上发布Instinct MI325X

2023年以来,AMD中国生态合作伙伴们,几乎每隔两天,就会收到来自AMD的软件优化新诉求。为了推广他们的GPU,AMD高管们有时还会要求更优势的CPU部门,搭配着GPU去打单,顶着CPU可能卖不出去的风险。
“AMD的人天天‘烧香拜佛’,就希望我们把生态搞起来”, 一家生态公司高管表示,据他透露,目前 国内已经有10多家云厂商和To B客户 ,在和AMD芯片相关的适配和效果验证。
相比于一众焦灼的国产芯片厂商,国外芯片巨头们在硬件层面的优势在于,拥有先进制程和HBM产能,因此,AMD、英特尔的产品,相比于英伟达产品其实不会有太大的差距,某种程度上甚至更优异。
官方的数据显示,AMD的产品(2023年12月发布的MI300X)此前宣称算力是英伟达H100的1.2倍;英特尔的产品(2024年4月发布的Gaudi 3)在能效和推理性能上也远超H100。当然,也更便宜,AMD的GPU价格大概是英伟达对标产品的七八成。
但所有和英伟达正面硬刚的厂商都面临着一个共同的难题: 大家的硬件如何有优势,都因软件劣势而黯淡,如同木桶的短板。
在GPU还只能用于图形计算的年代,英伟达推出的软件平台CUDA,相当于给开发者提供了一套编程接口,让他们能最熟悉的编程语言,在GPU上自如编写计算程序。
“我给你们打个比方,CUDA为什么超越不了,就好比你学会一种语言,这么多年,都是用这个语言干活的,如果我让你换一套语言,你会不会很难受,会不会不愿意?”一家芯片公司员工这样给36氪举例。
CUDA作为英伟达软件生态壁垒最深厚之处, 纵是家大业大的英特尔、AMD也无法短时间内弯道超车。
一位英特尔GPU团队前员工告诉36氪,他们曾经安排全球3000多名工程师、投入了三四年,却只把精度从0%提升到4%——他们用英特尔的芯片转换一张人像,等待许久,信息丢失到“已看不出是一张人脸”。

英特尔CEO基辛格发布Gaudi系列芯片

“鸡生蛋还是蛋生鸡”的谬论再现。正是由于AMD和英特尔的GPU用的人不多,其及对应的软件平台(ROCm、oneAPI)用的人也更少,因此很难有人能把它们真正的硬件能力完全发挥出来。
“英伟达的CUDA一直有那么多开发者在上面迭代算法,帮英伟达把推理和训练做得很高效,导致英伟达一直能有议价权,他也永远知道他下一个芯片应该咋做,但这是AMD和英特尔都很头疼的事”,一家AMD生态公司CEO直言, 如今AMD的软件工具ROCm,“就像20年前的英伟达CUDA一般”。
但对于下游客户来说,风险正是由此而生。
验证大模型本就是一项有不确定性的实验,若还要在一个没有被验证过的芯片上跑,相当于把两个不可控的变量放在一起——抛弃英伟达,意味着要支付巨大迁移成本,承载不确定性。
尽管如此,围剿英伟达,对于AMD和英特尔这两家来说,依旧是一场不得不打的仗。
全球芯片架构三分天下:X86架构指导着PC领域,是英特尔和AMD的天下;移动市场是Arm的天下;英伟达则主导着人工智能市场。
在全新AI革命引领时代的近一年半,英伟达一度跨过3万亿美金市值大关,如今也相当于7个英特尔+AMD市值的总和。
时隔20年后,芯片巨头们对英伟达的“围剿”, 是又一场焦灼的圣战,这也是一场后知后觉的反扑。
真正的裂缝
当国内AI芯片公司组成蚂蚁雄兵,AMD和英特尔全力以赴,遭遇此等围追堵截的英伟达,真的被撼动了吗?
英伟达帝国的裂缝,正在悄悄蔓延。
一个让英伟达必须警惕的信号是,OpenAI、谷歌、微软……这些因AI信仰,为英伟达充值的大客户们,正迈出“反英伟达”第一步。
自研芯片是各家筹谋已久的棋局。一位谷歌TPU团队的前核心员工告诉36氪,用掉了世界上1/4算力的谷歌, “可能年底就不对外采购芯片了” 。过去谷歌自研TPU更多基于成本考虑,比如担心英伟达随意涨价,或者供应不够稳定,如今谷歌的造芯策略更为激进—— “几乎是不计代价和成本投入”。
OpenAI则有无数手准备,他们计划筹资高达7万亿美元,建立一个全新的AI芯片帝国。
在国内,36氪也从多方了解到——目前英伟达在国内最大的买方,阿里、字节、百度,基本都在秘密研究用于大模型训练的芯片。






请到「今天看啥」查看全文