算力作为AI发展的核心驱动力,一直是业界关注的焦点。然而,在这一领域中,存在着不少神话和误解。本文深入探讨了AI算力的现实与神话,供大家参考。———— / BEGIN / ————
算力将是未来很长一段时间最重要的“战略资源”之一,这一点已经得到了专业人士和资本市场的普遍认可。
正因为算力实在太重要,与算力相关的产业链又太长太复杂,所以围绕着算力总是会产生许多“神话”。各种各样的人都在发表与这个话题有关的言论,有些纯粹是出于兴趣,有些则是出于利益(最典型的例子是炒股票)。
无论在中文互联网还是英文互联网上,英伟达每天都在被颠覆,台积电则每周或每个月都在被颠覆,甚至连GPU这个概念也经常被颠覆。
有人说,华为昇腾芯片的算力已经超过了英伟达的“大卡”,而且证据确凿。还有人说,新兴芯片设计公司Groq的自研芯片的推理效率远远高于英伟达的同类产品,至少可以在推理端实现对英伟达的替代。
上述两个神话的共同点是:都有一定的基础论据,不是完全的空想,但都与事实相去甚远。
就好比盲人摸象,有人只摸到了大象身上的一根毛发,就激动地自称抓住了大象的本质——这就是关于算力的“神话”层出不穷的根本原因。
此时此刻,关于AI算力有三个最引人注目、也最富争议的“神话”:
英伟达的护城河没有多宽,很容易被竞争对手攻破;
只要攻破了英伟达的护城河,我们就能解决AI算力的紧缺问题;
AI算力很快将从数据中心下放到端侧,从而为“AI手机”等消费级产品带来机遇。
对于第一个“神话”,只有做过AI研发的人最能理解其荒谬性。
外人往往认为,衡量硬件算力的唯一标准是技术指标,只要在关键技术指标上超越了英伟达,就可以取而代之——如果真的这么简单就好了!
英伟达的L40“中卡”,在某些技术指标上甚至超过了自家的H100“大卡”,更不要说与上一代“大卡”A100相比了。AMD的数据中心GPU产品线,也不乏在某些技术指标上超过H100的产品。
为什么没有想到用这些产品代替H100?
因为英伟达的护城河不止硬件本身,还包括CUDA软件社区和NVLink互联技术。
有些AI开发者把英伟达称为“三头怪”:竞争对手必须同时砍下硬件、CUDA和NVLink三个头,才能将其击败。在这三大护城河当中,硬件层面已经是最容易逾越的了!
假设不考虑成本、不考虑兼容性和使用效率,华为、阿里等国内科技公司都有能力开发出“看上去比英伟达更好”的数据中心GPU,在全世界范围内具备这种能力的公司就更多了;可是有什么用呢?“看上去比英伟达更好”是毫无意义的。
目前主流的AI训练服务器包括8块H100 GPU;英伟达的下一代“超级芯片”GB200包括两块B200 GPU和一块Grace CPU,一台服务器由多块这样的“超级芯片”组成。GPU与GPU之间、GPU与CPU之间无时无刻不在交换数据,而NVLink是一种高速的、久经考验的芯片互联解决方案。
在2014年NVLink发布之前,市面上最流行的芯片互联技术是英特尔、IBM、戴尔和惠普共同开发的PCI Express(简称PCIe),它适用于绝大多数的主流芯片,问题是速度太慢、而且对通用计算GPU的优化程度不够。
NVLink 4.0的传输速率能够达到PCIe 5.0的7倍以上,能源消耗则只有后者的五分之一。在实践中,大部分用户都认可NVLink在所有类似的解决方案当中是最快的。
按照英伟达的说法,NVLink把GPU变成了“乐高积木”:8个GPU组成一个服务器,32个服务器组成一个算力集群;微软、亚马逊这样的大厂还可以组建更大规模的超级算力集群,直至所谓“万卡集群”,GPT-4就是在这样的集群上训练出来的。
当然,NVLink只适用于英伟达的产品,以及英伟达的技术合作伙伴IBM的Power系列产品。准确地说,即便在英伟达的GPU当中,也只有“大卡”具备完整的NVLink支持,“中卡”“小卡”要么根本不支持NVLink,要么只支持很低的传输速率。
这显然是英伟达为了区分产品层级而使用的谋略:要训练大模型,就必须买昂贵的“大卡”,想通过组合大批“中卡”瞒天过海是不可能的。
如果企业客户选择英伟达之外的GPU,就只能使用PCIe等通用互联技术,组建算力集群的效率要下一个台阶。PCIe也在不断进化,但是其与NVLink的差距不是几年内能弥补的。
理论上,客户也可以自己“魔改”,强行在英伟达“中卡”甚至其竞争对手的显卡上使用NVLink技术,但是这样做的风险实在太大。从NVLink首次发布至今已经经历了十年以上,任何竞争对手若想做出足以取而代之的技术,恐怕要花费同样长的时间。
至于推理环节,芯片互联的需求没那么大,确实可以不考虑NVLink,以Groq为代表的专业推理芯片设计公司有机会,国内科技企业也有机会。
但是,对于一般的企业客户来说,采购英伟达的“中卡”“小卡”可以完成多种任务,还可以做图形渲染、做云游戏;而其他公司推出的“专业推理芯片”往往是高度特化的,只适合执行大模型推理任务。
对于科技巨头来说,就连推理环节也出现了以英伟达“大卡”代替“中卡”的趋势,因为这样能提升推理速度、实现算力的灵活配置。综合各项显性和隐性成本考虑,绝大部分企业不会主动考虑在推理环节把英伟达替换掉。
至于CUDA的重要性,更是怎么高估也不过分:它包括一系列代码库、一整套工具和开发环境,数以百计的软件开发商是其长期合作伙伴。
开发者不需要熟悉GPU的底层架构即可上手。更重要的是,CUDA积累了数以百万计的开发者群体。
从学术界到产业界,到处是精通CUDA的开发者,他们也会教自己的下属和后辈使用CUDA。在你使用CUDA开发的时候,你其实是站在无数前人经验的基础之上。
一位在国内从事AI开发的技术人员告诉我:“全球拥有博士学位的CUDA开发者可能有50万人,他们精通高性能计算,由此实现了CUDA社区资源的良性循环。
整个英伟达生态的线下线上免费活动非常多,我自己就加入了好几个英伟达中国交流群,每天收到各种会议交流信息。除非实在没有使用CUDA的条件,否则很难想象有人会主动放弃CUDA!”
不可否认的是,在十多年的发展历程中,CUDA变得日益臃肿、复杂,开发难度逐渐提升了。
曾任职于苹果和AMD的著名芯片架构师吉姆·凯勒(Jim Keller)曾指出:“CUDA是一片沼泽,而不是护城河。CUDA并不漂亮,它是通过一次次堆积功能而构建起来的。”
与其说这是英伟达的问题,倒不如说是所有大型应用开发生态的共同问题:需要实现的功能太多,而且必须保持向下兼容的特性,于是生态系统变得越来越复杂混乱,开发效率不断降低。
除非推倒重来,这样的问题是不能避免的;而专业开发人员都知道,CUDA就算再臃肿,也远远没到需要推倒重来的地步。
真正能对英伟达构成威胁的力量来自开源社区。
英伟达的显卡驱动程序是闭源的,因此饱受诟病。
2022年,由于受到黑客的威胁,英伟达对部分GPU驱动程序的内核模块(Kernel Module)进行了开源,但只是聊胜于无,实用价值不大。
外部开发者以反向工程的技术手段开发了一些英伟达显卡的开源驱动程序,可想而知,它们的技术水平不会很高。
英伟达坚持闭源的原因很简单,就是要最大限度地保持对自家产品的控制、谋取最高的利润,这一点对于盈利性公司而言无可厚非。
英伟达的老对手AMD则于2014年推出了名为”AMDGPU”的开源驱动程序。
作为落后幅度很大的追赶者,AMD必须通过开源实现差异化,力争建立一个足以与英伟达竞争的开源软件生态。
在信息科技的历史上,我们经常看到“一个强大的闭源产品VS一个丰富的开源生态”的竞争格局——闭源的Windows和开源的Linux共同构成了PC操作系统的双峰,而闭源的iOS和开源的安卓又构成了智能手机操作系统的双峰。
遗憾的是,由于AMD的产品力太弱,开源策略还不足以让它真正挑战英伟达。
Linux和安卓的成功,很大程度上是因为它们是“纯软件”,开源社区的包容性和创造力足以做出能与商用软件匹敌的产品;英伟达的统治地位却是软硬件一体化的产物,要让开源社区一口气砍掉它的“三个头”,实属强人所难。
再说第二个“神话”。假如明天发生奇迹,市面上骤然出现几个性能比英伟达更好、软件生态比英伟达更发达的竞品,全球算力紧缺的问题是不是就能解决呢?
当然不能。
无论是谁设计出了世界上最好的GPU,在当前情况下,它都要去找台积电代工,因为那是全球5纳米以下制造能力最强、良品率最高的半导体制造企业。
而且,台积电的5纳米及3纳米产能,几乎全部位于台湾南部工业园区的第18号晶圆厂。至于广受外界关注的台积电美国亚利桑那工厂,其一号和二号工厂分别要到2025年和2028年才投产;号称使用最先进技术的三号工厂,至今尚未确定投产日期。
芯片制造是典型的重资产行业,重资产行业的特点就是供需关系很少完美匹配,总是处于供不应求和供大于求的循环之中。因为资本开支需要时间转化为产能,而客户需求往往呈现突发性增长的态势,等到产能追上来了,需求增长可能也就结束了。
ChatGPT引发的生成式AI浪潮出乎所有人的意料,台积电当然不可能事先为之拟定资本开支计划。老实说,现在最希望三星和英特尔能够追上台积电的,应该是英伟达。
1990年代以前,美国芯片制造业一度占据过世界领先地位,后来是它自己半主动地放弃了这个地位,这也是美国“去制造业化”进程的一部分。
现在,《芯片法案》试图促进芯片代工厂回流美国,通过该法案拿到补贴、在美国设厂的不止台积电一家。
然而,台积电创始人反复表达过自己不看好美国重振芯片制造业的努力:
第一是因为美国工程师不及东亚地区的人勤奋,第二是因为美国地广人稀、难以通过基础设施实现产业链的富集效应。
三星、英特尔面临的问题说明了一个事实:光刻机不是决定芯片产业发展的唯一因素。
如果买上几台最先进的光刻机就能做好芯片代工,美国商务部完全可以直接买下大批光刻机并送给英特尔等美国本土芯片制造商,而不是花大力气劝说台积电来建厂。
过去三十多年,芯片制造业积累了太多的技术流程知识(technological know-how),只有经验丰富的工程师、中层经理和管理层加在一起,才能完整地掌握并使用这些知识。
中芯国际的崛起,既得益于曾长期在台湾工作的创始人张汝京,也离不开一批在台湾半导体产业积累了深厚经验的技术骨干和经理人。
在台湾,除了台积电,还存在联电等一批芯片代工厂;可是近二十年来,它们与台积电的差距越拉越大。
这种“马太效应”的形成,固然有企业自身决策和执行力的影响,但也是由芯片制造业的特性决定的——资本开支太大、技术迭代太快,最优质的客户只会选择最先进的代工厂,从而形成“强者恒强”的趋势。
台积电在台湾半导体产业的领先地位早在2003年前后就已形成,而在全球半导体行业的领先地位则是在2014年苹果全面转移芯片订单之后才确立的。
2022年,英伟达把H100芯片代工合约全部交给台积电,一方面体现了对台积电5纳米以下制程技术的认可,一方面也进一步打消了三星在短期内追上来的希望!
总结下来就是:算力供应的瓶颈在于台积电,解决瓶颈只有两种可能性——要么等待台积电把产能扩张出来,要么等待三星、英特尔或其他代工厂的技术水平赶上来。
因此我们可以理解,为何英伟达在财报当中反复指出“下一代芯片仍将处于供不应求的状态”。这种持续的供不应求,对所有人都造成了影响,但是科技巨头受到的影响相对较小,因为它们总能得到英伟达的优待。
算力紧缺的时代也是科技行业重新洗牌的时代,创业公司必须牢牢抱住算力资源丰富的大厂的大腿,大厂的统治力其实更加稳固了。
至于第三个“神话”,其实有一定的实现可能性,只是市场在短期的期望值太高了。
所谓“端侧计算”(Terminal Computing)的概念其实并不新鲜了,我们日常使用的电脑、智能手机乃至智能家电都是“客户端”,也都具备一定的算力。
以玩游戏为例,常见的游戏方式是把游戏下载到本地、由“端侧算力”运行游戏程序;云游戏则是在数据中心运行游戏程序,计算结果通过串流的方式输出到客户端。
到底哪一种方式更优越?
考虑到网络串流有延迟,在客户端硬件条件较好的情况下,大部分人会首选“端侧计算”。
但是在生成式AI方面,情况明显不同:绝大部分桌面级电脑的显卡算力不足以执行大模型推理任务,手机算力就更不够了。
在当前的主流消费级显卡当中,只有英伟达的RTX系列可以胜任一定程度的推理任务,所以英伟达正在推广“基于RTX的桌面AI推理”;可是RTX对一般消费者而言还是太贵了,只有游戏发烧友买得起。
何况,英伟达推广桌面推理的主要对象并不是消费者,而是轻量级的专业开发者。
在全球范围内,已经有多家手机厂商提出了“AI手机”的概念。不过,迄今还没有一家主流手机厂商推出过具备完整的“端侧AI算力”的手机。
严格地说,“AI手机”不一定意味着要通过端侧算力进行AI推理;手机厂商完全可以租用大量云平台算力,或者自己储备一批算力,专门用于解决自身用户的AI推理需求——苹果可能正在做这样的事情。
除了算力,手机厂商还有很多可以做的事情,包括推出自己的大模型,基于大模型开发更好的聊天应用和生产力工具,把AI与手机的硬件功能更紧密地结合起来,等等。
算力固然很重要,但算力不是全部。
不过,如果手机厂商非要尝试把算力下放到端侧,又该怎么做呢?我们知道,为了降低耗电量和发热量,智能手机采用的都是低功耗的ARM架构芯片。
英特尔曾经尝试把x86芯片用于手机,以惨败告终。
现在ARM也可以胜任复杂的计算任务了,英伟达在2023年推出的Grace CPU就是基于ARM架构;但是,用于数据中心和桌面工作站的ARM芯片,其功耗水平还是手机端完全无法接受的。
在现有技术条件下,硬要为智能手机设计“端侧推理芯片”,得到的恐怕只是推理能力孱弱、功耗远高于一般水平的四不像。
算力究竟应该放在云端还是终端,是由具体需求决定的。
在游戏场景中,用户对传输延迟的忍受程度很低,所以云游戏至今没有成为主流。
而在生成式AI场景中,到目前为止,用户对传输延迟不太敏感。
因为AI大模型推理本身消耗的时间就很长了,网络传输所消耗的时间压根算不了什么。
哪怕我们真能在手机上搭载专业级的推理芯片,从而节约几十毫秒的传输时间,用户可能根本就感受不到;我们如何说服用户为自己感受不到的功能付费呢?
因此,五到十年乃至更长的时间以后,完全可能出现端侧算力和云端算力同时承担AI推理任务的情况。
我们的电脑、手机、汽车、智能电视乃至扫地机器人都会具备一定的推理算力。至于这些端侧算力究竟要强大到什么地步?推理算力在端侧和云端究竟会以什么比例分配?
那就完全无从预测了。
这就是消费电子厂商的困境所在:它们对未来毫无头绪,不知道该采取什么动作,还是该安静地等待一阵子。
这也是2023-2024年苹果在硅谷科技巨头当中股价表现较差、失去市值最大公司地位的根本原因。
从这个角度讲,还是A股机构投资者具备天然优势——他们不需要真正理解世界上发生的任何事情,只需要沉浸在自己(以及上市公司)营造的幻觉之中,就可以一路遥遥领先,创造神话。
至于这种遥遥领先是如何把他们带到灭亡边缘的,那就是另一个故事了。
本文摘自互联网怪盗团新书《巨浪:生成式AI的史诗与现实》一书的第五章,有删节。原书第五章题为《算力战争》,全面描述了英伟达、台积电等芯片产业链巨头在算力经济中的地位,以及全球AI算力紧缺的原因和发展态势。
———— / E N D / ————
作者:互联网怪盗团,人人都是产品经理专栏作家
来源微信公众号:互联网怪盗团