本文主要介绍了英伟达的发展历程及其在AI和图形芯片领域的强势地位。从初创时期的困境,到推出CUDA和NVLink技术打破行业垄断,再到成为AI芯片领域的霸主,英伟达的发展历程充满了挑战与机遇。文章还提到了英伟达在消费级显卡领域的争议,以及对未来英伟达发展的一些期待。
英伟达初创时期以车库为起点,面临市场激烈的竞争和挑战。首款产品NV1因技术兼容性问题销售惨淡,但通过痛定思痛后的策略调整以及世嘉公司的资金支持得以度过难关。
CUDA是英伟达的并行计算编程模型,充分利用GPU进行并行运算。该技术的推出在当时并不被市场看好,但黄仁勋具有前瞻性地坚持推广和研发,为英伟达在AI领域的崛起奠定了基础。
NVLink解决了不同GPU之间的并行运算问题,使得多张计算卡可以协同工作,提高了并行计算效率。这也是目前AI领域对英伟达显卡需求大的原因之一。
英伟达近年来在消费级显卡市场的做法引发争议,如矿潮时的涨价、抢购和针对挖矿的驱动优化等。虽然英伟达在AI领域地位稳固,但在消费级显卡领域的重视程度下降以及对老显卡用户的待遇让部分用户感到失望。
前面我们聊过英特尔和AMD,今天我们就来聊聊另一个芯片巨头英伟达
提到英伟达,不管是游戏佬,还是科技大佬,都早已如雷贯耳。目前乘着AI的东风,英伟达更是如日中天,2024年年末,英伟达的股票市值已经成为了仅次于苹果的全球第二。
一、起步
说起英伟达的起步,我们绕不开一个美国公司创业史上经常出现的一个词--“车库”。这是一个很有趣的现象,美国很多的巨头企业,早期都起步于车库。包括,但不仅限于,迪尼斯、谷歌、苹果、亚马逊、惠普,还有我们正在聊到的英伟达。
1993年,英伟达建立之初,有三个创始人,黄仁勋、克里斯和柯蒂斯。目前能广泛被记住的,应该只有黄仁勋,这个英伟达的灵魂人物。很巧的是,跟AMD目前的灵魂人物苏姿丰一样,黄仁勋也是一位出生在中国台湾的美籍华人。
1995年,英伟达推出第1代产品NV1,却输得很惨。在当时,图形技术还没有统一的标准,NV1采用的技术是四边形技术,而微软却只支持三角形技术,兼容性就成了致命的问题。最终导致NV1的销售很惨淡。就算以现在的格局来看,也能预料到NV1的失败。不管是现在还是在1995年,微软在PC操作系统上的地位,都是绝对的霸主,如果跟微软的兼容性存在大问题,这产品想成功,太难太难了。
NV1失败后,英伟达几乎是陷入了绝境,资金即将耗尽,如果没有新的资金注入,英伟达随时可能面临破产。而此时,拯救英伟达的,是当年很厉害的一家游戏公司,世嘉。可惜的是,世嘉并没有等到英伟达后来的强大,而是早早退出了。英伟达痛定思痛后,决定全身心投入对微软DirectX的全面兼容。正是这一策略拯救了英伟达,并且让英伟达在后来的发展过程中,一路高歌猛进。在1997年,英伟达推出了Riva128,一炮而红,得到了众多微软下厂商的支持。英伟达也靠着Riva系列慢慢站稳了脚跟。
二、最强魔法CUDA
英伟达在游戏领域站稳脚跟以后,黄仁勋祭出了英伟达的最强魔法:CUDA。很多人以为英伟达之所以能在图形和AI芯片领域成为霸主,是因为硬件很强悍。我却不这么认为,我觉得英伟达能有现在的成就和地位,最主要的原因,就是因为有着最强魔法CUDA。
要说清楚什么是CUDA之前,我们先来聊聊GPU和CPU的区别。CPU也叫中央处理器,是电脑的核心部件,最擅长的是逻辑运算。GPU在电脑上,也叫显卡,主要是负责图像输出,最擅长的是并行运算。单看核心数量我们就能明白个大概。我们常听到4核、8核、16核的CPU。其实也就是说个人消费领域的CPU,核心数量能上两位数,已经非常强悍了。就算是服务级CPU,到目前为止,最强的也不过是100多个核心。但英伟达H100的GPU,却有14952个CUDA核心。在两者的区别上,有一个非常形象的比喻。CPU就象一个数学教授,有很强的处理复杂的逻辑问题的能力。而GPU就象是一所小学,里面有几千个小学生。如果去计算复杂的逻辑问题,别说几千个小学生,就算是几万个,也比不上一个数学教授。但是,如果需要计算的是成千上万个简单的加减法,一个数学教授,无论如何也没有几千小学生同时计算的速度快。
那么CUDA到底是什么呢?简单点说,就是并行计算的编程模型,可以让用户很方便的调用GPU核心进行分发计算任务,进行并行运算和汇总运算结果,充分利用GPU并行运算的优势。但是在CUDA推出的2006年,CUDA很少有典型的应用场景。因为当时对于GPU运算的认知,基本都只停留在图形运算上。就算是现在,可能也会有人觉得,显卡就只是用来玩游戏的,只是用来负责输出更好的游戏画面。这里不得不说黄仁勋在决策上的前瞻性太强了。在股东强烈反对,市场反应不佳,研发投入巨大的情况下,坚持不懈地宣传、科普、研发,硬生生地打造出了CUDA生态。也正是因为在CUDA上的坚持,才让英伟达在如今AI大爆发的时候,坐上了AI芯片霸主的地位。
说到这,有个关于DeePSeeK的问题,可以聊聊。DeepSeek的强大,毋庸置疑,硬是用算法抹平算力上的差距,单单是这一点,就非常非常厉害。不过,有一种说法是,DeepSeek打破了CUDA生态。很遗憾的是,据我了解,并没有。DeepSeek为了对计算能力进行更精细的优化,使用了PTX指令集。于是有人以为PTX是独立于CUDA之外的。其实并不是,PTX只是CUDA生态中,更底层的语言,也是CUDA生态的一部分。只不过在性能优化上,PTX能实现更精细的控制,也就有着更强的性能优化的能力。也就是说,DeepSeek是在CUDA的基础上达成了非常强悍的性能优化和算法优化,并以此大大降低了算力上的需求。但要说打破CUDA生态,目前并没有。