【新智元导读】
全美TOP 5的机器学习博士痛心发帖自曝,自己实验室里H100数目是0!这也引起了ML社区的全球网友大讨论。显然,相比普林斯顿、哈佛这样动辄三四百块H100的GPU大户,更常见的是GPU短缺的「穷人」。同一个实验室的博士,甚至时常会出现需要争抢GPU的情况。
全美TOP 5高校的机器学习博士,实验室却连一块H100都没有?
最近,这位网友在reddit上发的这个帖子,立刻引发了社区大讨论——
大家发现,普林斯顿、哈佛这样的「GPU豪门」,手上的H100至少以三四百块打底,然而绝大多数ML博士,却连一块H100都用不上……
不同学校、机构之间的GPU「贫富差距」,竟然已经到了如此悬殊的地步?
两个月前,AI教母李飞飞曾在采访中表示,斯坦福的自然语言处理(NLP)小组只有64块A100 GPU。
面对学术界如此匮乏的AI资源,李飞飞可谓是痛心疾首。
而这位发帖的网友也表示,自己在攻读博士学位期间(全美排名前五的学校),计算资源是一个主要的瓶颈。
如果能有更多高性能的GPU,计算时间会显著缩短,研究进度也会快很多。
所以,他的实验室里到底有多少H100呢?答案是——0。
他向网友们发出提问:你们实验室里都有多少GPU?能从亚马逊、英伟达那里拿到额外的算力赞助吗?
年轻的研究者们纷纷自曝自己所在学校或公司的GPU情况,暴露出的事实,让所有人大为惊讶。
一位似乎是亚洲的网友表示,虽然自己的研究方向是计算机视觉(CV)并不是机器学习,但在2019年刚开始时,只能够使用一块2080 Ti显卡。
2021年,有机会使用一台配备V100和RTX 8000显卡的服务器。
2023年,能够使用另一个实验室的一组服务器,这些服务器包括12块2080 Ti、5块3090和8块A100显卡。同年,还获得了一项计算资助,可以使用A100显卡三个月。
2024年,学校购买了一台配有8块H100显卡的服务器,并允许试用一个月。
此外,在2021年到2023年期间,也可以从一个本地学术提供商那里按小时租用GPU。
除了2080 Ti和3090这两张显卡外,大多数这些资源都是共享的。
有人现身表示,自己可太惨了:没有显卡,没有credits。因为所在大学无法提供帮助,只能让实习公司帮自己获得一些。
一位2022年底毕业的博士也自曝称,实验室专用的服务器共搭载了差不多30块GPU,其中每台服务器配有4张显卡。(由于购买时间不同,性能也参差不齐)
理由也非常简单:我们并不需要开着法拉利来学车。而且在开始,机器学习的基础是线代、统计和编程,之后才是硬件流程的优化。
而GPU严重匮乏的问题,在我国高校的实验室内也很普遍。
甚至,有博主发帖称,某大学的课程竟要求学生自备算力设备。
五人一组的学生,至少拥有2块3090/4090,或者是1块40G A100,才能完成课程要求的LLM训练任务。
那么问题来了,为何高校自己不能多采购一些GPU呢?
知友「网瘾大爷」表示,高校直接购买GPU非常不划算。LLM训练参数规模增大,需要的是多机多卡,以及让卡之间串联的网络。
不仅有学习成本、还有维护成本,这对于高校来说投入之大。所以比较常见的方式是,去租用服务器。
清华计算机系在读博士孙恒提出了同样的问题,卡可以买,但问题是,放在哪?
有网友透露,普林斯顿语言与智能研究所(PLI)和哈佛Kempner研究所拥有最大的计算集群,分别配备了300块和400块H100 GPU。
- 小组集群有所不同,但对于10个人来说,32块GPU的分配很合理
- 部门集群的资源更多,不过也需要看具体的部门
- 大学集群Della则拥有(128x2)+(48x4)个A100和(96x8)个H100
此外,也有网友爆料说,UT Austin拥有600块H100。
蒙特利尔大学的博士生表示,自己的实验室大约有500块GPU,主要是A100 40GB和80GB。
德国亚琛工业大学的网友表示,学提供了一个包含52块GPU节点的计算集群,每个节点配备4块H100 GPU。
这些资源当然是所有院系共享的,其他一些机构也能使用。
不过,即使是学生,每个月也会分配到一定的集群使用时间。如果你需要更多的计算时间,可以申请不同规模的专用计算项目。
「我非常喜欢这个系统,能够使用它,对我来说是一次改变研究进程的机会。」
另一位欧洲的网友也表示,自己的实验室有大约16块实验室专用的A100 GPU,并且还能通过几个不同的额外集群访问更多的GPU。
由于这些集群有很多用户,所以具体规模很难估计,但每个集群大约每年提供12万GPU小时的计算时间。
不过,超过80GB的GPU内存需求是一个瓶颈。目前来说,总共能用的约为5块H100。
「我们实验室有8块H100和8块L40S,专供5名博士生和3名博士后免费使用。」
比如,这位在云计算供应商工作的网友就表示,这个帖子很有趣,因为自己竟不知道H100是这么稀有。
这背后最耀眼的明星,莫过于它的H100 GPU了。
跟普通芯片不同的是,H100内的800亿个晶体管排列在内核中,这些内核被调整为高速处理数据,而非生成图形。
成立于1993年的英伟达,押注并行工作的能力有一天将使自己的芯片在游戏之外发挥价值,他们赌对了。
在训练LLM时,H100比前代A100快四倍,在回复用户提示时快30倍。对于急于训练LLM执行新任务的公司来说,性能优势至关重要。
也正是因此,全世界生成式AI的浪潮,正在转化为英伟达的实际收入。而H100的需求如此之大,以至于许多客户不得不等待六个月才能收货。
Nebius AI的IaaS技术产品经理Igor,探讨了H100、L4、L40、A100、V100这些最流行的芯片之间的差异,并确定了每种GPU模型表现最佳的工作负载。
谈到芯片之间的差异之前,重要的是强调Transformer神经网络和数值精度的一些相关属性。
数值精度的作用
如果没有对FP8精度的硬件支持,英伟达的H100、L4和L40不可能取得巨大的成功,这对于Transformer模型尤其重要。
但是,是什么让对FP8的支持如此重要呢?让我们深入了解一下。
FP是「浮点」的缩写,它是关于模型存储在RAM中,并在其操作中使用的数字的精度。
FP64,即双精度浮点格式,是一种每个数字占用64位内存的格式。
虽然这种格式未在机器学习中使用,但它在科学领域占有一席之地。
FP32和FP16:长期以来,FP32是所有深度学习计算的事实标准。
然而,数据科学家后来发现,将模型参数转换为FP16格式,可以减少内存消耗并加快计算速度,而且似乎不会影响质量。
在进入张量内核上处理FP32值的计算之前,这些值可以在驱动程序级别自动转换为TF32格式,而无需更改代码。
显然,TF32虽然略有不同,但能提供更快的计算速度。也就是说,可以通过模型在张量内核上解释FP32的方式进行编码。
训练后,模型参数可以转换为其他占用内存较少的类型,例如INT8。
这种技术称为训练后量化,可以减少内存需求并加快推理速度。
它为许多模型架构创造了奇迹,不过Transformer 是一个例外。
Transformer无法在训练后进行转换,以降低推理的硬件要求。量化感知训练等创新技术确实在训练过程中提供了一种解决方法,但重新训练现有模型有可能成本高昂,而且极具挑战性。
FP8:此格式解决了上述问题,尤其是Transformer模型。
可以采用预训练的Transformer模型,将其参数转换为FP8格式,然后从A100切换到H100。
甚至我们可以在不进行转换的情况下做到这一点,并仍然获得性能,只是因为H100速度更快。
借助FP8,只需大约四分之一的显卡即可推断出具有相同性能和负载的相同模型。
另外,使用FP8进行混合精度训练也很不错——这个过程会完成得更快,需要更少的RAM,并且在稍后的推理阶段不再需要转换,因为模型的参数可能已经是FP8的参数。
ML、HPC和图形的关键GPU规格及性能基准
下面让我们来讨论一下,GPU规格的演变及其突出功能。