专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

目录

相关文章推荐

法治网 · 事关学籍！教育部最新发布 · 昨天

中国教育报 · 这些师生跨越冰海，在科考船上度过特殊的春节… ... · 2 天前

鹤城发布 · “严禁拖堂”！一地明确 · 2 天前

EETOP · 用加密数据进行计算的芯片即将问世 · 2 天前

新浪教育 · 揭秘人工智能在教育中的力量：青年教师如何用A ... · 2 天前

51好读 › 专栏 › 新智元

全美TOP 5机器学习博士：痛心，实验室H100数量为0！同实验室博士用GPU得靠抢

新智元 · 公众号 · · 2024-06-29 13:22

正文

新智元报道

编辑：编辑部

【新智元导读】全美TOP 5的机器学习博士痛心发帖自曝，自己实验室里H100数目是0！这也引起了ML社区的全球网友大讨论。显然，相比普林斯顿、哈佛这样动辄三四百块H100的GPU大户，更常见的是GPU短缺的「穷人」。同一个实验室的博士，甚至时常会出现需要争抢GPU的情况。

全美TOP 5高校的机器学习博士，实验室却连一块H100都没有？

最近，这位网友在reddit上发的这个帖子，立刻引发了社区大讨论——

大家发现，普林斯顿、哈佛这样的「GPU豪门」，手上的H100至少以三四百块打底，然而绝大多数ML博士，却连一块H100都用不上……

不同学校、机构之间的GPU「贫富差距」，竟然已经到了如此悬殊的地步？

大部分实验室，比斯坦福还差多了

两个月前，AI教母李飞飞曾在采访中表示，斯坦福的自然语言处理（NLP）小组只有64块A100 GPU。

面对学术界如此匮乏的AI资源，李飞飞可谓是痛心疾首。

而这位发帖的网友也表示，自己在攻读博士学位期间（全美排名前五的学校），计算资源是一个主要的瓶颈。

如果能有更多高性能的GPU，计算时间会显著缩短，研究进度也会快很多。

所以，他的实验室里到底有多少H100呢？答案是——0。

他向网友们发出提问：你们实验室里都有多少GPU？能从亚马逊、英伟达那里拿到额外的算力赞助吗？

年轻的研究者们纷纷自曝自己所在学校或公司的GPU情况，暴露出的事实，让所有人大为惊讶。

1张2080Ti+1张3090，已是全部

一位似乎是亚洲的网友表示，虽然自己的研究方向是计算机视觉（CV）并不是机器学习，但在2019年刚开始时，只能够使用一块2080 Ti显卡。

2021年，有机会使用一台配备V100和RTX 8000显卡的服务器。

2022年，获得了使用一块3090显卡的权限。

2023年，能够使用另一个实验室的一组服务器，这些服务器包括12块2080 Ti、5块3090和8块A100显卡。同年，还获得了一项计算资助，可以使用A100显卡三个月。

2024年，学校购买了一台配有8块H100显卡的服务器，并允许试用一个月。

此外，在2021年到2023年期间，也可以从一个本地学术提供商那里按小时租用GPU。

除了2080 Ti和3090这两张显卡外，大多数这些资源都是共享的。

题主问：这里的「a」就是字面意义上的「一个」么？

网友表示，是的，就是这么艰苦……

有人现身表示，自己可太惨了：没有显卡，没有credits。因为所在大学无法提供帮助，只能让实习公司帮自己获得一些。

一位2022年底毕业的博士也自曝称，实验室专用的服务器共搭载了差不多30块GPU，其中每台服务器配有4张显卡。（由于购买时间不同，性能也参差不齐）

不过，同一实验室里抢GPU的事情还是时有发生。

对此，有网友总结道，0 GPU很常见。

理由也非常简单：我们并不需要开着法拉利来学车。而且在开始，机器学习的基础是线代、统计和编程，之后才是硬件流程的优化。

而GPU严重匮乏的问题，在我国高校的实验室内也很普遍。

甚至，有博主发帖称，某大学的课程竟要求学生自备算力设备。

五人一组的学生，至少拥有2块3090/4090，或者是1块40G A100，才能完成课程要求的LLM训练任务。

那么问题来了，为何高校自己不能多采购一些GPU呢？

知友「网瘾大爷」表示，高校直接购买GPU非常不划算。LLM训练参数规模增大，需要的是多机多卡，以及让卡之间串联的网络。

不仅有学习成本、还有维护成本，这对于高校来说投入之大。所以比较常见的方式是，去租用服务器。

清华计算机系在读博士孙恒提出了同样的问题，卡可以买，但问题是，放在哪？

当然，有人在负重前行，自然也有人岁月静好。

比如下面这些学校，相比起来就要「富裕」得多了。

「H100，我们也就几百块吧」

有网友透露，普林斯顿语言与智能研究所（PLI）和哈佛Kempner研究所拥有最大的计算集群，分别配备了300块和400块H100 GPU。

而这个信息，也得到了一位普林斯顿研究者的佐证——

在普林斯顿，可以使用的集群有三种。

- 小组集群有所不同，但对于10个人来说，32块GPU的分配很合理

- 部门集群的资源更多，不过也需要看具体的部门

- 大学集群Della则拥有（128x2）+（48x4）个A100和（96x8）个H100

总之，普林斯顿和哈佛都可以说是显卡大户。

此外，也有网友爆料说，UT Austin拥有600块H100。

蒙特利尔大学的博士生表示，自己的实验室大约有500块GPU，主要是A100 40GB和80GB。

德国亚琛工业大学的网友表示，学提供了一个包含52块GPU节点的计算集群，每个节点配备4块H100 GPU。

这些资源当然是所有院系共享的，其他一些机构也能使用。

不过，即使是学生，每个月也会分配到一定的集群使用时间。如果你需要更多的计算时间，可以申请不同规模的专用计算项目。

「我非常喜欢这个系统，能够使用它，对我来说是一次改变研究进程的机会。」

对如此充沛的算力，题主表示非常羡慕。

另一位欧洲的网友也表示，自己的实验室有大约16块实验室专用的A100 GPU，并且还能通过几个不同的额外集群访问更多的GPU。

由于这些集群有很多用户，所以具体规模很难估计，但每个集群大约每年提供12万GPU小时的计算时间。

不过，超过80GB的GPU内存需求是一个瓶颈。目前来说，总共能用的约为5块H100。

类似的，这位网友所在的实验室，也相当富裕：

「我们实验室有8块H100和8块L40S，专供5名博士生和3名博士后免费使用。」

最后，截取一些「凡尔赛」网友的发言。

比如，这位在云计算供应商工作的网友就表示，这个帖子很有趣，因为自己竟不知道H100是这么稀有。

或者，从单位分不到显卡，那就干脆自己买一块。😂

紧俏的H100，为何如此重要

最近，英伟达的市值一度突破3.3万亿美元，登顶全球第一。

这背后最耀眼的明星，莫过于它的H100 GPU了。

跟普通芯片不同的是，H100内的800亿个晶体管排列在内核中，这些内核被调整为高速处理数据，而非生成图形。

成立于1993年的英伟达，押注并行工作的能力有一天将使自己的芯片在游戏之外发挥价值，他们赌对了。

在训练LLM时，H100比前代A100快四倍，在回复用户提示时快30倍。对于急于训练LLM执行新任务的公司来说，性能优势至关重要。

也正是因此，全世界生成式AI的浪潮，正在转化为英伟达的实际收入。而H100的需求如此之大，以至于许多客户不得不等待六个月才能收货。

Nebius AI的IaaS技术产品经理Igor，探讨了H100、L4、L40、A100、V100这些最流行的芯片之间的差异，并确定了每种GPU模型表现最佳的工作负载。

谈到芯片之间的差异之前，重要的是强调Transformer神经网络和数值精度的一些相关属性。

数值精度的作用

如果没有对FP8精度的硬件支持，英伟达的H100、L4和L40不可能取得巨大的成功，这对于Transformer模型尤其重要。

但是，是什么让对FP8的支持如此重要呢？让我们深入了解一下。

FP是「浮点」的缩写，它是关于模型存储在RAM中，并在其操作中使用的数字的精度。

最重要的是，这些数字决定了模型输出的质量。

以下是一些关键的数字格式——

FP64，即双精度浮点格式，是一种每个数字占用64位内存的格式。

虽然这种格式未在机器学习中使用，但它在科学领域占有一席之地。

FP32和FP16：长期以来，FP32是所有深度学习计算的事实标准。

然而，数据科学家后来发现，将模型参数转换为FP16格式，可以减少内存消耗并加快计算速度，而且似乎不会影响质量。

结果，FP16就成为了新的黄金标准。

TF32，也是另一种至关重要的格式。

在进入张量内核上处理FP32值的计算之前，这些值可以在驱动程序级别自动转换为TF32格式，而无需更改代码。

显然，TF32虽然略有不同，但能提供更快的计算速度。也就是说，可以通过模型在张量内核上解释FP32的方式进行编码。

INT8：这是一种整数格式，不涉及浮点数。

训练后，模型参数可以转换为其他占用内存较少的类型，例如INT8。这种技术称为训练后量化，可以减少内存需求并加快推理速度。它为许多模型架构创造了奇迹，不过Transformer 是一个例外。

Transformer无法在训练后进行转换，以降低推理的硬件要求。量化感知训练等创新技术确实在训练过程中提供了一种解决方法，但重新训练现有模型有可能成本高昂，而且极具挑战性。

FP8：此格式解决了上述问题，尤其是Transformer模型。

可以采用预训练的Transformer模型，将其参数转换为FP8格式，然后从A100切换到H100。

甚至我们可以在不进行转换的情况下做到这一点，并仍然获得性能，只是因为H100速度更快。

借助FP8，只需大约四分之一的显卡即可推断出具有相同性能和负载的相同模型。

另外，使用FP8进行混合精度训练也很不错——这个过程会完成得更快，需要更少的RAM，并且在稍后的推理阶段不再需要转换，因为模型的参数可能已经是FP8的参数。

ML、HPC和图形的关键GPU规格及性能基准

下面让我们来讨论一下，GPU规格的演变及其突出功能。

请特别注意上图中的前两行：RAM数量及其带宽。

请到「今天看啥」查看全文

推荐文章

法治网 · 事关学籍！教育部最新发布

昨天

中国教育报 · 这些师生跨越冰海，在科考船上度过特殊的春节……丨新春走基层

2 天前

鹤城发布 · “严禁拖堂”！一地明确

2 天前

EETOP · 用加密数据进行计算的芯片即将问世

2 天前

新浪教育 · 揭秘人工智能在教育中的力量：青年教师如何用AI打造高效课堂

2 天前

上海发布 · 【视频】杨雄市长发表元旦献词：紧扣市民期盼，下更大力气保障和改善民生

8 年前

车早茶 · 啪啪打脸！你们眼中的美系车根本不是美国造！

7 年前

狗与爱的世界 · 在喵星人面前，再厉害的狗都怂了！

7 年前

新疆949交通广播 · 这个学校的男生宿舍火了！这一汪清流女同学都喊着要嫁

7 年前

潮人小罗 · 揭露收红包女教师丑闻，小伙儿与其开房

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!