专栏名称: 云头条
引领科技变革,连接技术与商业
目录
相关文章推荐
海龟社区  ·  小心,只差一点点了! ·  19 小时前  
散户成长基地  ·  注意看,开年第一轮机会来了! ·  昨天  
散户成长基地  ·  注意看,开年第一轮机会来了! ·  昨天  
l 看齐 l  ·  刚刚!王曼昱夺冠! ·  昨天  
l 看齐 l  ·  刚刚!王曼昱夺冠! ·  昨天  
北京青年报  ·  4比0战胜梁靖崑,王楚钦亚洲杯男单夺冠 ·  昨天  
51好读  ›  专栏  ›  云头条

GPU 的使用寿命短得惊人:只有 1 ~ 3 年!

云头条  · 公众号  ·  · 2024-11-04 23:38

正文

虽然各大科技公司都在大力投入于数据中心 GPU,但这些 GPU 的使用寿命可能只有 1 年到 3 年,长短具体取决于它们的利用率。




正如 Alphabet 的一位总架构师特别指出,由于 GPU 承受 AI 训练和推理的繁重工作量,它们往往比其他部件更快地出现损耗。

据称,在云服务提供商(CSP)运营的数据中心中,用于处理 AI 工作负载的 GPU 的利用率约为 60% 至 70%。

用 Alphabet 这位总架构师的话来说,按照这么高的利用率,GPU 通常只可以使用 1 年到 2 年,或长达 3 年。
虽然这种说法不能被认为 100% 准确,需要进一步确认,但它强调, 面向 AI 和高性能计算应用的现代数据中心 GPU 消耗的功率为 700W 或更多,这对芯片来说是巨大的压力。
延长 GPU 使用寿命的一种方法是降低利用率。 然而,降低利用率意味着 GPU 将逐渐失去价值,需要更长的时间才能收回资本,这对商业用途而言并不理想。
因此,大多数云服务提供商会让使用的 GPU 处于高利用率。

Meta 进行的一项研究描述了在由 16384 个英伟达 H100 80GB GPU 驱动的集群上训练其 Llama 3405B 模型。
在这项研究中,该集群的模型算力利用率(MFU)为 38%(使用 BF16),而在为期 54天的预训练快照中,在 419 次不可预见的中断中,148 次(30.1%)是由 GPU 故障(包括 NVLink 故障)引起的,72 次(17.2%)是由 HBM3 内存故障引起的。《 训练 Llama 3 时:16384 个 GPU 集群,3 个小时出现一次故障!

Meta 的这一研究结果对英伟达的 H100 GPU 相当有利。如果 GPU 及其内存按 Meta 的速率出现故障,年化故障率将达到 9% 左右,3 年后将达到 27% 左右。
然而在大量使用一年后,GPU 可能会更频繁地出现故障。
参考资料: https://www.trendforce.com/news/2024/10/31/news-datacenter-gpus-may-have-an-astonishingly-short-lifespan-of-only-1-to-3-years/








请到「今天看啥」查看全文