今天分享的是人工智能
专题系列
深度研究报告:《
2023人工智能带来的颠覆数据中心设计的挑战及相关指南白皮书
》
报告共计:
20
页
简介
近年来,我们目睹了人工智能的飞速发展,它改变了我们的生活、工作以及与技术的互动方式。生成式人工智能(如 ChatGPT)的出现更是推动了这一发展。预测算法正在对医疗 、金融、制造、交通 和娱乐等行业产生影响。与人工智能相关的数据需求也正在推动新的芯片和服务器技术的发展,致使非常高的机柜功率密度的出现。与此同时,市场对人工智能的需求十分巨大。以上所述因素的结合为设计和运营数据中心以支持这一需求带来了新的挑战。
人工智能增长预测
我们估计人工智能目前的电力需求为 4.3 GW,并预测到 2028 年它将以 26%-36%的年复合增长率(CAGR)进行增长,最终达到13.5 GW 至 20 GW。这一增长速度是数据中心总电力需求年复合增长率(11%)的两到三倍,详见赛1。其中一项重要的洞察是,随着更多经过训练的新模型开始进入生产阶段,推理4负载将随时间推移而增加。实际能源需求将在很大程度上取决于技术因素,包括连续多代的服务器、更高效的指令集、芯片性能的提升以及人工智能的持续研究。
人工智能工作负载
AI 工作负载一般分为两类:训练和推理
训练工作负载用于训练人工智能模型,如大语言模型(LLM)。我们在本文中提到的训练工作负载类型属于大规模 分布式训练(大量机器并行运行“),因为它对当前的数据中心提出了挑战。这些工作负载需要将海量数据馈送至配有处理器(即加速器)的专用服务器。图形处理器(GPU)是加速器的其中一种?。加速器在执行并行处理任务(如 LLM 训练过程中的并行处理任务)时效率极高。除服务器外,训练还需要数据存储器和将之连接在一起的网络。这些元素可组合成一个机柜阵列,称为“人工智能集群”。它实质上是将集群当成一台计算机来训练一个模型。精心设计的人工智能集群中的加速器在大部分训练时间(从数小时到数月不等)内都以接近 100%的利用率运行训练集群的平均耗电量几乎等于其峰值耗电量(峰均比=1)。
模型越大,需要的加速器越多。大型人工智能集群的机柜功率密度从 30 kW 到 100 kW不等,具体取决于 GPU 的型号和数量。集群的规模从几个机柜到数百个机柜不等,通常以所用加速器的数量来加以描述。例如,22.000 H100 GPU 集群使用约 700 个机柜,需要约 31 MW 的电力,平均机柜功率密度为 44 kW。请注意,此电力不包括制冷等物理基础设施需求。最后,训练工作负载将模型保存为“检查点”。如果集群发生故障或断电,它可以从中断点继续运行。
推理是指将先前训练好的模型投入生产,以预测新查询(输入)的输出。从用户的角度来看,输出的准确性和推理时间(即延迟)之间需要权衡。如果我是一名科学家,我可能愿意支付更高的费用,在两次查询之间等待更长的时间,以获得高准确度的输出。而如果我是一个寻找写作灵感的撰稿人,我会想要一个能即时回答问题的免费聊天机器人。简而言之,业务需求决定推理模型的大小,但很少会使用完整的原始训练模型。相反,我们会部署一个轻量级版本的模型,以在可接受的准确率损失下缩短推理时间。推理工作负载倾向于使用加速器来处理大模型,并且还可能严重依赖CPU,具体取决于应用。自动驾驶技术、推荐型引擎和 ChatGPT 等应用可能都有不同的IT堆栈,并根据各自要求进行了“调优”。根据模型的大小,每个实例的硬件要求可能从一台边缘设备(如智能手机)到几个服务器机柜不等。也就是说,机柜密度可以从几百瓦到 10 千瓦以上。与训练不同,推理服务器的数量会随着用户/查询数量的增加而增加。事实上一款流行的模型(如 ChatGPT)推理所需的机柜数量很可能是训练所需的机柜数量的数倍,因为它们现在 每天的查询量高达数百万次。最后,推理工作负载通常为业务关键型负载,需要具备韧性(如 UPS 和/或地理冗余)。
GPU 的热设计功耗(TDP)
虽然训练或推理离不开存储器和网络,但现在我们重点关注 GPU,因为它约占人工智能集群功耗的一半。。每一代 GPU 的功耗均呈上升趋势。芯片的功耗(以瓦特为单位)通常用 IDP表示。虽然我们在此只讨论 GPU,但TDP 不断增加的总体趋势也发生在其他加速器上。每一代 GPU 的 TDP 都在增加,这是 GPU 为增加运算量而设计的结果,目的是在更短的时间内以更低的成本训练模型并进行推理。2比较了三代Nvidia GPU 在 TDP 和性能方面的差异°。