AMD EPYC第四代Genoa系列已经成为新华三打造智能训练、推理集群的动力源之一。
大模型带来的技术与产品革命正在颠覆生产力,日趋丰富的AI应用规模化部署带来全新计算需求,给用户带来新的机遇和挑战。
大模型的算力需求主要来自两个环节:训练和推理。训练阶段决定了大模型的智力水平,AI算力需求呈指数级增长。推理阶段是大模型应用落地时的计算过程,随着大量相关创新应用涌现,对推理侧算力需求的关注度同样水涨船高。
AMD联手国内头部服务器厂商新华三,将
AMD EPYC处理器
集成到新华三
智能算力旗舰R5500 G6 AI服务器、
新华三
混合算力引擎R5350 G6 AI服务器
中,成为当下用户能同时满足训练、推理算力需求,缓解算力焦虑的理想解决方案之一。
那么,在训练和推理对于算力需求的侧重点不尽相同的当下,大模型所需的算力需要怎样的芯片来承载?CPU和GPU将在其中扮演怎样的角色?AMD EPYC处理器加速AI训练、推理的杀手锏是什么?我们试图从这一处理器出发,找到这些问题的答案。
以聊天机器人ChatGPT为始,从大模型训练到推理引发的算力焦虑,正成为算力行业增长的动力之一。
对于用户而言,这背后的关键在于,AI训练和推理这两个关键环节对于算力的需求不同。AI训练过程是涉及数据量最大、处理最为密集的部分,需要具备更加大规模、高集中度、高性能的算力;AI推理主要涉及大量AI应用的落地部署,还需要考虑用户数量实现同时并发,侧重点更多体现在计算效率和规模上。
因此,在AI应用爆发的背景下,拥有一定计算能力的CPU支撑AI推理所需的算力,GPU+CPU的异构计算架构完成AI训练和推理的解决方案,成为连接AI训练到推理需求的一条可行路径。
正如AMD EPYC处理器,既针对AI推理任务进行了优化升级,同时还能在其与新华三推出的AI服务器R5350 G6、R5500 G6中提供满足训练、推理的计算能力。
AMD EPYC处理器针对于当下算力需求从训练向推理扩展的现状,也进行了相应优化。如帮助开发人员无缝从训练转向推理,并以更高性能运行这些操作。
同时,相比于训练,AI推理层面用户对芯片背后的成本和功耗会更为关注,AMD EPYC处理器可以在兼顾这些的同时,还能保证计算效率,降低时延。
综上,大模型时代算力需求正发生变化,CPU也焕发出新的生命力。
AMD为满足用户的推理需求提供了一大可行且性价比更高的方案。
第四代AMD EPYC 9004系列处理器代号Genoa
,实现了核心架构升级,使每个时钟周期的指令总数增加了约14%。
此外,
EPYC 9004系列做到了最多96核心192线程
,而且都是完整大核心,同时提供84/64/48/32/24/16等不同核心数量可选。大量的核心再加上同步多线程技术,可以同时处理来自成千上万个源的数据推理请求,大大提高效率。
AI推理过程与企业业务紧密结合,需高速、频繁读取、处理相应数据,就需要芯片具备高频率的计算能力,借助PCIe Gen 5 I/O,处理器的
I/O
吞吐量实现翻番,能够实现更快的数据获取
,加快AI推理速度。
再加上,AI推理落地到更多垂直行业时,因业务场景不同,其应用的表现形式会更加复杂,对于
更快、更高效的内存
需求更为迫切。AMD EPYC处理器搭载了DDR5内存,内存吞吐量总计达到了AMD上一代产品的2.25倍,使得数据传输速率提升,
降低任务响应的时延
。
AMD EPYC处理器还支持AI优化指令集,如AVX-512扩展、BF16数据类型等,这些
专门用于AI计算的指令集,使得AI推理效率进一步提升
。
▲AMD EPYC处理器(图源:AMD)
硬件升级外,该处理器还在软件层面进行了针对性优化,为CPU软件栈提供了机器学习图形编译器、针对Zen核心架构优化的数值库、AI原语库ZenDNN、ZenSoftwareStudio以及适用于Microsoft Windows和Linux的运行软件等工具。
并且,AMD EPYC处理器还具备更好的
兼容性
,可无缝切换目前主流的各种CPU AI的库,如OneDNN和OpenVINO等。
更为关键的一点在于,企业采用搭载AMD EPYC处理器的现有服务器,既能快速满足推理所需的算力,同时还能降低这之中的操作成本,无需选用新服务器用来推理可以为企业减负。
此外,第四代AMD EPYC处理器已经在承载大模型应用的场景中实现落地,如属于计算机视觉、自然语言处理和推荐系统范畴的客户支持、零售、汽车等行业的一系列数据中心和边缘应用。
可以看出,AMD EPYC处理器基于高主频、高核心数带来的高并发、低延迟,更优能效比以及I/O吞吐等诸多优势,能够契合用户业务场景的推理需求。
如今,除大语言模型外,文生图、文生视频等多模态大模型的能力升级,进一步激发了训练算力需求,再加上AI落地的推理需求,进一步拉大算力缺口。
因此,算力提供商需要打造具备更全面AI支撑能力的计算集群,才能满足目前的算力需求。
新华三打造的AI服务器
H3C UniServer R5500 G6、R5350 G6,集成了AMD EPYC处理器,
可同时满足用户搭建训练、推理集群的算力需求。
这两款服务器都支持2颗AMD EPYC 9004系列处理器,使其实现了
90%性能提升和50%的内核数量提升
,还能满足超大模型的并行训练需求,实现在AIGC、语音识别等多种AI业务场景的应用。
值得一提的是,根据新华三去年发出的新闻报道显示(39项世界第一!新华三再次登顶MLPerf国际权威AI基准性能竞赛),基于96核AMD EPYC 9654 CPU的R5350 G6 AI服务器,在国际权威AI基准评测组织MLPerf公布的最新AI 推理(Inference V3.0)榜单上,夺得了ResNet50(图像分类)、RetinaNet(目标检测)、3D-Unet(医学图像分割)、BERT(自然语言处理)等模型任务
21项第一
,可应对人工智能不同场景下对异构算力的需求。
R5500 G6可以根据用户需求灵活选择不同的计算节点,提升GPU的资源利用率,使得其可同时部署
深度学习模型训练、深度学习推理
、高性能计算、数据分析等多种应用。
在这之中,AMD EPYC处理器扮演了重要角色。AI服务器R5500 G6支持2颗AMD EPYC处理器,双处理器的内存容量达到
12TB
。
再加上PCIe 5.0及400GE网络的加持,使得客户可以用AI服务器部署更高性能的AI算力集群,加速AI的落地与应用。
▲新华三混合算力引擎H3C UniServer R5500 G6 AI服务器
R5350 G6的性能同样强劲,除上文提到的性能和内核数量提升外,还支持多达
24块2.5/3.5英寸硬盘
,可满足海量数据的存储需求。
在网络带宽方面,R5350 G6可支持12个PCIe5.0插槽、内置1个专用阵列卡槽位和1个OCP 3.0专用网卡插槽,支持400GE网卡。
基于AMD EPYC处理器,R5350 G6可支持多种类型AI加速卡,应对AI不同场景下对异构算力的需求。
CPU和GPU挂载比可支持1:4、1:8
,用户可基于应用模型按需配置。