专栏名称: 芯东西
芯东西专注报道芯片、半导体产业创新,尤其是以芯片设计创新引领的计算新革命和国产替代浪潮;我们是一群追“芯”人,带你一起遨游“芯”辰大海。
目录
相关文章推荐
FM93交通之声  ·  毒性胜砒霜!女子吃一口抢救3天,千万小心! ·  昨天  
FM93交通之声  ·  刚刚确认:今晚抵达浙江,做好准备... ·  昨天  
浙江市场监管矩阵  ·  省市场监管局召开机关干部大会贯彻落实省委新春 ... ·  昨天  
杭州日报  ·  刚刚,他哭了!冲上热搜 ·  3 天前  
51好读  ›  专栏  ›  芯东西

明年推出256核3nm CPU!Ampere公布未来路线图,用CPU加速AI计算

芯东西  · 公众号  ·  · 2024-05-17 17:14

正文

下一代AmpereOne CPU已准备就绪,性能比现有市场上任何CPU高出40%以上。
作者 | ZeR0
编辑 | 漠影
芯东西5月17日报道,今日,美国明星云原生CPU创企Ampere Computing公布年度战略和全新CPU产品路线图更新,宣布2025年将推出下一代旗舰产品3nm AmpereOne CPU,最多支持256核和12通道DDR5内存。

3nm AmpereOne CPU将采用与现有192核AmpereOne CPU相同的风冷散热解决方案。Ampere号称其性能“比当今市面上任何CPU都高出40%以上”。
Oracle已经在Ampere CPU上部署了Llama、Mistral等大语言模型。Llama 3已在Oracle Cloud的Ampere CPU上运行。性能数据显示,在没GPU的128核Ampere Altra CPU上运行Llama 3-8B,可实现与搭配x86 CPU的NVIDIA A10 GPU相同的性能,同时仅消耗1/3的电量。
同时,Ampere宣布与高通合作,利用高通的Cloud AI 100推理加速卡与Ampere CPU开发AI推理的联合解决方案,以解决全球最大的生成式AI大语言模型推理问题。
在AI平台联盟中,Ampere成立了UCIe工作组,将利用开放接口技术增强其CPU的灵活性,使其能够将其他客户IP整合到未来的CPU中。
新的AmpereOne OEM和ODM平台将在几个月内发货。其客户群正在不断扩大。


01 .
“云计算和AI计算行业能效最高的CPU”


上一代AmpereOne采用5nm工艺节点,拥有192个单线程Ampere自研核心、大型云优化私有缓存、每核2MB二级缓存。

在AI方面,AmpereOne每个核心有2个128位向量单元,支持bf16、int8、int16、fp16等精度。
Ampere号称它是“云计算和AI计算行业中能效最高、性能最高的CPU”,每瓦性能比AMD Genoa高出50%,比Bergamo高出15%。

对于希望更新和整合旧基础设施以节省空间、预算和电力的数据中心,AmpereOne可为每个机架提供高达34%的性能提升。

在提高每机架性能方面,AmpereOne比AMD Genoa提高了58%,比Bergamo提高了42%。

在交付路线图时,Ampere考虑到数据中心部署的方便性,其CPU与行业标准设计兼容,无需使用液冷或非标准外形来更改设计。
Ampere内存标签有助于防止利用缓冲区溢出的恶意代码进行安全攻击,这些攻击可覆盖内存并公开安全数据。
启用Ampere内存标签扩展后,软件内存管理运行时会将密钥标签与每个软件关联起来。程序中的指针和存储器中具有相应数据的锁标签,这样可以确保程序的正确密钥标签访问正确的物理内存地址。
当程序正在执行和访问存储器时,SoC将每个指针标签与存储器标签进行比较,如果标签不匹配,则会标记错误并停止程序执行,从而有效地防止恶意攻击。
Ampere Quality of Service Enforcement能够在满足SLA的同时,对在单个SoC上同时运行的多个应用程序、 虚拟机或容器所使用的共享缓存和内存资源进行受控分配。

在具有不同需求的多租户环境中,应用程序争夺共享内存和缓存资源,每一种可能对带宽、延迟和容量都有自己的敏感度。AmpereOne确保分配最小阈值的共享资源,从而使对延迟敏感的应用程序不会受到另一个可能占用带宽的应用程序的负面影响。

这里是一个对延迟敏感的应用程序,如视频流,以红色显示,保证了共享缓存的分配;灰色应用程序可能是邮件服务器,具有第二优先级和较小的保证分配;而黑色应用程序可能是日志实用程序 ,没有优先级。这允许跨所有应用程序提供一致的性能和可预测的服务。
除了内存标签、QoS Enforcement和网格拥塞管理等现有功能外,Ampere还推出了一项新的FlexSKU功能,允许客户使用相同的SKU来解决横向扩展和纵向扩展用例。

02 .
运行80亿参数Llama 3模型,
功耗只有x86 CPU+A10 GPU的1/3


“真正的艺术在于建设一种在相同功率下可以提供30%以上性能的产品,”Ampere Computing创始人兼CEO Renee James说,“我们认为未来的数据中心基础设施必须考虑如何用升级的AI计算改造现有的风冷环境,以及建设可持续的新型数据中心,从而适应电网上的可用电力。”

她谈道,Ampere有两个使命:建设高性能、可持续计算的未来,并使广大的行业合作伙伴和用户能够使用其产品,创建一个开放的生态系统,让Ampere CPU成为许多公司发明背后的引擎。
AI等颠覆性技术的出现引起数据量指数级增长,推动对更多数据中心和电力的需求。
据最新报道,国际能源机构预测全球数据中心电力需求量将从2022年的400多TWh攀升到2026年的1000TWh,大致相当于日本全国的用电量。

因此,随着AI计算加速,构建最大化的计算效率至关重要。
比如搜索工具,集成AI后将极大增加对电力的需求,一个典型的页面搜索平均耗电量是0.3Wh,而一个典型的ChatGPT请求处理需要耗电2.9Wh,近10倍的增长。
Ampere专注于应对AI带来的能效挑战。当运行最新Llama 3 80亿参数大语言模型时,企业可能默认使用一张NVIDIA A10 GPU搭配x86 CPU,这个配置可以提供每秒30个token的性能,而仅仅CPU和GPU就要消耗420W的电力。
如果用Ampere Altra Max 128核CPU来独立运行该模型,无需GPU,在提供同样性能的情况下,功耗只有1/3。

“低功耗曾经是低性能的代名词。Ampere已经证明事实并非如此。我们开创了计算效率的前沿,并在高效的计算范围内提供了超越传统CPU的性能。” Renee James说。

03 .
支持高性能AI推理, 比GPU方案大幅省钱


Ampere Computing首席产品官Jeff Wittich分享了Ampere对“AI计算”的愿景,将传统的云原生功能融合到AI。

“我们的Ampere CPU可以运行一系列工作负载——从最流行的云原生应用程序到 AI。这包括与传统云原生应用程序集成的AI,例如数据处理、Web服务、媒体交付等。”他谈道。

AI训练只占15%的AI总计算周期,动辄连续运行几天、几周乃至几个月,需要使用专用的AI训练硬件。而AI推理是一系列较小的、单独任务,每秒运行百万或十亿次,合计占用AI总计算周期的85%。
Ampere平台支持在没有GPU的情况下进行AI推理。先前经训练的模型,如用了TensorFlow、PyTorch、ONNX等常见框架,开箱运行即可得高性能。






请到「今天看啥」查看全文