Arm 预测 AI 推理很快就会无处不在。为了给设备提供所有神经网络处理所需的动力,该公司正在通过首款针对边缘工作负载的 64 位 Armv9 CPU 内核增强其嵌入式平台。
软银旗下的英国芯片设计公司表示,人工智能发展正在迅速,并声称几年前网络边缘机器学习工作负载要简单得多,专注于基本的降噪或异常检测。
Arm 物联网业务线高级副总裁兼总经理 Paul Williamson 表示:“以不起眼的门铃为例。”他补充说,它从一个简单的蜂鸣器发展成为一个基本的摄像头查看器,现在又发展成为一个更智能的人工智能驱动设备,能够确定它是否在检测人,甚至识别特定的个人。
为了解决这一问题,该处理器设计公司推出了Cortex-A320 CPU 内核,旨在与 Arm 的嵌入式神经处理单元 (NPU) 加速器 Ethos-U85 搭配用于边缘 AI 片上系统 (SoC) 设计。它可以配置为四个内核的集群,以扩展并满足各种性能需求。
据称,A320 是“最小的 Armv9 实现”,提供 AArch64 指令集,是一个相对简单的单发射、有序、八级核心,L1 缓存高达 64KB,L2 缓存高达 512KB。很高兴看到 RISC-V 让 Arm 保持警惕。
为了表明事物发展的速度,Arm 推出了一个边缘 AI参考平台,将 Ethos-U85 与微控制器级 CPU 核心设计 Cortex-M85 配对,迄今还不到一年。
相比之下,Cortex-A320 是 Arm 全功能应用处理器系列的一部分,尽管它是一款“超高效”的处理器,基于较新的 Armv9 架构,并具有各种增强功能。Williamson 声称,新组合的机器学习性能是去年平台的八倍以上,并且能够处理超过十亿个参数的大型 AI 模型。
威廉姆森说:“对于高效执行更大网络的硬件的持续需求正在推动内存大小的要求,因此具有更好内存访问性能的系统对于执行这些更复杂的用例变得非常必要。”
“Cortex-A 处理器解决了这一挑战,因为它们比基于 Cortex M 的平台对更多可寻址内存具有内在支持,并且在处理多层内存访问延迟方面更加灵活。”
在 Armv9 处理器系列中,Cortex-A320 被认为是迄今为止最节能的处理器,据称它仅使用 Cortex-A520(一些参考设计中使用的高效内核)的一半功率。
转向 Armv9 带来了该架构中引入的安全功能,例如用于捕获内存异常的内存标记扩展,而对于 AI 处理,它还具有可扩展矢量扩展 (SVE2) 和对 BFloat16 数据类型的支持。
软件开发也至关重要,Arm 在其 Arm Kleidi 库中为新的边缘硬件提供支持。其中包括用于构建 AI 框架的一组计算内核 Kleidi AI 和用于计算机视觉应用的 Kleidi CV。
据威廉姆森称,这还支持 Armv9 中的优化,例如 Neon 和 SVE2,并集成到 llama.cpp、ExecuTorch 和 LiteRT 等流行的 AI 框架中。
Cortex-A320 还能够使用 FreeRTOS 和 Zephyr 等实时操作系统运行应用程序,并支持 Linux。
与其他 Arm 产品一样,授权商将负责围绕新的 Cortex-A320 和 Ethos-U85 构建芯片。该公司表示,预计明年将推出该芯片,但未透露将使用该芯片的具体合作伙伴或产品。
除了网络边缘应用之外,其低功耗设计还使其适用于各种用途,包括智能手表和可穿戴设备。Williamson 表示,Cortex-A320 还可能是“服务器和基础设施中基板管理控制器的理想 CPU”。
Cortex-A320:针对物联网优化的超高效 Armv9 CPU
在当今不断发展的物联网领域,软件复杂性不断增加,边缘设备比以往任何时候都需要更高的性能、效率和安全性。Arm Cortex-A产品组合通过为功率受限的设备提供先进的计算能力来满足这一需求 ,为不同的市场提供增强的 AI 处理、强大的安全性和优化的效率。Cortex-A3xx 系列专门为包括消费设备和云服务在内的各个细分市场提供超高效的解决方案和优化的性能。更重要的是,它为快速增长且高度多样化的物联网市场提供了强大且可扩展的解决方案,使其特别适合边缘 AI应用。
边缘 AI 需要越来越高的计算性能、更强的安全性和更大的软件灵活性。随着软件复杂性的增加,Armv9架构已被引入,以提供先进的机器学习 (ML) 和 AI 功能以及增强的安全功能。这种尖端架构现已部署在超高效的 Cortex-A3xx 层中,为下一代边缘 AI 应用提供了坚实的基础。
今天,Arm 推出了Cortex-A320,这是首款采用 Armv9 架构的超高效 Cortex-A 处理器。Cortex-A320 是一款基于Armv9.2-A版架构的 AArch64 CPU。其微架构源自Cortex-A520,但经过了显著优化,以改善面积和功耗。
与 Cortex-A520 相比,通过多项微架构更新实现了超过 50% 的效率提升。这些包括窄化提取和解码数据路径、密集存储的 L1 缓存、减少端口的整数寄存器文件和其他优化。
高效的分支预测器和预取器等重要的微架构创新以及内存系统的改进也提高了 Cortex-A320 的标量性能,与其前代产品 Cortex-A35 相比,在 SPECINT2K6 中提高了 30% 以上。
最重要的是,通过集成NEON和可扩展向量扩展 ( SVE2 ) 向量处理技术中的 Armv9 增强功能,Cortex-A320 的 ML 处理能力比Cortex-A35提高了数倍(10 倍) ,以 int8 通用矩阵乘法 (GEMM) 为衡量标准。Cortex-A320 支持BF16等新数据类型以及新的点积和矩阵乘法指令,ML 性能比世界上最受欢迎的 Armv8-A CPU Cortex-A53高出 6 倍。
ML 功能的显著提升,加上高面积和能效,使得 Cortex-A320 成为所有 Arm Cortex-A CPU 中 ML 应用中最高效的内核。
与 Arm Cortex-M 处理器相比,Cortex-A320 的 ML 性能也提高了数倍,例如,与性能最高的Cortex-M CPU Cortex-M85相比,GEMM 性能提高了 8 倍。这种性能提升不仅仅是因为 Armv9 在 AI 处理方面的增强,还源于 Cortex-A320 显着提高的内存访问性能和更高的频率。
此外,由于其 A 型架构、多核执行和灵活的内存管理,Cortex-A320 成为将性能扩展到高性能 Cortex-M 微控制器的合适选择。
Cortex-A320是单发射、有序32位指令提取的CPU,实现了优化的8级流水线,具有紧凑的转发网络,从而实现比Cortex-A520更高的频率点。
Cortex-A320 支持从单核到四核的配置,从而在集群内提供可扩展性。它采用 DSU-120T,这是一种精简的 DynamIQ 共享单元 ( DSU ),可实现仅限 Cortex-A320 的集群。DSU-120T 是一种极简 DSU 实现,可显著降低复杂性、面积和功耗,从而最大限度地提高基于低端 Cortex-A 的设计的效率。
Cortex-A320 支持高达 64KB 的 L1 缓存和高达 512KB 的 L2 缓存,并且具有一个 256 位 AMBA5 AXI 接口,可连接到外部存储器。L2 缓存和 L2 TLB 可在 Cortex-A320 CPU 之间共享,而矢量处理单元(实现 NEON 和 SVE2 SIMD(单指令、多数据)技术)可在单核复合体中专用,也可在双核或四核实现中在两个核之间共享。
Cortex-A320 确保与边缘和基础设施设备的兼容性,同时提供效率和可扩展性。它受益于广泛的开源 Linux 支持、强大的安全生态系统,以及——更重要的是——关键的 Armv9 架构改进。
除了通过 NEON 和 SVE2 矢量处理技术更新实现的 ML 改进之外,Armv9 架构还显著增强了安全性,而安全性是任何物联网和嵌入式系统的关键。Cortex-A320 为超高效 Cortex-A 层带来了重要的安全功能,例如提供增强内存安全性的内存标记扩展 (MTE),以及可缓解跳转和返回导向编程攻击的指针认证 (PAC) 和分支目标识别 (BTI)。
Cortex-A320 采用的 Armv9 关键功能之一是安全 EL2(异常级别 2)。有关更多详细信息,请访问安全虚拟化页面。安全 EL2 增强了 TrustZone 中的软件隔离,有助于在边缘设备上安全执行软件容器。
Cortex-A320 在各种应用中都发挥了所有这些优势,从低端通用 MPU、智能扬声器和软件定义智能相机,到工厂车间自动驾驶汽车、自动化边缘 AI 助手、支持 AI 的人机界面和实用机器人控制器。除了边缘 AI 应用外,其他主要细分市场也受益于 Cortex-A320,例如智能手表和智能可穿戴设备,以及基础设施设备,例如服务器的基板管理控制器 (BMC)。
Cortex-A320 也非常适合传统上使用高性能 Cortex-M 的应用,例如电池供电的 MCU 用例或运行实时操作系统 (RTOS) 的应用,这些应用需要通过对称多处理来扩展性能,而这在 A 型架构中是开箱即用的。
它还可以成为需要 Cortex-A 内存管理或地址转换功能的 RTOS 应用程序的合适候选者,以增强软件灵活性。例如,Cortex-A320 可能适合需要在 MCU 设备上下载应用程序的用例,因此内存管理单元 (MMU) 是跨内存映射的代码重定位所必需的。
同时,由于寻址空间更宽,Cortex-A320 可以成为将大型 Cortex-A 与微控制器类核心相结合的异构多核用例的有效解决方案。Cortex-A320 使 Arm 的合作伙伴能够将小型架构兼容核心与更大的 Cortex-A 处理器一起使用,从而简化内存架构。
另一方面,得益于其 A 级特性,Cortex-A320 可提供开箱即用的 Linux 支持,并支持 Android 或任何现有丰富操作系统的软件移植。Cortex-A320 带来了前所未有的灵活性,可针对多个细分市场、应用和操作系统。
我们最新的Ethos-U85 NPU设计用于容忍基于 Cortex-A 的系统中常见的更高延迟内存,并且可与 Cortex-A320 配合良好。
Ethos-U85 驱动程序现已更新,因此 Ethos-U85 可由 Cortex-A320 直接驱动,而无需基于 Cortex-M 的 ML 岛。此更新可改善延迟,并允许 Arm 合作伙伴消除使用 Cortex-M 驱动 NPU 的成本和复杂性。
此外,Cortex-A320 的内存访问性能和增强的内存系统允许执行更大的 ML 模型,例如超过 10 亿个参数的大型语言模型 (LLM),由于可寻址内存空间有限,这些模型无法在基于 Cortex-M 的系统上有效运行。
Ethos-U NPU 与量化数据类型配合使用,可满足最受限的边缘 AI 用例的成本和能源需求。任何不受 Ethos-U85 支持的 ML 运算符和数据类型都将自动回退到 Cortex-A320,利用 Neon/SVE2 引擎进行加速。
由于 Armv9 架构在机器学习方面有了显著改进,四核 Cortex-A320 在 2GHz 频率下运行时,可以执行高达 256 GOPS(以 8 位 MAC/周期为单位)。因此,Cortex-A320 可以直接在 CPU 上运行高级机器学习和人工智能用例,甚至无需外部加速器。对于面向各种机器学习和人工智能应用的设备,这可以节省系统面积、功耗和复杂性,最高可达 0.25 TOPs。
Cortex-A320 将 Armv9 安全性和前所未有的 AI 性能水平带入超高效的 Cortex-A 层,为软件开发人员提供了开发和部署要求越来越高的用例的新可能性,为边缘 AI 设备开启了新时代。通过将 A 级架构及其周围的软件生态系统与效率和灵活性相结合,Cortex-A320 带来了可扩展性和多功能性,可瞄准物联网及其他领域的多个市场。
https://www.theregister.com/2025/02/26/armv9_cortex_a320/
https://newsroom.arm.com/blog/introducing-arm-cortex-a320-cpu