AI算力瓶颈如何破？两篇论文揭秘“微架构优化×网内计算”加速范式|期刊论文速递

中国计算机学会 · 公众号 · · 2025-02-09 17:00

正文

AI算力需求激增，本期推送的两篇论文聚焦于突破传统计算架构的效率瓶颈。论文系统梳理机器学习赋能的微架构设计加速方法，通过智能优化负载选择、模拟工具与性能建模，大幅压缩设计空间搜索成本。面对网络通信开销，CAInNet通过融合SIMD/MIMD计算模式重构网内计算，实现AI数据的高效处理与传输，实验验证其路由分类准确率超98%且节省近99%存储资源。

1、破解“暴力搜索”困局，五大加速策略全解析，从负载优化到性能建模，助你高效锁定最优设计方案！

王铎, 刘景磊, 严明玉, 滕亦涵, 韩登科, 叶笑春, 范东睿. 面向处理器微架构设计空间探索的加速方法综述[J]. 计算机研究与发展, 2025, 62(1): 22-57.

中央处理器是目前最重要的算力基础设施. 为了最大化收益，架构师在设计处理器微架构时需要权衡性能、功耗、面积等多个目标. 但处理器运行负载的指令多，单个微架构设计点的评估耗时从10 min到数十小时不等. 加之微架构设计空间巨大，全设计空间暴力搜索难以实现. 近些年来许多机器学习辅助的设计空间探索加速方法被提出，以减少需要探索的设计空间或加速设计点的评估，但缺少对加速方法的全面调研和系统分类的综述。

来自中国科学院计算所的 《面向处理器微架构设计空间探索的加速方法综述》 对处理器微架构设计空间探索的加速方法进行系统总结及分类，包含软件设计空间的负载选择、负载指令的部分模拟、设计点选择、模拟工具、性能模型5类加速方法. 对比了各加速方法内文献的异同，覆盖了从软件选择到硬件设计的完整探索流程. 最后对该领域的前沿研究方向进行了总结，并放眼于未来的发展趋势。

2、突破传统网络设备局限，首创SIMD+MIMD融合计算模式，让AI训练/推理数据在传输中完成智能处理，路由分类准确率98.3%，存储空间暴降98.7%！

刘忠沛，杨翔瑞，杨凌，高源航，吕高锋，王宝生，苏金树[J]. CAInNet：面向AI加速的通算一体网内计算模型[J]. 计算机学报, 2025, 48(1): 21-34.

AI时代的到来对当今算力提出了双重挑战，一方面涉及推理，另一方面涉及分布式训练。将一部分分布式应用的计算任务卸载到高速网络的网卡或交换机能够潜在提升分布式应用的性能，发挥网络的关键作用。如在交换机或网卡中卸载参数聚合等计算功能能够有效降低模型训练时产生的大量通信开销。基于P4语言的可编程数据平面除了使网络协议定制更加灵活外，还使得网络数据平面能够为分布式应用提供简单的网内计算服务。然而，当前典型的基于P4语言的可编程数据平面架构如协议无关交换架构（PISA）在矩阵运算等方面还表现得不够高效。该缺陷的关键原因在于：PISA架构中的超长指令字计算引擎在处理大规模并行同构计算任务时效率不高。

针对上述问题，来自国防科技大学的 《CAInNet：面向AI加速的通算一体网内计算模型》 提出了一种面向AI加速的通算一体网内计算模型CAInNet。该模型在传统可编程数据平面的基础上，创新性地融合了单指令多数据流（SIMD）与多指令多数据流（MIMD）两种计算模式，使得网络设备不仅能够支持协议无关网络分组处理，还能在分组传输过程中对承载AI推理与训练的数据做网内计算。为了验证CAInNet在网内计算以及网络可编程方面的能力和效果，我们在该模型中使用带内网络遥测实现网络可视化，并部署多层感知机（MLP）模型实现基于AI的报文分类，替代传统的基于TCAM查表的路由方法。实验表明，采用机器学习推理的报文分类方法在包含5k路由表项的场景下，其准确度高达98.3%，同时节省了98.7%的存储空间，有效地解决了路由爆炸问题。与现有方法相比，将机器学习推理部署在CAInNet中不增加可编程数据平面的处理延迟，仅消耗适量计算资源。

AI算力瓶颈如何破？两篇论文揭秘“微架构优化×网内计算”加速范式|期刊论文速递

正文

请到「今天看啥」查看全文