人工智能(AI)边缘设备倾向于采用大容量非易失性内存计算(CIM),以实现高能效、快速唤醒响应和足够的精度。以前的大多数研究都基于基于晶闸管的CIM,但这种CIM存在精度损失,并且由于耐用性有限而不支持训练;或者基于数字静态随机存取存储器(SRAM)的CIM,但这种CIM存在大面积要求和易失性存储的问题。
鉴于此,
台积电制造处长张孟凡(同为台湾国立清华大学教授)
报告了
一种人工智能边缘处理器
,它采用忆阻器-SRAMCIM融合方案,同时利用数字SRAMCIM的高精度和电阻式随机存取存储器忆阻器CIM的高能效和存储密度。这还
实现了自适应局部训练,以适应个性化特征和用户环境
。融合处理器实现了
较高的CIM容量、较短的唤醒-响应延迟(392微秒)、较高的峰值能效(77.64太/秒/瓦)和稳定的精度(<0.5%的精度损失)
。这项工作表明,忆阻器技术已经超越了实验室开发阶段,现在已经具备了用于人工智能边缘处理器的可制造性。相关研究成果以题为“Fusion of memristor and digital compute-in-memory processing for energy-efficient edge computing”发表在最新一期《Science》上。
台积电为第一通讯单位。
【忆阻器-SRAMCIM-融合处理器概述】
本文提出了一种完全CMOS集成的忆阻器-SRAMCIM融合人工智能边缘处理器,它结合了数字SRAM-CIM的高精度和电阻式随机存取存储器(RRAM)忆阻器-CIM的高能效和高非挥发性存储密度。该处理器还结合了软硬件协同优化和片上ALT,从而克服了与功能、性能和可制造性相关的个别挑战。
所提出的处理器在各种神经网络模型和数据集上实现了推理精度和能效之间的各种权衡
。
拟议的忆阻器-RRAMCIM融合人工智能边缘处理器(图1A)包括一个CIM融合系统控制器(图1B)、四个CIM融合单元、ALT电路(图1C)以及用于推理和训练操作的其他功能模块(图1D)
。CIM融合处理器采用了代工厂提供的22纳米RRAM记忆晶粒和SRAM位单元,以提高可制造性,同时实现二进制到8位(8b)精度的整数点积运算。
图1.基于忆阻器-SRAMCIM融合结构的CMOS集成非易失性AI边缘处理器概述
【Fusion-CIM 模式控制器】
融合-CIM模式控制器具有三种工作模式--晶硅-CIM、混合器件CIM和SRAM-CIM--跨越不同的神经网络层
(图2A)。Memristor-CIM模式适用于对读出精度下降不太敏感但需要大量点乘运算的层,因此需要高能效和高计算吞吐量。如图2B所示,作者利用各种存储单元配置,将神经网络的8b权重存储在忆阻器-CIM模式(MM)、混合器件CIM模式(MDM)或SRAM-CIM模式(SM)中,力求
在读出精度、能效和存储密度之间取得适当的平衡
。忆阻器-CIM模式包括一种SLC模式(MM-S)、两种MLC-SLC混合模式(MM-1和MM-2)以及一种MLC模式(MM-M)。
图2.所提出的CIM融合模式控制器和ALT概述
【适应性本地培训】
作者
希望拥有能够定制神经网络的硬件,以适应不同用户环境的客户,并适应各个芯片的变化以提高推理准确性
。图3A展示了在四种忆阻器状态下测得的RRAM存储单元电导分布。需要注意的是,忆阻器-CIM产生的计算误差会在神经网络各层之间传递和放大,因此在深度神经网络中影响的严重程度会增强,如图3B所示。此外,忆阻器的耐用性有限,设置和复位延迟时间长,因此不适合用于片上训练操作,因为这涉及大量写操作。作者开发了
一种基于ALT策略的片上CIM融合来解决这些问题
。图3C显示,将ResNet-20应用于CIFAR-10和CIFAR-100数据集时,ALT将推理精度下降从53.7%降低到48.4%。
图 3. 所提出的融合 CIM 模式控制器和 ALT 概述
【CIM融合单元】
如图4A所示,
CIM-融合单元由三个主要单元组成
,包括忆阻器-CIM、融合桥和数字SRAM-CIM。融合桥包括一个融合感知激活(输入)分配器,用于CIM中使用的动态累积操作;一个权重分配器,用于将权重数据(W[7:0])分配到Memristor-CIM和SRAM-CIM中的适当物理存储器位置;以及一个全局点积积分器,用于合并Memristor-CIM和SRAM-CIM宏生成的大量部分点积结果。Memristor-CIM在电路层面的结构,包括一个存储单元阵列、BL稳压器、5位分辨率模数转换器和一个用于24位点乘结果的可配置加法器(图4B)。图4C所示,数字SRAM-CIM结构,包括64个子阵列、64个基于MUX的本地乘法计算单元和一个可配置加法器。
图4. CIM-Fusion单元概述,包括融合桥、数字SRAM-CIM和SLC-MLC混合忆阻器-CIM
【动态累加和提出的忆阻器CIM方案】
图5A说明了所提出的动态累积(DA)方案的操作流程,该方案利用软件-硬件协同优化来增加累积数量(NACCU),即在一个周期中打开的WL的数量。图5B示出了忆阻器阵列在四种量化模式下以存储器单元阵列电流量化进行操作。继而作者开发了图5C中的权重偏移补偿(WSwC)方案,目的是通过在点积计算期间增加忆阻器单元阵列中存储的HRS单元数量来抑制忆阻器CIM中消耗的存储器单元电流的总体幅度。
图5.动态累加和提出的忆阻器CIM方案
【AI边缘应用测量结果及演示】
通过在关键词定位、手势识别和图像分类(现代边缘设备最常应用的应用)中的实施,评估了
忆阻器-SRAMCIM融合人工智能边缘处理器的灵活性
。关键词定位和手势识别也是
适用于增强现实和虚拟现实的基本应用
。图6(A和B)分别显示了各种神经网络模型和数据集的推理精度下降情况和能效。图6C说明了所提出的AI边缘处理器在各种实验中使用的CIM融合模式操作的比率。在处理更简单的分类任务时,神经网络层可以使用更多的忆阻器-CIM模式(MM)来实现超高的能源效率,同时保持推理精度。图6D显示了使用针对CIFAR-100数据集训练的ResNet-20模型时,所建议的忆阻器SRAMCIM融合处理器的测量唤醒响应延迟。一次性推理的总体延迟为392.5μs。