通讯作者:Ning Ge, Miao Hu, Qiangfei Xia, J. Joshua Yang通讯单位:美国泰特拉迈股份有限公司(TetraMem Inc.),美国马萨诸塞大学阿默斯特分校,美国南加利福尼亚大学DOI:10.1126/science.adi9405
Science编辑Phil Szuromi评语:
内存计算可以在一个计算周期内执行大型向量矩阵乘法(VMM),但这些模拟方法的精度相对较低,因此无法用于传统计算。Song 等人的研究表明,对于单晶闸管-单晶体管阵列,大部分 VMM 可以在输出数字结果之前以任意高的精度执行。在阵列完成一个计算步骤后,子阵列会动态补偿先前编程阵列的残余误差。这种方法在实验中被用于求解偏微分方程,精度非常高(误差小于 10-15),而且能效比数值计算的方式更高。
内存计算是对复杂物理系统建模的一种有效方法,对于传统计算架构而言,这种建模通常具有挑战性,但由于读取噪声和写入变化等问题,高性能计算的可扩展性、准确性和精确度受到了限制。本研究提出并演示了一种电路架构和编程协议,它能在最后一步将模拟计算结果转换为数字,并使低精度模拟设备能够执行高精度计算。本研究使用多个设备的加权和来表示一个数字,其中后续编程设备用于补偿之前的编程错误。通过忆阻器片上系统,本研究在实验中展示了多种科学计算任务的高精度解决方案,同时与传统数字方法相比保持了巨大的能效优势。1.图 1 显示了采用位切片方法的传统交叉条架构和我们提出的真正模拟架构及其编程算法的简化示意图,通过克服器件写入精度和可变性问题,该架构可实现任意高精度。为简单起见,示意图中省略了外设输入输出寄存器和数模转换器。2.在实际中,由于良率问题和器件之间的差异,或为了保持编程迭代和时间合理,一些器件的编程精度比其他器件低,可能不符合传统比特切片方法的预定标准,从而导致量化误差。在本研究的模拟方法中,使用多个器件的加权和来表示一个数字,但使用随后编程的器件来补偿之前编程器件的电导误差。这种补偿是通过拟议算法中残值(误差)和器件电导之间的动态映射来实现的(图 1D)。如图 1B 所示,多级补偿使用了多个横杆子阵列。子阵列可以水平、垂直或三维(3D)堆叠放置,而不会对算法造成实质性的改变。3.图 1C 是将一个数字 a = 1 写入三个组合设备的简单示例。在此示例中,第一个设备最终出现了10%的编程错误,无论是通过一次编程还是通过几个编程周期的读取验证反馈编程方法,因为它被编程为 0.9 而不是 1。例如,第二个设备可能也有 10% 的编程误差,被编程为0.9。第二个设备的权重小于 1(例如 0.1),以确保误差缩小,第二个设备的权重为 0.9 × 0.1 = 0.09。因此,这两个设备的组合值为 0.9 + 0.1 × 0.9 = 0.99,仅通过两次连续的编程操作,就成功地将总误差降至 1%。同样,增加第三个设备后,总误差进一步减小到 0.1%。1.本研究使用提出的架构和算法求解 PDE 作为实验验证。实验在两个忆阻器平台上进行,一个是非完全集成系统,采用实验室制造的忆阻器,器件差异相对较大;另一个是完全集成的 SoC 芯片,采用晶圆厂制造的忆阻器,同质性有所提高。前者包括一个 128 × 64 的一晶体管一电阻(1T1R)忆阻器交叉棒阵列和印刷电路板(PCB)驱动电路。后者是新开发的模拟内存计算加速器系统芯片,带有 10 个神经处理单元(NPU)。每个 NPU 都有一个 256 × 256 的忆阻器阵列,该阵列由一家商业代工厂制造,良率和均匀性都比实验室的忆阻器好得多。 2.本研究在这两个平台上进行的实验验证了所提出的方法在器件差异较大或较小的情况下都能很好地发挥作用,SoC 芯片的性能尤其令人鼓舞。图 2A 显示了未封装 SoC 的照片。通过控制 1T1R 单元中晶体管的栅极电压,可以在 30 μS 至 700 μS 的范围内以模拟方式对每个忆阻器单元进行编程。在 30 个编程周期内,以写入并验证的方式将 64 × 64 区域编程为多级模式(图 2B)。由于器件与器件之间的差异和有限的编程周期,有几个明显的器件没有写入目标(图 2C)。这些器件如果稍后不进行补偿,将极大地影响矢量矩阵乘法的精度,并让PDE 求解器无法收敛。图3| 使用任意精度编程的泊松求解器与三个阵列的实验结果。1.本研究在预处理过程中通过将泊松方程降采样为 jx=jy= 6 网格来求解具有 nx=ny=128网格的泊松方程。在此硬件预处理步骤中,输入矩阵被展平为 1 × 36 向量,以便与展平后的 2D 物理预处理器矩阵相乘。因此,每个子阵列所需的预处理矩阵大小为 36 × 36。用于泊松问题的传统对角线预处理如图 3A 所示。泊松方程的格林函数是通过显式计算得到的,并为硬件 VMM 重塑为 2D(图 3B)。2.在 PCG 算法中,根据硬件 VMM 的目标格林函数预处理矩阵,最多对三个子阵列进行了实验编程,因此使用的物理设备总数为 108 × 36。如图 3 所示,SoC 平台产生的结果要好得多。编程子阵列 A1 至 A3 如图 3D 至 F 所示,有效矩阵(图 3C)是 A1 至 A3 的总和。与传统的单一矩阵方法(图 3D)相比,图 3C 更接近图 3B 中的目标。 3.本研究在 VMM 运算中启用了不同数量的子阵列,求解了相同的一源两汇初始条件,以观察求解结果的差异。如果只使用实验室制造的第一个忆阻器子阵列(非完全集成平台),则无法在硬件中有效地重建预调器。因此,解并没有正确收敛,这揭示了在不使用本研究提出的方法的情况下,普通忆阻器横列在科学计算中的性能并不理想。当使用两个或更多子阵列时,得到的解收敛到了正确的值(图 3G)。图4| 采用任意精度编程的硬件递归最小二乘法滤波器1.RLS 滤波器可用于估计信道系数 wn 并恢复接收信号的无噪声版本 y(n)(图 4A)。在每个时间步中,它使用上一步的估计值来更新下一步。横杆阵列作为协方差矩阵,对更新卡尔曼增益和估计系数至关重要。在本研究的案例中,假设噪声窗口为 t = 10,因此需要估计 10 个系数,协方差矩阵为 10 × 10。实验使用了一个子阵列、两个子阵列和三个子阵列。图 4B 中显示了相应的估计系数,以及软件估计值和设置问题时随机生成的地面实况。一个子阵列不足以准确估算信道系数,但两个或三个子阵列则大大改善了与软件估算重叠的结果。2.图 4C 显示了系数的更新历史,图 4D 至 F 显示了三个典型时间步的协方差矩阵。据观察,它从最初的对角矩阵变为中间的棋盘状,最后在估计趋于稳定时变为带状矩阵。这验证了本研究的编程方案对于计算过程中发生变化的动态矩阵的能力和稳定性。1.图 5A 列出了在 512 × 512 问题上获得 10-10 和 10-14 精度所需的迭代次数。本研究还将其能效表现与采用特定应用集成电路(ASIC)的高度优化数字系统进行了比较,后者的能效为 7.02 太/秒/瓦,延迟时间为 10.4 毫微秒,几乎与本研究的系统速度相同。与数字系统相比,本研究获得了近两个数量级的能源优势(图 5B)。 本研究展示了一种创新的电路架构和编程协议,可以在数字外围电路的限制范围内,以任意高的精度对不精确的模拟设备进行高效编程。这种方法使我们能够执行高精度、高能效和高吞吐量的 PDE 求解器。除了内存计算架构,它还为以前被认为新兴模拟存储器不可行的计算应用打开了大门,例如科学计算、神经网络训练和复杂物理系统建模。模拟计算的精度不仅受限于写入精度,还受限于读取精度。虽然本研究提出的编程方法克服了写入精度受器件写入脉冲响应变化和少量卡住或条件不良器件的限制,但硬件计算精度仍受器件读取变化和 ADC 精度等外围电路元件的制约。随着忆阻器编程技术的不断进步,读取变化可以大大降低,从而使所提出的求解器更加有效。这种代码设计方法使低精度模拟器件能够用于高精度计算,大大拓宽了模拟计算的应用范围。在完全集成于标准代工厂的大规模忆阻器 SoC 中实现的软件等效精度和更高效率的实验演示,进一步证明了该方法在现实世界中的适用性和商业化的就绪程度。https://www.science.org/doi/10.1126/science.adi9405
业务介绍
研理云,研之成理旗下专门针对科学计算领域的高性能计算解决方案提供者。我们提供服务器硬件销售与集群系统搭建与维护服务。 ● 配置多样(单台塔式、两台塔式、多台机架式),按需定制,质量可靠,性价比高。
● 目前已经为全国 100 多个课题组提供过服务器软硬件服务(可提供相同高校或临近高校往期案例咨询)。 ● 公司服务器应用工程师具有量子化学、第一性原理、分子动力学等相关学科研究背景。 ● 公司与多位化学、材料领域理论计算方向专家长期合作,一起探索最优服务器软硬件配置和部署。
● 定制化硬件配置:提供售前实例测试,为您提供最合适的硬件配置方案。 ● 一体化软件服务:根据需求,发货前,完成系统、环境、队列、计算软件等所有内容的安装与配置,让您实现开机即用。 ● 完善的售后服务:为每位客户建立专属服务群,遇到问题及时解决。大大降低使用学生使用门槛和缓解老师压力。三年硬件质保 + 三年免费软件技术支持。 ● 已购买客户咨询:我们已有超过100位已购买客户,可以给您提供相同城市或者临近城市已购买客户的联系方式,以提供真实案例咨询。 ● 赠送课程学习机会:可选课程包括量子化学(Gaussian),第一性原理,(Vasp),分子动力学模拟(Lammps、Grommacs),钙钛矿计算模拟(Vasp)等。具体赠送方案以沟通结果为准。
扫码添加客服微信
更多科研作图、软件使用、表征分析、SCI 写作、名师介绍等干货知识请进入后台自主查询。