文章链接:https://www.nature.com/articles/s41467-024-52982-3
亮点:
1.二维WSe2单元模拟视网膜与视觉皮层:通过分裂浮栅二维单元器件,首次在硬件层面实现对人类视觉通路的仿真。
2.多功能集成:硬件支持色盲处理、低功耗形状识别以及自驱动运动跟踪,显著扩展了机器视觉的应用范围。
3.连接学仿真:通过构建外围电路,复制视网膜与视觉皮层之间的复杂连接,提升系统的整体处理能力。
4.低能耗与高效性:硬件设计优化了能量效率,为低功耗的人工智能应用提供了解决方案。
摘要
由二维材料构建的人工视觉系统通过模拟人类视觉功能,已引领人工智能视觉技术的前沿。然而,目前模仿视网膜的硬件尚未完全仿真视觉通路的神经回路,限制了其在实现复杂和特定功能方面的潜力。在本研究中,我们提出了一种人类视觉通路复制硬件,包含以二维钨硒化物(WSe2)为基础的交叉阵列分裂浮栅单元器件,用于模拟视网膜和视觉皮层,同时配备相关的外围电路来复制视网膜与视觉皮层之间的连接。这一硬件在实验中展示了多种先进功能,包括红绿色盲处理、低功耗形状识别和自驱动运动跟踪,为机器视觉、无人驾驶技术、脑机接口和智能机器人领域的发展提供了有力支持。
研究背景和主要内容
由硬件赋能的人工视觉系统旨在复制人类视觉系统的功能;其在感知和处理外部视觉信息方面的先进性能是无人驾驶技术、脑机接口和智能机器人等各个领域的基石。为了实现强大的人类视觉能力,基于新型光电材料和非冯诺依曼架构的人工视觉硬件得到了快速发展。二维材料是制造人类视觉硬件的良好候选者,因为它们具有固有的无悬挂键表面、原子级清晰的界面、强的光与物质相互作用以及电可调的光响应。例如,通过引入非易失性存储器(如铁电体、浮栅、和材料缺陷),二维材料已被证明具有可重构的光学响应性,可将原位传感预处理、边缘计算和信号编码功能混合在一个器件中,该器件被设计为模拟视网膜的基石。这种模仿视网膜的设计实现了人类视觉适应、色彩感知、特征提取和运动感应的基本功能。然而,大多数形式的硬件在硬件设计中
都忽略了视觉通路的复制,因此将所有基本功能结合在一个硬件中以实现更复杂、更高效的功能是一项艰巨的任务。
人类的视觉系统由视觉通路主导,包括视网膜、视觉皮层以及二者之间的连接组(图 1a)。视网膜中感光细胞(视杆细胞和视锥细胞)、双极细胞和神经节细胞依次连接,水平细胞和无长突细胞作用于相邻的像素细胞,构成中心增强、周围减弱的中心-周围感受野(CSRF)。丘脑枕部的外侧膝状核(LGN)被视为视网膜与视觉皮层之间的连接器,从视网膜中的伞状神经节细胞和侏儒神经节细胞接收相同的 CSRF 信息,然后将其发送到视觉皮层进行分布式分层处理。视觉皮层由腹侧流中的初级视觉皮层 (V1)、次级视觉皮层 (V2)、V4 区和颞下皮层 (IT) 以及背侧流中的中颞皮层 (MT) 和顶叶皮层组成。遵循上述三个组织模块的解剖结构和连通性,P 和 M 通路分别被构建来处理静态 [颜色和形状 ] 和动态 [方向和运动] 信息,这些信息超出了视网膜的能力。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/Via9YIUNDmOgTSzxcu1Iv2RZxICVs5DeIyN6ssAiaG6nNmE1ep3WiaBmO8V1Flg7JQgJhR0Nd0Y9Fzq8NPazmFtIg/640?wx_fmt=png)
图1:人类视觉通路及人类视觉通路复制硬件的工作机制。a人类视觉通路、中心-周围感受野 (CSRF) 的特征以及人类视觉系统的功能。SC上丘、LGN 外膝状体、V1 初级视觉皮层、V2 次级视觉皮层、V4 纹外皮层、MT 中颞皮层、IT 下颞皮层。b 模拟视网膜和视觉皮层的10 × 10 钨硒 (WSe2 ) 分裂浮栅 (SFG) 二极管/晶体管阵列的显微镜图像。插图:单元器件示意图,在光伏二极管和双极晶体管模式下表现出可重构的响应度和电导率。光伏二极管和双极晶体管模式下的阵列分别执行光响应卷积和矩阵乘法以模拟视网膜和视觉皮层。c由 SFG 阵列和连接外围电路组成的人类视觉通路复制硬件流程图,用于颜色处理、形状识别和运动跟踪。背景中的阴影表示外围电路的各部分。SO 单色机会感受野,DO 双色机会感受野。d 5 ×5 设备阵列的光响应度分布。e在 455 nm 和 10 mW/cm 2的照明下I SC − V G1和V G2的映射,显示可重构的光响应。f ,不同 VG1 ( −VG2 ) 下的 ISC − P 曲线。g 电压脉冲数调制的ID,展示突触样增强和抑制行为。脉冲为 ±1 V/10 ms(V D-read = 0.1 V)。
为了开发一种支持多种复杂功能且功耗较低的人工视觉系统,模拟人类视觉系统视觉通路的硬件正在被讨论。在本文中,我们设计了一种通用硬件架构,该架构包含交叉阵列和相关的连接外围电路来复制视觉通路的神经回路。交叉阵列中的基本器件是具有可重构正/负光响应度和电导率的二硒化钨(WSe2)分裂浮栅(SFG)器件,使得交叉阵列能够模拟人类视觉系统中视网膜的CSRF和视觉皮层的神经网络。视网膜和皮层之间的连接基于相关的外围电路。SFG阵列用于与特定的外围电路构建相关的视觉通路复制硬件,实现彩色视觉、形状视觉和动态视觉。阵列在光伏二极管模式下的类视网膜操作是自供电的,待机功耗几乎为零,在双极晶体管模式下的类皮层操作表现出低于 1 pJ/spike 的浮栅编程能量,有望实现超低功耗。在视觉通路复制设计的基础上,该硬件实验性地按照人类视觉系统进行颜色处理,使其能够用硬件解释红绿色盲(道尔顿症)的原因。形状视觉硬件还通过双层稀疏神经网络中的有效形状分类进行了演示,在实验中展示了神经电路兼容的稀疏性和 >95% 的识别率。器件使用率降低 61.1%,每次操作仅需 0.9 nJ 的编程能量,证实了低功耗应用的前景。该硬件通过处理视觉通路内突触的传输时间差,实现了人类动态视觉功能,实时跟踪运动信息。值得注意的是,复制人类视觉通路的硬件所呈现的多样化功能证明它是人工智能视觉任务的强大平台。
硬件工作机制
作为核心构建模块,10×10 交叉阵列采用 Al2O3/Pt/ Al2O
3/WSe2单元SFG 器件制作,可充当光伏二极管或双极晶体管(图 1b )。两种工作模式都是在一个硬件中构建视觉通路所必需的。对于在两个调制的相反 SFG 下的光伏二极管模式,非易失性可重构n -p 结可产生基于光伏效应的具有可调光响应度的正负光电流,通过将输入光与响应度核进行卷积来构建 CSRF。对于在具有固定 VG 的一个栅极下的双极晶体管模式,可重构电导率作为神经网络的单位权重,实现可根据基尔霍夫定律计算矩阵乘法的视觉皮层。为了在硬件上复制人类视觉系统的视觉通路,通过构建相关外围电路进行电流-电压转换和栅极电压编程与控制,依次集成WSe2 SFG阵列以模拟视网膜或视觉皮层(图1c),进而实现颜色处理、形状识别和运动跟踪等多功能。具体来说,硬件中与视网膜相关的部分,包括颜色感应、方向选择和运动跟踪,都是用工作在光伏二极管模式下的阵列构建的。同时,与视觉皮层相关的部分,包括单色对手(SO)和双色对手(DO)的CSRF、颜色处理的神经网络和双层稀疏神经网络,都是用工作在双极晶体管模式下的阵列构建的。这些功能需要对视觉通路进行精妙的拟合,而这些拟合由设计的硬件支持,如以下章节所述。
在光伏二极管模式下,通过栅极V G1和V G2调制的可重构光学响应度是实现 CSRF 的基础。当V G1和V G2具有相同的值和相反的符号时,红-绿-蓝光(637 nm/520 nm/455 nm, P in = 10 mW/cm2 )照射下的I D - V D曲线(图 S4b)呈现典型的 p-n 结光伏效应。通过栅极电压可实现正/负光学响应度的准线性调节(图 S4c),使重建 CSRF 变得轻而易举。在这里,通过将权重固定在几个离散值内,可以抑制非线性依赖性对后续成像处理的影响,这也在最近的研究中得到证明。在 455 nm 和 10 mW/cm2照明下构建了 5 × 5 阵列的近高斯分布光学响应度矩阵,其中每个像素由门独立调制(图 1d)。SFG 电压显著地共同调制单元器件(图 1e、S5c、S5d)以构建不同的结态(图 S3b -S3d )。SFG器件的短路电流(ISC )与光强度( Pin )呈线性相关(图 1f、S5a、S5b
),有助于入射光信息的稳定编码。此外,我们测试了 10 × 10 阵列中每个单元的电子和光电性能,并提取了性能特征(补充说明 1、图 S 6 – S 11),表现出相当高的一致性、显著的存储容量和整个单元出色的栅极控制。在双极晶体管模式下,栅极脉冲调制输出更新(图 1g和 S8)通过在一个浮栅上施加 ±1 V/10 ms 电压脉冲来测量,从而实现非易失性调制,编程能量低于 1 pJ/spike(补充说明 1)。可调电导充当单位权重,以模拟交叉阵列中的视觉皮层计算。因此,硬件的每个单元都能正常工作,以满足当前应用的功能要求。
颜色处理
P 通路中颜色处理的生物机制如图 2a所示。三种视锥细胞分别对红、绿、蓝光敏感,依次连接到 ON/OFF 双极细胞和 ON/OFF 神经节细胞。通过接受一种色锥细胞的中心增强信息和另一种色锥细胞的周围抑制信息,在 LGN 中构建了红绿(R-G/G-R)、黄蓝[(G + R)-B/B-(G + R)]和黑白[(B + G + R)/-(B + G + R)] SO CSRF。在 V1 中,通过整合来自 LGN 的小和大 SO CSRF 信息,形成红绿(R&G)、蓝黄(B&Y)和黑白(灰色)DO CSRF。最后,通过对 DO CSRF 数据的神经连接分析,在 V4/IT 中获得颜色信息(详见补充说明 2)。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/Via9YIUNDmOgTSzxcu1Iv2RZxICVs5DeIdB8WpVyj86Yuic5VszF6jUmj0YT5pBlwqQ5yFy6HNmb4hiaWeyoEP0HQ/640?wx_fmt=png)
图 2:道尔顿主义的色彩处理。a 将具有 RGB 分量的 34 × 31 像素三色圆形图像的光输入到二硒化钨 (WSe2 ) 分裂浮栅 (SFG) 阵列上。人类视觉系统中的彩色视觉。外侧膝状体 (LGN) 中的单色机会 (SO) 感受野从视网膜中的视网膜神经节细胞 (RGC) 接收不同颜色的中心增强和周围抑制信号。初级视觉皮层 (V1) 中的双色机会 (DO) 感受野整合了相同颜色类型的大 SO 信号和小 SO 信号。它们都是中心-周围感受野 (CSRF)。在区域 V4 和颞下 (IT) 皮层中,神经网络分析颜色信息。b对应于红绿 SO CSRF(小 CSRF 和大 CSRF)的硬件光响应度分布。 SO CSRF ( c )、DO CSRF ( d )、处理后的颜色信息 ( e )的模拟 (2D 灰度图像) 和实验 (3D 电压映射) 结果。颜色条:像素强度由模拟得出,电压幅度由实验测试得出,每个结果都有不同的单独颜色条。灰色阴影标记模拟中的结果和颜色条。f红绿色盲 (道尔顿症) 的测试结果,R&G 通路贡献率为 10%(c - d中 R&G 整合的权重系数为 0.1)。
为了演示硬件的工作过程,使用 34×31 像素的三色圆形图像作为光输入,按 RGB 分量分解,并映射到波长为 637/520/455 nm 的 光强度( P in )(图2a)。光输入逐像素照射 SFG 阵列(图 S1 )以与颜色相关核进行卷积。SO CSRF 的颜色相关核的光响应度分布严格按照高斯函数设置,类似于视网膜-LGN 的生物机制。高斯标准差σ决定了图像处理中的模糊程度,σ 越大越模糊,难以提取全局信息,σ 越小越集中,难以获得局部信息。 σ =0.08和σ =0.12分别设定小(3×3)和大(5×5)CSRF的响应度分布为两个值(0.04和-0.008 A/W)和三个值(0.007、0.003和-0.0001 A/W)(图 2b及图S13中的其他情况)。利用外围电路中的跨阻放大器(TIA)将SFG阵列的光电流相加并转换成光电压。大、小CSRF的光电压信号输入到另一个SFG阵列,经过矩阵乘法得到R+G-/亮/Y+B-和G+R-/暗/B+Y-SOCSRF信号(图 2c)。其中,“R/G/B/Y”为红、绿、蓝、黄五种色彩信息。前、后、“+”、“-”、“亮”和“暗”分别代表中心、周围、增强、抑制、“(B + G + R)”和“-(B + G + R)”。随后通过同样的矩阵乘法过程得到R&G/灰度/B&Y DO CSRF信号和处理后的RGB分量。图 2d
、e分别给出了DO CSRF和处理后的RGB分量的仿真和实验结果。处理后的RGB分量具有与人类视觉系统颜色信息处理通路相同的特性,而这在仅过滤RGB分量的传统彩色相机中是难以实现的。此外,该硬件还可以展示红绿色盲的不明原因的现象。道尔顿现象源于 R–G SO–DO 途径39 , 40的失效,因此,在实验设置中,只对该途径应用了 10% 的权重比(×0.1,在图 2 c、d的上平面中)。具体而言,WSe 2连接R-G SO和DO的晶体管设置为100 nS,而其他通道设置为1 μS。经过上述感知和后处理过程后,输出的颜色信息模仿了道尔顿病患者对彩色图像的感知(图 2f),这只有通过考虑视觉通路才能阐明。
形状识别
形状识别功能也在P通路中执行(图 3a ),视网膜-LGN中的CSRF按照不同的空间分布整合到V1中方向选择性的CSRF中,通过稀疏连接的V2 /V4汇总各点的轮廓信息,实现IT中的形状分类。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/Via9YIUNDmOgTSzxcu1Iv2RZxICVs5DeIfbKPUTNyScx14JXJ913LsZqBnRKAfuYAQDtkicqM3Jia7zialGJUq8PMA/640?wx_fmt=png)
图 3:形状识别。a人类视觉系统中形状识别的工作流程。该示意图经参考文献47、48许可改编。LGN 外侧膝状体核、V1 初级视觉皮层、 V2次级视觉皮层、V4 纹状体外皮层、IT 颞下皮层、 NN神经网络。带方向选择器的稀疏神经网络硬件结构。b对 50×50 像素正十六边形光输入与八个 5×5 方向卷积核 (OCK) 进行卷积的测试光电流结果(背景中用灰色阴影标记)。c形状识别硬件原理示意图。光罩输入是通过照射由直角三角形和毛玻璃组成的光罩产生的。直角三角形输入被分成五个区域进行 OCK 卷积,通过 5×8×4 稀疏神经网络进行处理。双层稀疏神经网络的 30 个 epoch 的仿真(d)和实验(e )权重。f 30 个 epoch 的识别率仿真(红色)和实验(蓝色)结果。g该稀疏神经网络与全连接神经网络在识别率、损失、设备使用率和一次操作的编程能量方面的比较。误差线表示标准偏差。
通过复制上述神经回路,形状识别硬件(图 S14)也由 SFG 阵列构成。一个工作在光伏二极管模式下的阵列采用方向卷积核 (OCK) 的光响应配置,并重复用于收集五个点的光电压,模仿视网膜-LGN。与视觉皮层 V1-V2-V4-IT 类似,另外三个工作在双极晶体管模式下的阵列构建了一个双层稀疏神经网络,用于形状识别。该神经网络依次执行第 1 层、激活层和第 2 层的矩阵乘法(补充说明 3)。
方向选择器的CSRF OCK 由SFG阵列的光响应度分布配置,沿选择方向呈现正光响应度,在其他点呈现负光响应度(图 3b)。为测试OCK 的方向选择效果,以50×50像素的正十六边形作为入射光图案,逐像素与不同的OCK 进行卷积,获得短路光电流分布,产生OCK 编码的相应方向的峰值作为验证。按照视觉通路的抽象处理流程,在仿真与实验中验证了形状识别(图 3c)。光照射直角三角形的光罩(图S1 ),透射光图案被量化为15×15像素大小作为光罩输入。使用添加高斯噪声(标准差为 0.8)的 1,600 个样本作为数据库(图 S 15a),将每个样本划分为 5 个区域(每个区域 5×5 像素大小),与 OCK 进行卷积。实验中通过移动 mask 的位置来调整这五个区域的光输入状态(图 S 1),结果通过 5×8×4 双层稀疏神经网络 经过前馈计算、激活(图 S 15f )和反向传播更新权重。记录 30 个 epoch 的模拟(图3d)和实验(图 3e)权重。硬件电导权重精度量化为 64 级(图 S 15b)。训练后模拟和实验得到的三角形识别率均高于 95%(图 3f)。虽然受神经连接稀疏性启发的稀疏神经网络与全连接网络相比,识别准确率略有下降,但它大大降低了设备使用量和编程能耗,降低了约 61.1%,从每次操作约 2.3 nJ 降至 0.9 nJ(图 3g,补充说明 1)。
运动追踪
人类视觉系统M通路基于Barlow–Levick模型实现运动追踪,如图 4a所示。光依次刺激不同部位的光感受器,按照轴突长度相关的信号传输延迟,在不同的时间尺度上将信号传递到轴突的后端。视网膜和视觉皮层中基于CSRF的方向选择器只对与给定运动方向平行的运动刺激产生信号叠加和激活。更高级的视觉皮层接收前级信息,控制眼球运动追踪运动物体。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/Via9YIUNDmOgTSzxcu1Iv2RZxICVs5DeIym6M9h1fHFIlBUFrbdh6kcxeIl9tqQdqdkmEmVx84OhekyVQTCibCtw/640?wx_fmt=png)
图 4:运动追踪。a人类视觉系统中的方向选择器和运动跟踪原理图:基于中心-环绕感受野 (CSRF) 的方向选择器,具有不同长度的轴突连接,并通过处理先前视觉信息的皮层控制眼球运动。Δt :轴突的传输延迟;BC 双极细胞、RGC 视网膜神经节细胞、S/C 环绕/中心、DS 方向选择器。左侧灰色阴影演示了基于延迟机制的中心-环绕(用棕色阴影标记)方向选择器的原理。右侧灰色阴影突出显示视网膜、丘脑和皮层中的 DS。b方向选择器工作流程图:前端设备阵列的光伏电压 Vph