专栏名称: 二维材料君
二维材料领域的知识推送
目录
相关文章推荐
看金坛  ·  看电影什么位置最好?(不是正中间) ·  昨天  
西安晚报  ·  2月4日0时,突破1.68亿! ·  2 天前  
乌鸦电影  ·  火了10年!春节档,你永远可以相信它… ·  2 天前  
南京日报  ·  看电影什么位置最好?(不是正中间) ·  2 天前  
南京日报  ·  看电影什么位置最好?(不是正中间) ·  2 天前  
51好读  ›  专栏  ›  二维材料君

2024, Nature Nanotechnology——未来视觉传感革命:多维度信息处理的新纪元

二维材料君  · 公众号  ·  · 2024-07-28 21:09

正文

文章链接:https://www.nature.com/articles/s41565-024-01665-7

         

 

近日,香港理工大学柴扬课题组在Nature Nanotechnology上发表了一篇“用于信息处理的多维视觉传感器”的综述。多年来,柴扬课题组一直致力于研究传感器内计算。视觉作为数据量最大的一种信息来源,是感算融合计算最主要的一个分支。谈及这些年开展多维视觉传感器研究的主要原因,柴扬表示:“现有的图像传感器通常只能获得二维的强度信息,不能获取多维度信息。并且,还会产生大量的冗余数据,进而导致较高的传输能耗和延时。此外,随着新型器件的创新和集成技术的发展,现有的硬件基础也已经可以支持多维视觉传感器的开发。” 基于此,从图像传感器发展到多维视觉传感器,背后的核心逻辑是赋予传感器更强的视觉信息感知、提取和处理能力,以更好地模拟生物视觉系统的功能。柴扬表示:“总的来说,从目前的技术水平来看,处理空间维度信息的难度相对较低,处理相位维度信息的难度相对较高,处理时间、偏振和光谱等维度的信息的难易程度则介于前两者之间。”

         

 

摘要

物理世界中的视觉场景整合了多维度信息(空间、时间、偏振、光谱等),通常表现为非结构化特征。传统的图像传感器无法处理这种多维度的视觉数据,因此迫切需要能够高效提取大量多维度视觉数据特征的视觉传感器。视觉传感器能够在不依赖复杂算法和硬件的情况下,将非结构化的视觉场景转换为特征化的信息。传感器的响应特性可以抽象为具有特定功能的操作符,从而高效处理感知信息。在本综述中,我们深入探讨了多维度视觉传感器的硬件实现,探索其工作机制和设计原则。我们以新兴器件和基于硅系统集成构建的多维度视觉传感器为例,进一步提供了多维度视觉传感器的基准测试指标,最后提出了器件-系统共设计和共优化的原则。    

         

 

研究背景和主要研究内容

目前,硅基图像传感器的像素尺寸已缩小到接近入射光波长的尺寸,而采用堆叠异质集成技术,图像传感器和逻辑芯片之间的混合键合铜(Cu)-Cu连接数量可达数百万。随着图像分辨率和视频帧率的提高,图像处理已成为典型的数据密集型应用,需要消耗大量的计算资源。是一种电磁波,包含多维信息,包括强度的空间分布(二维(2D)空间和三维(3D)深度)、时间演变(四维(4D)时空信息)、波长、偏振和相位(五维),如图1a所示。物理世界中的视觉场景是多维信息的混合,通常表现出非结构化特征(图1b 。传统图像传感器可以忠实地捕捉二维空间图像,但会丢失其他维度的信息。此外,图像传感器、计算单元和存储器之间大量的数据传输和转换导致了较高的功耗和时间延迟。

         

 

图 1:从图像传感器到视觉传感器的演变。    

a、视觉处理涉及多维信息,包括三维空间信息、四维时空信息以及光谱、偏振和相位等高维信息。传统的互补金属氧化物半导体 (CMOS) 图像传感器不经过任何计算就输出像素数据。数据被转换成数字形式并传输到数字处理器。视觉传感器压缩了冗余视觉数据量,展示了多维视觉信息的计算功能。视觉传感器可以处理非结构化视觉数据并将其转换为结构化特征。c 通过光与物质的相互作用,视觉传感器可以基于不同的响应特性处理多维视觉信息,这在数学上可以描述为两个矩阵(视觉场景中的信息和视觉传感器中的算子)的 Hadamard 运算。视觉信息矩阵中的元素表示二维空间维度上的光强度,其中I为光强度,( m,n ) 为像素的位置坐标。视觉传感器矩阵中的元素f  ( I ) 表示视觉信息的算子。输出产品以特定尺寸的视觉信息为特色。    

         

 

生物视觉系统提供了多种解决方案,这些解决方案在感知多维视觉信息方面高度专业化和高效。视网膜可以捕捉视觉信息并进行特定的计算(物体识别、运动感知、光适应、颜色提取等)。视网膜将部分计算任务从计算单元(中枢神经系统)转移到更靠近视觉数据源的感觉设备,从而以更分散的方式分配计算并大幅压缩空间和时间流信息。此外,视网膜可以对多维视觉信息作出反应,有效适应不同光强度波长变化环境,并高效感知动态运动。这些特点启发研究人员开发传统图像传感器功能更多效率更高的多维视觉传感器

视觉场景和视觉传感器之间的交互使得从非结构化数据中提取特征成为可能(图1b)。视觉信息可以表示为多阶张量,其中元素是不同维度的标量或矢量。在空间维度上,像素元素是用于二维映射或三维深度的光强度分布。在时间维度上,像素元素是用于光强度时间演变的一维矢量。四维时空信息可以用张量表示,其中前三个张量等级对应空间信息,第四阶张量表示时间维度。在更高维度上,光谱、偏振和相位上的光强度分布分别构成这些维度上的矢量。视觉传感器可以描述为由不同运算符组成的矩阵,用于处理多维信息。视觉传感器与视觉场景之间的相互作用在数学上可以表示为两个矩阵之间的 Hadamard 积(框1),其中单个像素处的逐元素积运算可以将非结构化数据转换为特征信息(图1c)。

在本篇评论中,我们讨论了遵循 Hadamard 运算的多维视觉传感器的硬件实现。我们介绍了用于视觉传感器的新兴器件,包括光学元件、光电器件和具有计算功能的电子电路,这些器件利用器件物理进行信息处理。我们研究了集成技术的最新发展,特别是与成熟的 Si 基技术的多维视觉传感器系统集成。我们还提供了一些用于对人工视觉系统进行基准测试的关键指标,以及视觉传感器的设备系统协同设计和技术系统协同优化策略。    

Hadamard 积

Hadamard 积是一种运算,它取两个相同维度的矩阵并生成一个矩阵,其中每个元素都是输入矩阵中相应元素的乘积。这是一种逐元素乘积运算。

采用新兴器件的多维视觉传感器

多维视觉传感器的硬件实现依赖于新兴光学元件、光电器件和电子电路的设计。光学元件对光进行调制,光电器件将光转换为电子信号,电子电路执行各种计算功能以提取不同维度的特征。通过设计光与物质的相互作用,视觉传感器的响应特性可用于处理多维视觉信息,构成视觉传感器矩阵的算子。对于不同维度的视觉信息,算子具有不同的功能,需要独特的设计原理和硬件实现。

光强的空间分布代表了典型的二维视觉信息,具有线性或非线性响应特性的视觉传感器可以高效地提取物体边缘等特征(图2a)。线性响应特性可以忠实地再现输入光强的空间分布,避免重要信息的丢失(图2b)。此外,线性响应特性对于执行人工神经网络(ANN)中的乘法和累加运算至关重要。输入强度与输出幅度之间的线性关系可以实现乘法,多个器件的串行互连可以实现累加。对于光学元件,具有两个凸透镜的光学4F系统可以实现线性算子(图2c ,其输出与输入光强成线性比例。F表示傅里叶光学的焦距。该光学系统可以放置在光电转换之前,对信息进行预处理,从而减少后续计算单元的数据量光电器件的光响应性可以实现光强与输出光电流之间的线性关系。具有内置电场的 p-n 结具有超快光响应 (图2d )。通过静电掺杂,可以调制半导体的能带以创建 p-n 结。光学元件的响应特性通常在制造过程之后就固定下来了,无法通过外力进行编程。光电器件的光响应性可以通过电场进行编程,电场可以充当 ANN 训练中的突触权重。在静电掺杂的 p-n 结中(图 2d),外部电压幅度和极性可以移动能带并调节光响应性。可重构光响应性的替代机制包括离子迁移和光电控效应离子迁移记忆会导致离子分布不平衡,从而导致电势和内部电场不平衡。外部电压可以调节离子分布和光响应度。在光电晶体管中,栅极端的电场(使用栅极电压或浮栅或界面处的电荷捕获中心可以极大地影响光响应。    

         

 

图 2:采用新兴器件技术的多维视觉传感器。

a、视觉传感器可以处理空间强度信息并提取特征,例如物体边缘。视觉传感器矩阵的算子可以是线性的(灰色)或非线性的(蓝色)。b 输入矩阵由不同空间位置的光强度组成。空间输入和算子之间的 Hadamard 积产生特征。c 光学 4 f系统示意图。I是光强度,k是缩放因子。d 可重构光响应的 p-n 结示意图。V偏置电压,build-in是内置电场。e 光电 RRAM 的工作机制。f 视觉传感器可以处理时间信息。输出图像显示物体运动的轨迹。g 时间输入和算子之间的Hadamard 积。h 带陷阱的光电 RRAM 示意图。i 具有界面陷阱的光电晶体管示意图。j、视觉传感器可以处理光谱、偏振和相位信息,提取不同维度的特征。k 光谱输入和算子之间的 Hadamard 积。l 超透镜示意图。m 具有窄带响应的光电器件示意图。CB 是导带,VB 是价带。    

         

 

对于非线性响应特性,可以利用超线性关系来降低噪声,增强特性。超线性响应特性对低强度信号的响应度较低,从而抑制了低强度噪声信号(图2b)。在光电阻随机存储器(RRAM)中,光辅助电化学反应(图2e)会引起价态或晶格结构的变化对低强度光的电导变化幅度较小,保持时间较短。因此,对于低强度光输入,光电导衰减非常快,实现对低强度信号的抑制。通过连接具有阈值开关特性的器件,可以进一步增强这种超线性关系。低于阈值的信号可以被抑制到接近于零。

光强度随时间的变化代表了4D视觉信息,其中包含了运动等动态特征(图2f )。在运动识别的基础上,可以实现更复杂的时间处理功能(速度提取、运动预测和运动外推)。对于视觉输入矩阵,其元素是不同时间点的强度(图2g 。传统图像传感器输出实时的光强度信息。动态视觉信息的处理需要大量的存储单元来存储之前的视觉信息。具有记忆效应的新兴光电器件可以有效地处理动态视觉信息并减少硬件资源。它们的动态构成了视觉传感器矩阵的算,体现为器件电导的时间演变。器件电导由当前视觉输入和先前视觉输入的影响决定。这个过程可以表示为时间维度上的视觉信息与不同时间点的器件电导演变之间的Hadamard积(图2g)。在光电 RRAM (图2h)和光电晶体管(图2i)中,光生载流子与电荷陷阱中心相互作用,减缓了光电流的变化。这种短期记忆可用于时间信息处理。值得注意的是,具有衰减光电流的光电 RRAM 可用于处理空间和时间信息,这取决于输入信息的表示(空间位置的强度分布和时间点的强度演变)。    

当在视觉传感器松弛到初始状态之前施加额外的光脉冲时,由于先前光电流的积累,输出电流将高于第一个。如果脉冲间隔很短,光电流的衰减可以忽略不计,从而大大促进输出电流。如果脉冲间隔很长,先前的光电流对输出的影响可以忽略不计(图2g)。通过利用光电器件的动态特性,可以用更少的硬件资源存储先前的视觉信息。

对于光谱、偏振和相位信息,超透镜是提取视觉输入中这些特征的有力工具光通过超透镜的散射受光的波长、偏振和波前的影响,从而构成提取相应信息的基础(图2j)。通过对超透镜中几何结构的不同设计,散射体可以具有不同的响应特性,从而实现视觉传感器矩阵中的不同算子(2k ,i )。对于光谱信息,具有不同透射系数的超原子可以用作波长带通滤波器(图2k )。对于偏振信息,超原子作为不同方向和右/左手圆偏振的偏振滤波器。在视觉输入和超透镜相互作用的过程中,偏振滤光片分别作用于特定的偏振方向。超透镜的输出幅度是不同偏振方向上视觉输入的相对强度,从而可以确定偏振态的特征。对于相位信息,已知相位分布的超透镜可以实现相位调制器,提取特定的相位信息(图2j),根据超透镜的相位分布和输出强度模式,可以重建视觉输入的相位信息光电器件还可以通过改变能带结构来提取具有不同吸收系数的光谱信息。对于一些基于钙钛矿和有机材料的光电器件,可以设计材料组成器件结构表现出高度窄带响应特性,适用于高效的波长提取(图2m     

采用 Si 基技术的多维视觉传感器

多维视觉传感器的硬件实现还依赖于Si基技术的集成,例如光学透镜、Si基光电二极管、模拟信号处理器(ASP)、模数转换器(ADC)和数字信号处理器(DSP)(图3a)。计算可以在光学、光电或电子元件中执行。光学透镜可以直接处理光谱和偏振维度上的光信息。来自光电二极管的模拟信号首先传输到ASP。然后,ASP输出被传输到ADC和DSP进行进一步处理。ASP和DSP可以执行各种机器学习算法来提取不同维度的特征。ASP对模拟信号进行高速、节能的并行计算。DSP执行复杂的计算功能,例如深度感知、运动检测和偏振成像。光电二极管附近的计算单元可以提取视觉数据中的特征,大大减少了数据传输的负担、ADC 的工作量和硬件复杂性。光电二极管和计算单元之间的集成策略对于提高视觉传感器的性能、功率和面积 (PPA) 至关重要。

         

 

图 3:采用系统集成的多维视觉传感器。

   

a、基于成熟技术的视觉传感器系统,包括镜头、ASP和DSP。镜头处理光信息,提取特定特征(相位、偏振、相位等)。b  ASP中的算子通过卷积的乘法和累加算子以及激活函数的阈值算子,使CNN能够处理视觉传感器中的空间信息。c 在立体视觉中,来自两个光电二极管阵列的信号构成深度强度分布的矢量。DSP可以通过计算二维空间中一组相邻像素的信号之间的相关性来提取视差图。d 时间域中的Hadamard运算,其中基于事件的电路处理时间信息并输出“开”和“关”尖峰,对应于强度增加和减少事件。e  DSP通过组合ALU中的各种算子执行复杂的数学运算。f 频谱域中的Hadamard运算。g 偏振域中的Hadamard运算。h , i,彩色滤光片(h)和偏振器(i)可以提取光谱和偏振信息,以更详细地重建视觉信息。

         

 

在空间维度上,ASP 基于功能专用电路提取特征(图3b)。ASP 可以根据基本电路定律(例如电阻网络)执行乘法和累加的线性运算。它还可以实现放大器的微分和阈值等非线性运算(图3b )。利用这些基本运算符,ASP 可以实现卷积和激活函数,从而构建卷积神经网络 (CNN) 。ASP可以高效地并行处理 CNN 所需的大量计算,因此与数字系统相比大大降低了功耗。CNN 算法可以有效地提取空间维度中的特征,并将整体数据传输减少至少 80%。DSP 从 ASP 接收预处理的视觉数据并执行更复杂的特征提取,例如深度估计(图3c)。

在时间维度上,ASP可以高效处理动态视觉数据。基于事件的电路可以通过微分和比较运算处理视觉信息(图3d)。微分算子可以识别其输入信号的导数作为时间的函数。当输出电子信号积累并达到阈值时,比较算子将产生捕捉强度变化的事件信号。DSP可以高精度、高精确度地处理时空信息。它依赖于存储器、算术逻辑单元(ALU)和控制单元的设计(图3e )。ALU包含大量布尔和算术运算符,例如OR、XOR和ADD。通过选择和与控制单元组合不同的运算符,DSP可以进行微分、积分和傅里叶分析来提取速度,并可以通过计算来自两个基于事件的传感器的输出数据实现3D实时跟踪功能。    

光学透镜通常位于光电二极管阵列前方,处理光谱和偏振维度中的视觉信息(图3a)。在光谱维度中,输入矩阵中的每个元素都是一个向量,表示光强度在光谱上的分布。单个彩色滤光片是一个非线性算子,可抑制无关波长的光强度(图3f)。彩色滤光片阵列(图3h),例如拜耳滤光片,由涂有三种不同类型的彩色抗蚀剂的玻璃基板组成。通过改变彩色抗蚀剂中的成分,可以改变彩色滤光片的透射系数,从而设计视觉传感器矩阵中的算子来提取光谱特征。在偏振维度中,输入矩阵中的元素是表示不同偏振方向上的光强度分布的向量(图3i)。偏振器的非线性响应使其能够过滤其他偏振方向的视觉输入,用作 Hadamard 积的算子(图3g)。

成熟元器件(透镜、光电二极管阵列和电路)的集成使得多维视觉信息的处理成为可能。在传统结构中,偏振器放置于视觉传感器外部,并位于主透镜的前方。为了增加系统的紧凑性,透镜和光电二极管之间的集成从玻璃上结构发展到片上结构(图4b),其可以提取多个方向的实时偏振信息。光电二极管阵列、ASP和DSP之间的连接从平面结构发展到堆叠结构。三维集成(将光电二极管阵列垂直堆叠在计算电路之上)可以增加互连密度并减少互连长度,从而显着降低数据传输中的功耗和延迟。索尼 Omnivision 采用硅通孔(TSV)在分离的硅芯片上垂直连接光电二极管阵列和电路单元。 TSV 的互连间距小于 40 μm,TSV 互连数量范围为 5,000 至 10,000。最先进的堆叠 Cu-Cu 混合键合使间距尺寸从 6 μm 缩小到 1 μm(参考文献51),并将互连数量增加到 3,000,000。与 TSV 相比,Cu-Cu 键合具有高密度集成和短互连距离,为高带宽视觉传感器提供了潜力。单片 3D 集成可以直接依次堆叠制造有源器件层(光电二极管、ASP 和 DSP),可实现 100 nm 的间距尺寸和 10,000,000 的互连数量。该技术实现了光电二极管与APS之间的并行连接,有利于高速传输和计算,从而显著提高系统的吞吐量。    

         

 

图4:多维视觉传感器的集成技术。

a、偏光片的集成从视觉传感器外部发展到玻璃上结构,最后发展到片上结构。b、偏光片的集成从视觉传感器外部发展到玻璃上结构,最后发展到片上结构。光电二极管阵列和电路的集成从平面结构发展到3D集成。TSV和Cu-Cu键合是集成两个芯片的两种主要互连技术。Cu-Cu键合可以实现1μm互连间距尺寸和104 mm-2连接密度。插图为索尼公布的采用TSV和Cu-Cu混合键合的传感器的扫描电子显微镜图像单片集成是一种可以进一步提高集成密度的技术b经参考文献许可改编。 TSV SEM图像)、(Cu-Cu混合键合SEM图像)和72(单片3D集成SEM图像)。    

         

 

基准测试指标

采用新兴器件和硅基技术的多维视觉传感器应采用相同的关键性能评估指标(图5)。由于光学元件、光电器件和电子电路的性能指标不同,基准测试指标分为三个部分。在每个部分中,评估器件级和系统级的性能指标。在本节中,我们主要介绍评估系统性能的指标。

         

 

图 5:视觉传感器的器件和系统性能指标。

蓝色区域和绿色区域中的指标分别用于设备和系统性能。a – c,光学元件(a 、光电元件(b )和电子元件(c)的雷达图。d ,视觉传感器49、50、53、63、器件和系统要求的定量评估。OPS ,每秒操作补充表1提供了每个的详细讨论    

         

 

光响应性





请到「今天看啥」查看全文