超越SOTA !ET-Former 基于单目摄像头的端到端语义场景补全算法,实现高精度语义占用图生成及不确定性估计 !
作者提出了ET-Former,一种端到端算法,用于使用单目摄像头进行语义场景补全。作者的方法从单一的RGB观测中生成语义占用图,同时提供语义预测的不确定性估计。
通过设计基于三平面的变形注意力机制,作者的方法在理解场景的几何结构方面优于其他最先进的SOTA方法,并减少了语义预测中的噪声。
此外,通过使用条件变分自编码器(CVAE),作者估计这些预测的不确定性。
生成的语义和不确定性图将有助于制定未来的导航策略,以实现安全和允许的决策。
在语义KITTI数据集上进行评估,ET-Former实现了最高的IoU和mIoU,比其他方法提高了至少15.16%的IoU和18.12%的mIoU,同时减少了现有方法GPU内存使用的25%-50.5%。
I Introduction
在机器人技术和自动驾驶领域,3D场景理解既支持导航,也支持与环境的交互[1, 2]。语义场景补全(SSC),也称为语义占用预测,使用语义占用图同时预测整个场景的语义和几何属性,包括在摄像机视野(FOV)之外的被遮挡区域[3, 4, 5]。
虽然许多方法利用深度相机[6, 7]或激光雷达传感器[8, 9]进行3D环境感知,但这些传感器通常比单色RGB相机[5]更昂贵且更紧凑。因此,单色RGB相机在自动驾驶和机器人导航任务中的3D场景理解方面日益受到关注。然而,使用单色相机进行SSC面临许多挑战,例如在3D空间中准确估计语义,预测FOV之外的被遮挡区域,以及提高估计的鲁棒性。
准确估计像素语义及其在实际世界中的位置是困难的,这主要是因为两个关键任务固有的复杂性[4, 5]:1.预测观察区域的语义标签;2.从图像平面精确投影到实际世界环境,将2D语义区域转换为准确3D位置。
从单一视角来看,预测区域强烈受到摄像机像素射线到图像平面的影响[5],通常导致扭曲的几何形状。在这种情况下,多视角感知[11, 12]或高级特征处理可以通过结合不同视点的物体几何结构来帮助校正这些错误。
然而,仅估计可见语义 Voxel 不足以完整地表示3D环境,因为场景中的部分区域可能被遮挡或位于摄像机的视野之外[5, 13]。估计这些被遮挡和超出视野范围的区域需要理解附近 Voxel 的几何结构和语义关系[3, 4]。此外,对这些预测的不确定性进行量化也非常关键,因为它为安全关键应用的导航策略提供了关键指导,如自动驾驶和救援任务。
主要贡献:
-
在本文中,作者提出了一种基于三棱锥的变形注意力模型,该模型利用变形注意力机制[14,15]处理三个正交视图中的 Voxel 和RGB特征。作者的方法在单目摄像头帧和作者的发明的变形注意力机制的基础上,从三个视图提供更佳的几何理解,同时降低了特征处理的计算成本。为了预测被遮挡和超出视图的区域,作者使用条件变分自编码器(CVAE)生成语义 Voxel 预测并估计预测的不确定性。作者的方法利用VoxFormer[3]的两阶段思想,其中第一阶段从单目摄像头估计占据度,为第二阶段完成3D语义占据图提供指导。此外,作者的三棱锥特征处理机制在VoxFormer的变形注意力模型上进行了改进,通过平滑稀疏 Query Voxel 的估计噪声,作者的CVAE生成器比其他方法更具准确性。作者的主要贡献如下:
-
作者提出了一种三棱柱形变模型,该模型将2D图像特征转换为3D语义占用图,通过将3D Voxel Query 投影到三个正交平面上,并在其中应用自/交叉形变注意。该模型显著减少了现有方法GPU内存使用量的25%-50.5%,同时从多个视角优化了视觉和几何信息。它在语义KITTI数据集上实现了最高的IoU和mIoU,比其他方法至少高15.16%的IoU和18.12%的mIoU。
-
作者设计了一种高效的跨可变形注意力模型,用于处理多个源特征,如具有3D Voxel 特征的2D图像特征。可变形注意力模型通过在可变形注意力机制中使用灵活的参考点数量,降低了计算成本。
-
作者调整了CVAE的公式,将 Voxel Query 视为潜在变量,并将其重新参数化为高斯分布,以量化从第一阶段预测的占用图的不确定性,从而产生一个不确定性图。不确定性与语义图的结合将使未来能够设计出既安全又允许的导航策略。
-
作者在第一阶段利用图像特征充分应用三平面可变形模型来提高占用预测准确性。
II Related Works
基于相机的场景理解:使用相机进行3D场景理解需要全面理解几何和颜色信息,例如3D场景重建[3, 19],3D目标检测[13, 18],以及3D深度估计[20, 21]。对于检测和深度估计等任务,像素和点广泛用于表示3D物体。在场景重建和补全任务中,早期方法应用了截断有符号距离函数(TSDFs)来处理特征[7, 22]。然后, Voxel 基础的方法由于其稀疏性和内存效率而变得更加流行[3, 5]。然而,将RGB特征转换为3D Voxel 特征仍然具有挑战性,因为它需要对环境进行颜色和几何理解。
为了解决这个问题,鸟瞰视角(BEV)场景表示法通常被使用[23, 17]。Lifts-Splat-Shoot(LSS)方法[24]使用基于像素的深度将图像特征映射到3D空间,生成BEV特征。基于BEV的方法,如BevFormer[17]和PolarFormer[25],利用注意力机制学习图像特征和3D Voxel 特征之间的关联。这些方法明确地构建BEV特征,而其他工作则在网络内隐式地处理BEV特征[26, 27, 13],这显示了更高的计算效率和能够编码任意场景分辨率的编码能力。
最近,三平面特征被引入以扩展BEV表示[28, 13],将点特征投影到三个正交平面而不是单一的BEV平面。这种方法在3D目标检测中取得了改进[29, 13]。然而,这些基于三平面方法的处理并未处理整个3D场景中的 Voxel 。在作者的方法中,作者设计了一种高效的可变形注意力模型来解决这个问题。
语义场景补全(Semantic Scene Completion,简称 SSC)涉及估计一个 3D 场景的几何结构和语义标签,这是由 SSCNet 首次提出的任务 [30]。早期的方法 [31, 32, 33, 34] 利用几何信息将 2D 图像特征与 3D 空间关联起来。MonoScene [5] 和 LMSCNet [35] 分别提出了单目相机的端到端解决方案,将 RGB 图像转换为 3D 语义占用图,通过卷积神经网络(CNNs)或 U-Net 架构实现。TPVFormer [13] 应用了三角面片特征进行像素处理,但填充缺失区域效果不佳且内存占用较大。
近年来,OccFormer [36] 和 VoxFormer [3] 利用 Transformer 改进单目相机的特征处理。VoxFormer 将占用和语义预测分为两个阶段,以提高语义估计和遮挡预测的准确性。在 VoxFormer 的基础上,MonoOcc [4] 和 Symphonize [37] 引入了更复杂的结构,进一步增强了占用预测和语义估计,但内存占用也更高。
然而,这些方法并未估计语义预测的不确定性,限制了它们在下游任务中的有效性。为解决这一问题,作者设计了一个基于三角面片的变形注意力模型,以提高语义预测估计的准确性,并采用条件变分自编码器(Conditional Variational AutoEncoder,简称 CVAE)方法预测语义预测的不确定性。
III Our Approach
在本节中,作者介绍了问题定义,包括关键创新,如基于三角形的有效可变形3D注意力机制,以及条件变分自编码器(CVAE)的公式。
Problem Definition
作者将语义场景补全(SSC)任务形式化为一个生成问题。给定单目图像
, 其中
表示图像大小,作者的模型旨在生成一个语义占用图
, 其中
表示 3D 占用图的尺寸,
是语义类别的数量。模型遵循卷积自动编码器(CVAE)的表示:
其中,
是生成的语义占用图,
表示条件,包含作者方法中的图像特征。嵌入向量
由编码器
编码,给定图像实例
。如图2所示,该模型包括一个两阶段的结构,用于SSC任务。在第一阶段,估计占用图( Query )
,作为语义预测的推理(占用)。在第二阶段,使用CVAE公式生成语义占用图,以第一阶段的推理(占用)voxels 为输入,并条件于RGB图像。
在第二阶段,作者的编码器使用了ResNet-50 [38]和FPN [21],它们在视觉任务中的图像特征提取方面具有很高的潜力 [3, 4, 20],将RGB图像处理成低维向量
作为图像特征。
在这里,
和
分别表示 Query 单元的头数和偏移量。
表示每个 Query Voxel 的三维位置。
是 Query 位置的位置嵌入。
将归一化的位置
缩放到图像特征尺寸
,而
则计算 Query 位置的偏移量,使用
。
和
是线性权重。
也是从
计算得出的,其中
表示线性层。
Conditional Variational Autoencoder Formulation
作者的方法利用条件变分自动编码器(CVAE)生成语义占用图,利用CVAE方法独特的性质:[39, 40, 41]:
-
CVAE允许条件生成,可以生成遵循特定条件信息的 Voxel 。作者利用这一能力生成符合单目观测的RGB信息的语义图。
-
CVAE学习一个特定属性条件下的潜在空间,通常具有平滑和连续的性质,这一属性确保了潜在空间中的微小变化会导致生成的 Voxel 中具有意义的显著变化,增强了语义图的表达能力。
-
CVAE天生建模了生成数据的不确定性,允许对同一条件具有多个有效输出,与确定性模型不同。这种概率性质使得作者的方法在单目语义占用映射的不确定性处理上更有效。
给定 Query 特征
,在CVAE格式中,作者需要将特征嵌入转换为高斯分布的嵌入,这些嵌入如图3所示。
和
分别为线性层。高斯分布的方差表示估计
的不确定性,如图2 所示。
Triplane-based 3D Deformable Attention
基于三角形的表示 [13, 28] 通过利用三个正交的2D特征平面(
,
和
)对3D特征进行编码。与在密集3D网格中直接编码特征相比,这种方法显著降低了内存和计算需求。与鸟瞰视图表示相比,三角形编码更能充分地表示现实世界环境。三个平面的正交性提供了空间特征在3D空间中的强健嵌入,使其成为复杂3D场景的有效且高效的表示。变形注意力机制 [14, 15] 在处理具有像素级空间 Aware 的图像高分辨率特征时非常高效。然而,当前方法 [3, 14] 仍然依赖于大量的 Query 和参考点,导致3D特征处理的计算成本较高。为了解决这个问题,作者提出了一种高效的三角形基变形注意力方法,通过将图像特征与 Voxel 特征相结合,提高跨源特征提取的效率和性能。
作者在第二阶段提出了一种高效的变形三棱柱解码器。作者不再 Query 整个3D Voxel 空间,而是通过将 Voxel 特征聚合到三个正交平面上,将维数从3D降低到2D。然后,作者提出了一种高效的自注意力和交叉注意力机制来处理这些平面的特征。如图3所示, Query 特征是由位置嵌入权重聚合的:
在平面上,
和
表示像素索引,同时也对应于3D空间的
,而
表示3D空间的第三个轴。对于其他两个平面,同样的聚合过程也适用。在等式(4)中,
表示元素乘积。
由于从3D空间映射到2D平面的 Query 只占用了2D空间的一部分,因此在2D空间中存在空像素。为了拥有3D空间的完整表示,作者必须填充缺失的像素特征。作者使用变形器(Deformable Transformer)[15]来完成缺失的像素特征,使用平面全像素特征作为 Query ,以步长为4像素采样参考点。自变形有效自注意力(ESDA)机制完成三个平面,即
。
随着解码器遵循CVAE格式,作者利用视觉特征来增强三个正交平面,其中条件是图像特征
。作者引入了一种新的高效3D交叉可变形注意力(ECDA)模型,用图像特征
来增强平面特征
。由于平面特征从3D转换到2D,作者保留3D几何表示,通过从3D Voxel 网格中正常采样参考点
,其中
,
,
。这些点投影到图像特征平面
,所以图像特征平面上有