专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

基于窗口的 Transformer 架构,SD Transformer 用于深度完成的高效端到端转换器 !

智驾实验室  · 公众号  ·  · 2024-09-21 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

深度补全旨在利用深度传感器从稀疏深度测量预测密集深度图。目前,基于卷积神经网络(CNN)的模型是深度补全任务最常用的方法。然而,尽管在高端性能方面表现出色,但它们在表示区域内存在局限性。

为了克服CNN的不足,提出了一种更有效、更强大的方法:自注意力模型,即Transformer。虽然标准Transformer将关键 Query 点乘输入分辨率的自注意力成本以四倍增加,这在深度补全任务中不合理地占用计算资源,但本研究提出的Sparse-to-Dense Transformer(SDformer)使用基于窗口的Transformer架构可以更好地解决深度补全问题。网络由输入模块、提取深度特征和RGB图像特征的输入模型、U型编码器解码器Transformer以及精炼模块组成。

具体而言,作者首先通过输入模型将深度图特征与RGB图像特征并联。然后,作者使用不同的窗口大小提取深度依赖。最后,作者将输入模块和U型编码器解码器Transformer模块的特征进行精炼,以获取丰富的深度特征,并使用卷积层获取密集深度图。

在实践中,SDformer在计算负载更低、参数更少的NYU Depth V2和KITTI DC数据集上,与基于CNN的深度补全模型相比,取得了最先进的结果。

作者的代码已在https://github.com/JamesQian11/SDformer-for-Depth-Completion开源。

I Introduction

最近,深度信息在各种计算机视觉应用中发挥了关键作用,例如机器人导航、增强现实和运动规划。飞行时间(ToF)和激光雷达(LiDAR)等深度传感器引入高频以获取准确的深度测量。然而,由于硬件设计限制,获得深度信息的空间分辨率通常较稀疏,导致了许多基于给定稀疏深度值来完成密集深度图的方法。

早期的方法 [1, 2]仅依靠稀疏测量来估计深度图。在没有引导信息的情况下,这些方法容易受到深度混合问题影响,通常由于在目标边界的错误识别深度值而造成模糊边缘和伪影。由于RGB图像包含了大量表面、边缘和语义线索,许多工作利用RGB图像作为引导来估计密集深度图,这个过程被称为图像引导深度补充。大多数这些方法都使用深度卷积神经网络(Deep CNNs)来提取稀疏深度和RGB图像信息特征。相似度矩阵表达了数据点之间的近似程度,并用于改善计算机视觉任务基础的粗糙预测。这种策略在密集深度预测方面取得了出色结果。同时,它还引发了两个问题,这些问题源于基本卷积层。首先,基于卷积神经网络的方法提取具有不变核的特征。这些特征对于表示深度图之间的相互关系非常不灵活。其次,基于卷积神经网络的模型具有复杂的结构,这会导致许多参数,这些参数会过度消耗计算资源。

为了解决这些问题,作者引入了Transformer [3],一种更强大和动态的网络用于深度补充任务。Transformer利用自注意力机制来捕获上下文之间的全局交互,这在自然语言处理应用[4, 5]和高级计算机视觉任务[6, 7, 8]上表现出令人印象深刻的表现。此外,它也启发了许多工作利用Transformer模型用于低级计算机视觉任务,诸如图像修复和超分辨率。

受到这些启发,作者提出了一种基于自注意力 [3]和门控机制 [13]的SDformer模型。SDformer的流水线包含三个模块:深度图和RGB图像特征提取与拼接的输入模块,用于提取深度特征的U型编码器-解码器Transformer模块,以及用于精炼输入模块和U型编码器-解码器SDformer模块的增强模块。

尤其是,输入模块采用卷积层来提取深度图和RGB图像的特征,然后将这些特征拼接到后续的两个模块。U型编码器-解码器Transformer主要由一系列SDformer块组成,每个SDformer块都利用了基于不同窗口的多尺度自注意力(DWSA)和门控前馈网络(GFFN)来提取深度特征的局部和全局信息。最后,作者精炼输入模块和U型编码器-解码器SDformer模块的预测特征,以获得丰富深度特征,并应用卷积层以获得密集深度图。

II Proposed Method

在这一部分,作者首先介绍了作者的SDformer在深度补全任务中的整体流程。然后,作者描述了SDformer块的关键技术细节。最后,作者提出了一种有效的深度信息学习策略。

Overall Pipeline

如图1所示,SDformer包含输入模块用于提取和拼接稀疏深度图及其相应的RGB图像,U形编码-解码Transformer模块用于深度特征提取,以及优化模块。具体而言,对于一个稀疏深度 和一个对应的RGB图像 ,其中稀疏深度与RGB图像空间对齐。作者首先使用带有LeakyReLU激活函数[16]的3x3卷积层来提取深度 和RGB图像 的低级特征。然后,作者将它们在通道维度上拼接,得到 。接下来,拼接后的特征 经过U形编码-解码SDformer模块,得到深度特征 。编码-解码每个阶段包含多个Transformer模块,利用自注意力机制来捕捉长程依赖关系并减少不同窗口特征图的计算成本。在每个编码-解码步骤中,作者采用置换和反置换过程来降采样和升采样特征。之后,深度特征 与浅层特征 拼接,并经过优化阶段,得到丰富的特征图 。最后,作者应用带有LeakyReLU激活函数的3x3卷积层对优化后的特征 进行处理,得到最终的深度预测

作者使用L1和L2损失函数来训练SDformer,这些损失函数通常用于深度补全模型[17, 18, 19, 20, 21]。此外,作者还使用Adam优化器[22]来优化作者的SDformer,以适应深度补全任务。

Sparse-to-Dense Transformer Block

直接使用传统的Transformer [3]进行密集深度预测导致两个主要问题。首先,标准的自注意力将计算成本从输入分辨率的键- Query 点积提升到平方。深度预测任务通常处理高分辨率深度图,因此不适用于使用自注意力。其次,基于SPN(Selective Projection Network)的模型[17, 18, 19]表明深度点与其邻居相关,但早期工作[23, 24]表明Transformer存在不需要考虑邻居信息的局限。为解决上述挑战,作者提出了基于不同窗口的多尺度自注意力(DWSA)和门控前馈网络(GFFN)。 如图2所示,SDformer块包括一个基于不同窗口的多尺度自注意力和一个带有残差学习策略[25]和层 normalization(LN)策略的 GFFN 模块。

SDformer块的过程定义如下:

其中 是带 Layer Normalization 和残差学习的DWSA和GFFN的输入,解释将在以下部分中给出。

基于不同窗口的多尺度自注意力(DWSA) 由于标准自注意力增加内存和计算能力,作者对自注意力机制应用不同的窗口,从而显著降低计算成本。如图3(a)所示,将归一化的特征







请到「今天看啥」查看全文