专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
为你读诗  ·  沉香藏家绕不过的绿奇楠,绕腕留奇香 ·  8 小时前  
当代  ·  朋友圈 / ... ·  11 小时前  
一口老井  ·  她一下就把事情搞复杂了 ·  18 小时前  
当代  ·  活动招募|出版家聂震宁的B面人生 ·  昨天  
芋道源码  ·  40 张图搞懂分布式日志追踪,强大的traceId ·  2 天前  
51好读  ›  专栏  ›  智驾实验室

Geo-ConvGRU颠覆BEV分割!时空建模新突破,计算效率双杀3D CNN与Transformer!

智驾实验室  · 公众号  ·  · 2025-02-21 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室


加入【 智驾实验室 】交流群, 获取更多内容和资料

卷积神经网络(CNNs)对各种计算机视觉任务产生了重大影响,然而,由于卷积操作的局部化特性,它们在显式建模长距离依赖关系方面存在固有的困难。

尽管Transformer解决了空间维度长距离依赖的限制,但时间维度仍被研究不足。

在本文中,作者首先指出,3D CNN在捕捉长距离时间依赖方面存在局限性。虽然Transformer缓解了空间维度的问题,但导致了参数的大量增加和计算速度的降低。

为了克服这些挑战,作者提出了一种简单而有效的模块,即针对鸟瞰视图分割的地理 Mask 卷积门控循环单元(Geo-ConvGRU)。

具体来说,作者在时间模块中用ConvGRU替换了3D CNN层,以增强网络处理时间依赖的能力。

此外,作者将地理 Mask 集成到卷积门控循环单元中,以抑制时间模块引入的噪声。

在NuScenes数据集上进行的综合实验证实了所提出的Geo-ConvGRU的优势,揭示了作者的方法在鸟瞰视图分割中达到了最先进的性能。

引言

在过去十年中,卷积神经网络已成为解决基本且具有挑战性的计算机视觉任务的主要方法。自从[1]在二维计算机视觉领域的开创性工作以来,卷积神经网络中空间维度上的长距离依赖性缺乏引起了越来越多的关注。然而,对于如鸟瞰视图(BEV)语义分割和未来预测这样的自动驾驶任务,先前方法[2]-[8]往往忽视了3D卷积神经网络有限的时域感受野。

BEV分割,即对BEV空间中的每个像素分配语义标签的任务,对于自动驾驶至关重要,它使得车辆能够在三维空间中安全、准确地导航。正如[4]所展示的,将时间模块融入其中,从多个帧中提取时空表示,可以显著提升模型性能。根据作者的实验(如图1所示),当时间域增加(向时间模块添加更多帧)时,3D卷积神经网络模型的表现并未实现合理的提升。

为了解决这一局限,采用了时空Transformer来处理较大的时间域。自动驾驶任务需要高效且可靠的策略来整合Transformer模块。然而,当前的方法存在一些缺陷,阻碍了其有效性。例如,当前帧和前一帧之间的 ConCat 融合导致多帧计算效率低下。此外,加入Transformer模块显著增加了模型的参数和GPU内存消耗,使得满足自动驾驶任务的实时性要求变得具有挑战性。因此,有必要探索替代方法,以解决这些问题并确保在自动驾驶场景中达到最佳性能。

图1. 在鸟瞰图语义分割中,不同时间域的性能(IoU)与效率(训练时间)的关系。

为了高效地捕捉长距离时间依赖关系,本文采用卷积门控循环单元(ConvGRU)作为BEV分割的时间模块[11]。该模块用于探索不同空间分辨率下视觉感知的时间变化。作者的网络利用ConvGRU提取稳健的时间特征,并在输入空间位置间共享参数。这种方法用卷积替代了全连接层,显著降低了内存需求。然而,在ConvGRU中融合空间和时间特征的过程中引入了一些噪声,使得模型在预测移动邻域汽车的空间位置时面临挑战。为了缓解这一问题,作者进一步通过地理包含生成地理 Mask 。作者的实验结果表明,添加地理 Mask 进一步提升了模型性能。总体来说,作者持续努力改进网络的性能,提高预测的准确性。

与以往最先进的方法相比,作者的GeoConvGRU在BEV语义分割、未来实例分割和感知地图预测方面分别实现了1.3%、0.9%和0.8%的提升。这些改进验证了作者的方法在自动驾驶任务中的有效性。

作者的贡献可以概括如下:

  1. 作者通过实验表明,3D卷积神经网络在时间维度上的长距离依赖性方面存在局限性。
  2. 为了解决这个问题,作者采用了卷积门控循环单元(ConvGRU)作为时间模块。
  3. 作者提出了一种新颖、简单但有效的地理 Mask ,利用地理包含来减轻由于空间和时间特征融合引起的移动像素的过拟合问题。
  4. 在NuScenes数据集上进行的广泛实验证实了作者的Geo-ConvGRU框架的有效性,其性能优于现有方法。

2. 介绍

随着3D识别数据集[12]-[14]的发展,众多研究工作集中于BEV视图中的感知。通常,BEV分割使用多视角摄像头图像作为输入,并将语义标签分配给BEV空间中的每个像素。VPN[15]首先引入了跨视图语义分割来理解周围环境,并提出了一种视图解析网络来融合多视图特征。LSS[3]将每个摄像头图像分别提升到每个摄像头的特征视锥中,并将所有视锥投射到一个鸟瞰视图网格中。在LSS之后,Fiery[4]也使用了深度预测来将摄像头图像投影到BEV空间。Fiery的区别在于增加了一个时间模块,以提取比LSS更多的时序信息。根据Fiery的观点,时间模块已被证明是增强BEV分割模型性能的有效方法。

同样,BEVFormer [10] 通过时空 Transformer 旨在利用空间和时间信息。此外,周等人 [16] 提出添加跨视角 Transformer Layer 以推理地图视图进行语义分割。PERT [9]、[17] 扩展了原始 Transformer 中的3D位置嵌入以进行时间建模。正如预期的那样,引入 Transformer 显著提高了模型的准确性,但代价是模型参数规模和GPU内存消耗的增加。这些缺点与自动驾驶任务对实时性的要求相冲突。为了解决这一问题,ST-P3 [5] 在规划解码器中提出了基于时间的细化单元。然而,这些先前的方法未能考虑3D CNN在时间域中的局限性。

在这篇论文中,作者采用卷积门控循环单元(ConvGRU)作为时间模块,以扩展模型在鸟瞰图分割任务中的时间感受野。ConvGRU [11] 是一种用于处理输入序列的循环神经网络(RNN)模型。它在各种任务中得到了广泛应用,例如机器翻译和图像/视频字幕生成。此外,ConvGRU通过实证研究表明了其建模长期时间依赖性的能力 [18]-[20]。与长短期记忆(LSTM)[21]相比,ConvGRU的主要优势是其较低的内存需求 [22]。如图1所示,ConvGRU可以在不显著增加时间消耗的情况下,通过增加更多帧来显著提高性能。

第三章:方法学

在本节中,作者介绍了作者的Geo-ConvGRU,该算法用于从多个摄像头视角进行BEV(鸟瞰图)分割。在时间域 中,作者利用像素上的自监督深度概率分布将摄像头输入 转换为BEV空间,其中包含一系列像素和摄像头参数。

对于每一帧的摄像头输入 个单目视图 ,包括输入图像 ,摄像内参 ,以及相对于驾驶者车辆中心的旋转 和平移 。作者的目标是训练一个高效的网络用于BEV分割,从空间和时间维度提取特征,以预测BEV空间中的语义/实例分割 Mask 。在所有实验中,摄像头视图的数量 被设置为6。

框架概述

图2展示了所提出方法的概述。整个分割模型包括一个 Backbone 网络、BEV投影模块、Geo-ConvGRU模块和预测头。 Backbone 网络是一个微调网络,从一系列相机输入中提取初始2D特征。类似于文献[4]和[3],作者采用相同的BEV投影过程将2D特征转换到BEV空间。在作者方法与[3]、[4]在BEV投影过程中的不同之处在于,作者额外输出了一个由相机的内在和外在参数推导出的地理 Mask 。第III-B节提供了更多关于生成地理 Mask 的细节。BEV特征被输入到作者的Geo-ConvGRU模块以提取时序表示。同时,ConvGRU的输出与地理 Mask 进行逐元素相乘,以抑制不可见像素的影响。根据作者的实验结果,地理 Mask 与特征的加权可以帮助去除由于时序模块的加入而产生的时间和空间噪声。最后,使用预测头输出最终的BEV分割结果。

卷积门控循环单元

在本文中,作者将卷积门控循环单元(ConvGRU)应用于增强模型在BEV分割上的长期时间依赖性。与之前其他时空模块的巨大参数量相比,ConvGRU能够在参数和性能之间达到合理的平衡。

图3展示了ConvGRU单元的示例。其输出计算如下:

表示卷积操作的这些公式中, 以及 均为二维卷积核。此外, 分别代表重置门和更新门。

地理 Mask 卷积门控循环单元

一项全面的消融研究表明,模型偶尔会在移动汽车预测上产生错误,这是由于时间模块激活了某些无效 Voxel ,导致在BEV投影过程中没有2D像素投影。尽管如此,开发出独特的地理 Mask 已经取得了成功。这个 Mask 增强了有效 Voxel 的影响,同时抑制了其他 Voxel ,从而系统地解决了上述问题。

图4展示了所提出的Geo-ConvGRU的概述。整个Geo-ConvGRU由两部分组成:一个ConvGRU模块和一个地理 Mask 加权操作。具体来说,ConvGRU单元的数量和时间域(T)分别设置为2和3。

考虑到摄像机的维度 和BEV(鸟瞰图)维度







请到「今天看啥」查看全文