专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

LsSInst: 改进基于 LSS 的 BEV 感知中的几何建模与实例表示 !

智驾实验室 · 公众号 · · 2024-12-09 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

随着自动驾驶中仅依靠相机的3D目标检测受到关注，基于鸟瞰视角（BEV）表示的方法，特别是从前视转换范式派生出的lift-splat-shoot（LSS）方法，近年来取得了显著进展。

由基于深度分布预测的截面基于的BEV表示的理想，可用于从多视图图像学习道路结构和场景布局。

然而，为了保持计算效率，如分辨率和轴向的压缩BEV表示必然在保留个体几何细节方面较弱，这削弱了方法论的通用性和适用性。因此，为了弥补缺失的细节并利用多视图几何约束，作者提出LSSInst，这是一个结合BEV和实例表示的两阶段目标检测器。

所提出的检测器利用可以灵活集成到现有LSS-基于BEV网络的细粒度像素级特征。

然而，由于两个表示空间之间的固有差异，作者设计BEV到实例语义连贯的实例 Adapter ，而不是直接传递 Proposal 。

在大量实验中，作者提出的框架表现出出色的泛化能力和性能，这提高了现代LSS-基于BEV感知方法的性能，而无需增加复杂的元素，并在大规模nuScenes基准上超过了当前的LSS-最先进的工作。

代码可在 https://github.com/WeijieMav/LSSInst。

1 Introduction

作为3D感知的重要组成部分，3D目标检测可以在各种领域得到应用，如自动驾驶和机器人技术。尽管基于LiDAR的3D检测方法已被证明具有显著的性能，但近年来基于相机的检测方法也受到了越来越多的关注。这的原因不仅在于部署成本较低，而且还在于长距离距离和视觉道路元素识别的优势[27, 34]。然而，与LiDAR传感器提供的直接、准确深度信息不同，仅基于相机传感器图像检测物体面临巨大的挑战。因此，如何利用多视图图像构建有效表示已成为关键问题。

最近，在利用鸟瞰视角（BEV）的方法中取得了重要进展，其视图转换主要可以分为基于提升-溅射（LSS）[35, 24, 25, 34]的前向类型和基于可学习BEV Query 的[27, 49]的后向类型。由于其纯粹的隐式聚合通过不可解释但强制密集的 Query ，后向类型表现出较低的性能和可扩展性，使得基于LSS的正向类型成为目前仅针对相机进行3D检测的主流BEV范式。基于LSS假设和场景中大多数物体接近地面的事实，基于LSS的BEV提供了一个具有最小平行视差歧义和信息损失观察物体的视角。如图1（I）所示，这些方法根据深度分布预测将图像提升到截面中，并将它溅射到BEV空间，从多个2D视图收集信息以获得场景的全局表示。这种表示形式是平面视图，压缩了高度（z轴）并降低了分辨率以确保计算效率。BEV特性受益于其整体表示和密集特征空间，使其非常适合捕捉场景的结构和数据分布。

然而，BEV表示的几何压缩特性，如分辨率和轴的减少，固有地限制了其提供精确3D物体位置描述的能力，或者在需要准确预测3D物体边界框的3D检测任务中充分利用详细特征。同时，如图1（II）所示，基于稀疏的方法跳过BEV公式，直接利用物体级表示和利用3D几何先验从3D视角回归物体边界框。然而，由于初始化语义分散[22]，尤其是在更复杂的3D感知中，它们无法同时捕捉到与BEV特征相比从图像中获得的丰富的物感特征，导致整体性能低于同时期的BEV-基于方法。

接下来，作者发现在两种方法之间的每个类别AP比较中，有一些有趣且相互验证的结果，如图1所示。值得注意的是，考虑到数据增强和训练策略等实际多样性，同一组中选定方法的总体mAP值之间的差异严格小于 0.5% ，这确保了两种检测能力相等。作者可以观察到不同类别之间存在相同的AP趋势。具体来说，BEV表示似乎对具有明确运动或场景中常见位置的常规目标（汽车、公交车、卡车、屏障）更加敏感，而对具有不确定轨迹或分散位置的目标（行人、自行车、交通锥）相对不敏感，这进一步证明了其适应数据分布并倾向于场景级关注的特性。

受到这一启发，作者受到启发，为了增强两种方法的互补协同作用，弥补当前基于LSS的BEV感知表示的缺失细节，并利用多视图几何约束，作者提出 LSSInst ，它将基于场景级表示的稀疏实例级表示结合起来，以查找更详细的特征并进行几何匹配。如图1（III）所示，基于全局场景级预特征，实例级特征被推回到图像的局部，专注于更精细的像素特征，并允许进行灵活的几何匹配，最终生成一个结合全局语义和局部几何信息的最终感知结果。

然而，这种合作也存在挑战，因为最直接的共享边界框建议在直观和实验上都是失败的1。正如前面提到的，传统的稀疏检测方法受到初始化语义分散和场景语义理解不足的影响，上述解决方案将削弱与密集表示的一致性。因此，作者提出了实例 Adapter 模块，以建立场景和实例之间的语义一致性，并设置一个实例分支进行检测。实例 Adapter 模块通过多级自适应聚合生成多个稀疏 Query 及其对应的3D框。实例分支专注于使用准备好的输入（如框嵌入和时空采样与融合）进行细粒度稀疏特征提取和几何匹配。在nuScenes数据集上，作者的LSSInst方法展示了强大的泛化能力。与典型的LSS方法相比，LSSInst在mAP方面取得了显著的改进。具体来说，它比BEVDet提高了5.0%，比BEVDepth提高了2.2%，比BEVStereo提高了2.6%，并超过了最先进的LSS方法SOLOFusion（提高了1.6%）。

作者主要的贡献可以总结如下：

i）作者提出了LSSInst，这是一个两阶段的框架，通过实例表示改善了基于LSS的BEV感知中的几何细节；

ii）作者提出了实例 Adapter ，以保持BEV到实例的语义连贯性，并设计了一个新的实例分支，用于回溯并空间时间聚合特征以提高性能；

iii）通过大量实验结果验证，该框架具有出色的泛化能力，并超越了最先进的基于LSS的方法。

2 Related Work

LSS-based BEV Perception

随着BEV已被证明是多视图3D检测的有效表示，利用显式公式过程和优越性能的LSS（线性规划）方法已成为最近的主流范式。LSS [35] 提出了一种端到端视图转换架构，通过预测深度分布并将图像提升到 Frustum 中，然后将其转换为BEV表示。接下来，BEVDet [17] 集成了一些独特的数据增强技术来扩展检测。BEVDepth [25] 和BEVStereo [24] 通过引入额外的单目深度网络，由相应的激光雷达深度监督，以及相邻帧之间的多视图立体匹配，提高了深度精度。BEVDistill [5] 选择从激光雷达进行模型 Level 的蒸馏。OA-BEV [6] 和SA-BEV [52] 增强了深度利用，分别集成了一个基于2D检测网络的额外 Proposal 的三维 Voxel 网络和深度与语义融合模块，以实现更强的特征。此外，一些工作开始 Aware 到当前视图转换假设的不足。AeDet [11] 引入了现有的坐标投影位置补偿，而FB-BEV [28] 集成了一种新颖的前向-后向视图转换模块，部分缓解了投影问题。SOLOFusion [34] 进一步基于短期的 temporal 优化与高斯 top-k 采样来统一长期时间信息，从而提高性能。

尽管这些方法努力从LSS过程中获得完美的BEV表示，但由于避免的深度误差和池化操作的压缩特性，生成的BEV表示在保留个体几何细节方面较弱，因此作者不同地关注将BEV表示调整为更好的几何建模。

Instance-level Representation Integration in Camera 3D Detection

将实例级表示进行集成是提高相机3D检测感知能力的一种普遍方法。FQNet [30] 是一个单目检测的三阶段框架，首先在局部搜索潜在框，然后遵循类似于Fast-RCNN的方法 [12] 将大量物候选全局聚合进行位置预测。 [23] 他们在立体3D检测中采用类似的方法。他们首先借用DSGN [4] 在局部搜索可能 Proposal ，然后建立Vernier网络，基于立体对进行全局形成置信图。

在多视图3D检测中，对于基于稀疏的方法 [31, 46] 仅依赖于 Query 解码，由于视角不一致，前景 Token 和 Query 之间往往存在较弱的相关性和缓慢的收敛速度。Focal-PETR [44] 采用额外的2D实例级监督，自适应地将物 Query 聚焦在判别性前景区域。对于基于BEV Query 的方法，BEVFormer V2 [49] 使用额外的3D视角网络，如[33, 46] 生成粗粒度的实例特征作为辅助 Proposal 。

与他们在局部到全局（即从下到上）的方式中借用实例级特征不同，LSSInst 使用完全不同的全局到局部（即从上到下）的方式进行改进。

Two-stage 3D Object Detector

两阶段设计在3D检测领域得到了广泛研究，并证实其有效，其多步骤工作流程有利于更精确的预测。对于LiDAR 3D检测，受到2D检测的启发，两阶段LiDAR检测器通常在第一阶段生成感兴趣区域（RoIs），然后在第二阶段优化这些初始预测。为了解决编码 Proposal 几何信息的能力降低的问题，在RoI上进行点云池化操作[39]或使用具有边界偏移的虚拟点[26]。取而代之的是，Voxel R-CNN[9]设计了一个从 Voxel 和BEV特征空间直接池化的 Voxel RoI池化模块。

为了提高速度，CenterPoint[51]通过双线性插值从BEV特征中采样五个关键点来简化池化模块，而RSN[41]使用前景分割作为第一阶段来稀疏化点云，从而增强第二阶段稀疏卷积的效率。对于摄像头3D检测，MonoDIS[40]从2D边界框中提取特征，用于随后的3D边界框回归，并引入解混化变换来分别监督2D和3D的检测损失。SimMod[54]利用DETR3D头[46]迭代优化从单目网络输出的2D级物体 Proposal 。

BEVFormer v2 [49]将BEVFormer[27]扩展到第二阶段，通过结合第一阶段直接监督图像 Backbone 网络的第一阶段3D视角检测网络，利用BEV和视角信息。在当前的两阶段方法中，由于第一阶段主要依赖视角视图，因此它们更注重对粗粒度样本进行联合聚合的细调。相反，作者关注从场景级布局共同推导出整体语义的 Proposal 的后续细调。

3 Methodology

利用基于场景的BEV的实例级表示来挖掘更详细的特征和几何信息对于泛化的3D感知具有实际意义。在本工作中，作者提出了LSSInst，它回归到更几何感知和细粒度的目标特征提取，以弥合场景级和实例级3D表示之间的适应性。作者框架的概述如图2所示，其余部分如下组织。首先，3.1b简述BEV分支。接下来，3.2介绍了实例 Adapter 模块，实例分支在3.3中给出。

BEV Branch: Looking around for scene-level representation

首先，将之前帧的多视图连续图像输入到2D图像 Backbone 网络进行特征提取。然后，BEV分支接收到提取的图像特征，并将其从2D相机视图转换为初步场景级表示，其中和分别表示相机视图和缩放次数。该分支可以简化为BEV生成的时间共享视图转换和BEV序列融合。2D到BEV视图转换（VT）自然基于LSS范式，可以主要总结为深度细化模块（DRM）、特征提取网络和 Voxel 池化。对于该框架的最佳版本，作者采用了高斯间隔的Top-k立体[34]用于在 Voxel 池化之前更好的深度分布图。在共享VT之后，一系列BEV表示将按时间顺序对齐到当前时间，并输入到BEV时间编码器，以形成最终当前BEV。其中，编码器设计为仅用于降维的非常轻量级的残差网络。

Instance Adaptor: Scene-to-instance adaptation

为了在BEV（bird's eye view）和实例表示之间保持一致性和坚实的语义一致性，作者提出实例调整模块以消除位置描述和空间差异的间隙。由于BEV特征是围绕自车构建的场景级表示，因此建模实例级特征存在冗余和灵活性不足的问题。为此，所提出的调整模块首先通过BEV Proposal 头获取 Proposal 框坐标，并将其重投影回BEV识别的位置，以重采样与目标相关的特征。这里表示BEV Proposal 的数量。已知BEV点云范围，相应的 Voxel 大小和上采样因子，作者可以将2D重投影坐标表示为：

在此，表示 z 轴的均匀项，实际上是一个常数 1。此外，由于 BEV 中的过拟合偏差，聚焦区域可能会偏离实际物体的位置。受到变形注意力 [56] 的启发，自适应模块引入了基于原始聚焦特征的可学习偏移量，以通过探索更多语义感知的区域进行失配补偿。假设表示的任意元素索引，其聚合的实例特征可以表示为：

其中，是线性投影的权重矩阵，表示重采样键的总重采样键数量 K。

尽管如此，BEV编码空间与适合回顾图像特征的3D稀疏空间之间仍然存在固有的空间差异。因此，作者首先引入了一个非常浅层的卷积特征 Transformer ，用于重参化跨空间叙述的聚合特征。

同时，尽管基于BEV关注的特征进行了广泛的聚合和增强，但由于常规目标对BEV的过拟合以及相对粗糙的感知粒度，部分不规则或分离的目标无法检测到。因此，作者引入了额外的可学习 Query 和与BEV Proposal 无关的参考框，称为潜在3D实例和框，旨在捕捉潜在的BEV无关目标并学习BEV无关的3D空间先验。这样，作者可以得到乘积稀疏特征，并在这里作者为了简单起见，令。的整个形式可以推导如下：

Instance Branch: Looking back for instance-level representation

该分支可以大致看作是一个多层Transformer-decoder-like [42]模块，用于3D检测，它简化为两个部分：框级偏移和嵌入，以及时空采样和融合。

盒级偏移和嵌入与之前的DETR类3D方法（如DETR3D[46]，Polarformer[20]，VEDet[3]）不同，这些方法仅通过3D坐标偏移回归逐步优化。实例分支采用基于的盒级偏移回归。通过这种方式，作者可以编码整个 Box 的所有几何感知信息，以取代过渡位置编码，从而扩展和丰富特征表达的空间，而不仅仅是表面的位置级。结合稀疏实例特征，后续的注意力交互将具有更多的几何先验和隐性补偿。

具体而言，作者首先根据盒维度的元素语义将分为四个部分：位置（即），尺度（即），速度（即），和方向