专栏名称: 智能车情报局

聚焦智能汽车关键技术与创新产品

超越BEVFusion！GraphBEV：解决多模态特征不对齐和噪声问题，助力量产

智能车情报局 · 公众号 · · 2024-04-01 15:42

正文

智猩猩与智东西将于 4月18-19日 在北京共同举办 2024中国生成式AI大会 ，爱诗科技创始人王长虎，启明创投合伙人周志峰，Open-Sora开发团队潞晨科技创始人尤洋，「清华系Sora」生数科技CEO唐家渝，万兴科技副总裁朱伟，优必选研究院执行院长焦继超等40+位嘉宾已确认带来演讲和报告，欢迎报名。

写在前面&笔者个人理解

将激光雷达和相机信息整合到BEV表示中已经成为自动驾驶中3D目标检测发展的重要方向。然而，现有的方法容易受到激光雷达与相机传感器标定参数不准确的影响。这种不准确性导致相机分支的深度估计错误，最终导致LiDAR和相机BEV特征之间的不对齐。在这项工作中，我们提出了一个鲁棒的融合框架GraphBEV。为了解决点云投影不准确导致的误差，引入了一个LocalAlign模块，该模块通过图匹配使用了领域感知深度特征。此外，还提出了一个GlobalAlign模块来纠正激光雷达和相机BEV特征之间的不对齐。我们的GraphBEV框架实现了SOTA的性能，mAP为70.1%，在nuScnes验证集上超过BEVFusion 1.6%。重要的是，在噪声条件下，GraphBEV比BEVFusion高出8.3%。

主要贡献

特征不对齐是多模态3D目标检测实际应用中的一个重大挑战，主要是由LiDAR和相机传感器之间的标定误差引起的，如图1(a)所示。多模态3D目标检测从早期的点级和特征级方法发展到目前流行的BEVFusion等BEV融合方法。尽管在nuScenes等噪声较小的数据集上有效，但在带噪数据集上，BEVFusion的性能会大幅下降，如图1(c)所示。这种性能下降主要是由于激光雷达和相机之间的标定误差，而道路振动等因素又加剧了这种误差。这些固有误差无法通过在线标定来纠正，这是一个重大挑战。

图1:(a)特征不对齐主要是由于忽略了LiDAR和相机之间的标定误差，导致LiDAR到相机提供了不准确的深度。(b)我们提出GraphBEV，通过基于图的邻域信息构建来增强激光雷达到相机的投影深度与相邻深度，以丰富上下文深度特征学习

因此，在这项研究中，提出了一个强大的融合框架，名为GraphBEV，来解决上述特征未对齐问题。总的来说我们的贡献如下：

提出了一种名为GraphBEV的鲁棒融合框架，以解决激光雷达和相机输入之间的投影误差引起的特征偏差。
通过深入分析特征不对齐的根本原因，在GraphBEV中提出了LocalAlign和GlobalAlign模块，以解决激光雷达和相机BEV特征之间不精确深度的局部不对齐和全局不对齐。
大量的实验验证了GraphBEV的有效性，在nuScenes上展示了具有竞争力的性能。值得注意的是，GraphBEV在无噪设置和带噪条件下都保持相当的性能。

相关工作回顾

基于激光雷达的3D目标检测

基于LiDAR的3D目标检测方法根据点云表示可分为三种主要类型：基于点、基于体素和基于PV（点体素）。基于点的方法扩展了PointNet的原理，使用堆叠的多层感知器（MLP）直接处理原始点云以提取点特征。基于体素的方法通常将点云转换为体素，并应用3D稀疏卷积进行体素特征提取。此外，PointPillars将不规则的原始点云转换为pillar，并在2D主干上对它们进行编码，从而实现非常高的FPS。一些基于体素的方法进一步利用Transformers后体素化来捕获大范围体素间关系。基于PV的方法结合了体素和基于点的策略，使用这两种方法从点云的不同表示中提取特征，尽管计算需求增加，但仍实现了更高的精度。

基于相机的3D目标检测

基于相机的3D目标检测方法在学术界和工业界受到越来越多的关注，这主要是因为与LiDAR相比，相机传感器的成本显着降低。早期的方法侧重于使用额外的3D边界框回归头来增强2D目标检测器。自从LSS通过“Lift, splat”引入将多视图信息统一到鸟瞰视图(BEV)的概念以来，当前基于相机的方法已经迅速发展。基于LSS的方法像BEVDepth一样，从多视图图像中提取2D特征，并通过LiDAR到相机的投影提供有效的深度监督，然后将多视图特征统一到BEV上。后续工作引入了多视图立体技术来提高深度估计精度并实现SOTA性能。此外，受到基于Transformer的架构（例如DETR和Deformable DETR）在2D检测中的成功的启发，基于Transformer的检测器已经出现用于3D目标检测。遵循DETR3D，这些方法设计一组目标查询或BEV网格查询，然后通过查询和图像特征之间的交叉注意力来执行视图转换。

多模态3D目标检测

多模态3D目标检测是指利用来自不同传感器的数据特征，并整合这些特征以实现互补，从而实现3D目标检测。以前的多模型方法可以通过融合粗略地分为三类，即点级方法、特征级方法和基于BEV的方法。点级和特征级通常利用图像特征来增强LiDAR点或3D目标建议。基于BEV的方法有效地将LiDAR和相机的表示统一到BEV空间中。尽管BEVFusion实现了高性能，但它们通常在nuScenes等干净数据集上进行测试，忽略了现实世界的复杂性，特别是特征错位，这阻碍了它们的应用。

详解GraphBEV

为了解决之前基于BEV的方法中的特征未对齐问题，提出了一个鲁棒的融合框架，名为GraphBEV，如图2所示。从不同的传感器（包括LiDAR和相机）获取输入，我们首先应用特定于模态的编码器，Swin-Transformer作为相机编码器，Second作为LiDAR编码器，以提取他们各自的特点。然后，通过我们提出的LocalAlign模块将相机特征转换为相机BEV特征，旨在减轻先前基于BEV的方法在相机到BEV过程中由LiDAR和相机之间的投影误差引起的局部未对齐。然后沿轴压缩LiDAR特征，将3D特征表示为2D LiDAR BEV特征。接下来，我们提出了一个GlobalAlign模块，可以进一步减轻不同模式之间的全局错位，包括LiDAR和相机BEV特征。最后，我们附加检测头来完成3D目标任务。我们的基线是BEVFusion，其中我们详细介绍了下面的LocalAlign和GlobalAlign模块。

LocalAlign模块

为了便于将相机特征转换为BEV特征，BEVFusion采用基于LSS的方法，例如BEVDepth利用LiDAR到相机提供投影深度，从而实现深度和图像的融合特征。在相机到BEV的过程中，BEVFusion和BEVDepth在LiDAR到相机投影提供的深度信息准确可靠的假设下运行。然而，他们忽略了现实场景中固有的复杂性，其中激光雷达和相机之间的大多数投影矩阵都是手动标定的。这种标定不可避免地会引入投影误差，导致深度失准——周围邻居的深度被投影为像素的深度。这种深度未对准会导致深度特征不准确，从而导致多视图转换为BEV表示期间出现未对齐。鉴于基于LSS的方法依赖于像素级特征的深度估计，细节不准确，这会导致相机BEV 特征内的局部未对齐。这强调了确保BEVFusion内精确深度估计的挑战，并强调了解决投影误差的稳健方法的重要性。

研究提出了一个LocalAlign模块来解决局部未对齐问题，其流程如图3所示。具体来说，LiDAR到相机提供投影深度，定义为，其中表示批量大小，表示多视图数量（nuScenes中为6个），H和W分别是视图的高度和宽度图像。LiDAR到相机的投影将3D点云映射到图像平面上，从中我们可以获得投影像素的索引，定义为，其中指的是投影到像素上的点数，2表示像素坐标，如下所示。

式中， , , 为LiDAR点的三维位置， , 为对应的二维位置，为其在图像平面上的投影深度，K为相机固有参数， , 为激光雷达相对于相机参照系的旋转和平移，表示下采样导致的比例因子。

采用KD-Tree算法来获取投影像素的邻居索引，定义为

，其中Kgraph表示每个投影像素的邻居数量。算法（1）概述了该过程。值得注意的是，我们简化了KDTree算法的流程。然后，我们通过索引获得周围邻居深度

与。然后和同时进入Dual Transform模块进行深度特征编码。和的形状在输入Dual Transform模块之前分别修改为和

。该模块由简单的组件组成，包括卷积层、批量归一化和ReLU激活，如图3所示。该过程的结果是双深度特征，表示为，其形状为

。相机编码器从FPN输出多尺度图像特征，包括

用于更丰富的语义信息，另一个用于降低分辨率H/16、W/16。本项研究选择使用分辨率为H/8 、W/8 的特征，因为它的语义内容更全面。

算法1：Graph for Finding Neighbors

GlobalAlign模块

在现实世界中，由于激光雷达和相机传感器之间的标定矩阵不一致而导致的特征不对齐是不可避免的。虽然LocalAlign模块减轻了相机到BEV过程中的局部不对齐问题，但相机BEV特征中可能仍然存在偏差。在LiDAR-camera BEV融合过程中，尽管处于相同的空间域，但由于视角转换器的深度不准确以及LiDAR BEV和camera BEV特征之间的全局偏移忽略，导致了全局不对齐。

为了解决上述全局不对齐问题，我们引入了GlobalAlign模块，使用可学习的偏移量来实现全局多模态BEV特征对齐。如图2和图4所示，我们使用干净的数据集(如nuScenes)进行训练，其偏差最小，可以忽略不计。有监督信息是由LiDAR和相机BEV特征融合卷积后得到的特征派生出来的。在训练过程中，引入全局偏移噪声，并采用了可学习的偏移量。在LiDAR分支中，LiDAR特征沿LAlign MM BEV CBR-module Offset DeformBEV z轴被平坦化，形成LiDAR BEV特征，定义为

。最初，我们连接和以获得融合的BEV特征，表示为

。随后，经过卷积运算，得到一个新的融合特征，表示为

。值得注意的是，将在训练过程中用作监督信号。

如图4所示，将随机偏移噪声引入的相机维度，以获得新的噪声特征

，模拟源自相机BEV特征的全局未对准问题。值得注意的是，LiDAR BEV特征是直接扁平化的，因此更加准确。然后，将输入到MM-Align模块中进行全局偏移学习。通过CBR模块进行基本卷积运算处理以学习偏移量，定义为，其中2指偏移坐标。随后，LiDAR BEV特征和进行网格采样以生成新的变形权重，定义为

。网格采样的目的是利用偏移量进行 LiDAR BEV特征的空间变换，并通过可学习的偏移动态调整以比标准卷积运算更灵活地捕获空间依赖性。然后，乘以LiDAR BEV特征来动态调整特征，然后通过CBR模块进行标准卷积运算，最终得到输出Deform BEV ，定义为

最后，在训练过程中，我们使用前面提到的来监督，并使用LAlign进行监督，如下所示：

其中，表示元素总数，