专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

CV-MOS 结合RV和BEV残差图,运动分割的跨视角模型 !

智驾实验室 · 公众号 · · 2024-09-12 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

自动驾驶中，准确区分静态和动态物体对于自动驾驶系统至关重要。在进行运动物体分割（MOS）任务时，有效地利用物体的运动信息以提高动态物体的识别能力是一个主要挑战。

以前的方法要么使用范围视图（RV）要么使用鸟瞰视图（BEV）残差图来捕捉运动信息。

与传统方法不同的是，作者提出将RV和BEV残差图结合起来，以共同利用运动信息的潜力。因此，作者引入了CV-MOS，这是一个跨视图的运动物体分割模型。创新之处在于，作者通过捕获BEV和RV残差图的运动信息，从范围图像中生成语义特征，为运动分支提供动态物体引导。

作者直接且唯一的解决方案最大限度地利用了范围图像、RV和BEV残差图，显著提高了基于激光雷达的MOS任务的性能。作者的方法在SemanticKit数据集的验证和测试集上实现了最优的IoU（%）分数，分别为77.5%和79.2%。

特别地，CV-MOS在各种数据集上展示了最先进的表现。

CV-MOS的实现可参见https://github.com/SCNU-RISLAB/CV-MOS。

I Introduction

对于自主驾驶系统，移动目标在地图上留下的痕迹严重削弱了动态环境下映射和本地化任务的精确性[1]。准确识别这些目标对完成各种下游任务有很大帮助，如避障[2]、同时定位与建图3[3]和规划[4]。

传统语义分割任务的研究已经取得了很大进展。然而，语义分割任务只能处理静止目标，无法处理移动目标。此外，由于点云的不规则性和稀疏性，MOS任务仍然面临挑战。本文遵循MOS任务的主流理论，利用基于投影的2D图像表示进行建模。采用投影和残差映射在点云的当前帧内分割移动目标。以前的投影方法主要分为两类：RV投影或BEV投影[14, 15]方法。

例如，MotionSeg3D[12]采用Salsanext[16]中提出的双分支框架，将语义信息从RV投影和运动信息从RV投影中编码。然而，由于RV投影不可避免的有遮挡和与范围相关的敏感性，这些方法在反投影过程中往往 suffer from边界模糊问题[15]。除了使用RV投影之外，有些方法使用BEV投影进行建模。MotionBEV[15]使用BEV投影将点云投影到2D图像上，并使用PolarNet[17]中提出的双分支框架进行建模。BEV投影提供了比RV投影更好的遮挡解决方案，如图2所示，但是随着距离的增加，MotionBEV[15]在表5中的性能变得较差[15]。

为了解决RV和BEV投影引起的信息损失问题，集成多个视角的投影数据可以更有效。这种方法比单视角投影更有优势。因此，作者提出了CV-MOS。CV-MOS的核心思想是同时利用BEV和RV投影在运动分支中得到预测结果(见图1)。作者主要使用运动特征作为主要特征，补充使用语义特征，从而从运动分支中捕获移动目标。在基于RV投影的传统双分支网络结构的基础上，作者引入了另一个BEV运动分支。这个分支使用BEV投影生成的残差图作为输入，编码并捕获BEV投影的运动信息。此外，这种BEV运动信息与RV运动信息相互融合。这可以使模型学习并与不同的观点的运动信息，从而增强模型对物体运动信息的理解。

作者的方法与MF-MOS[13]的相似之处在于，通过运动分支从残差图中捕获移动目标。不同的是，作者的CV-MOS将语义信息输入融合到两个不同的视角。作者引入了另一个运动分支来编码BEV的运动信息。这个运动分支在降采样过程中将与RV运动信息的残差图融合。这种融合有效地减轻了由于单视角投影导致的损失，从而提高了任务完成的性能。此外，作者引入了一个3D Spatial Channel Attention Module (SCAM)，它为运动分支提供额外的注意力指导，从而缓解了潜在的信息损失问题。

大量实验结果证明了作者的方法的有效性。利用CV-MOS强大的多视角运动信息表示能力，作者在SemanticKITTI-MOS数据集[11]上显著提高了性能。

总之，作者的贡献如下：

作者针对MOS任务直接捕捉运动信息，并提出了一个具有跨视角结构的运动关注网络CV-MOS：(i) 主要运动分支从残差图中捕捉运动特征；(ii) 运动分支进化为传统单分支结构，并具有来自不同视角的输入，允许从不同视角的残差图计算目标运动信息。

作者引入了一个SCAM来优化运动分支，减轻信息损失，并提高模型的推理速度。

该方法在SemanticKITTI-MOS数据集[11]的验证和测试集上获得了最高排名。此外，作者在各种基准数据集上进行了测试，以验证作者的方法具有强大的鲁棒性和优越的性能。

II Related Work

最早的方案利用了基于先验图的方法来检测移动目标，这种方法的优势在于不需要从数据中学习。然而，由于它依赖于同时定位与建图（SLAM）系统获取的先验地图和位姿信息，其实时应用受到限制。考虑到深度学习方法从历史数据中学习分布模式，因此，现在的主流方法是应用深度学习方法。

在深度学习方法中，一些基于点的方法直接模型化3D点以提取时空信息并提高精度。这些方法将多帧点云信息汇总，使用 Voxel 化对点进行聚合，并利用稀疏卷积从 Voxel 块中提取特征。建模后， Voxel 块被反投影到点以预测结果。然而，由于3D点云的高维稀疏性，这些方法往往存在高的训练成本和实时推理速度慢的问题。因此，近期越来越多的方法采用投影方法，利用2D图像的低维性显著降低计算成本和空间需求。本文将重点关注投影方法。这些方法可以广泛分为两种主要方法：基于RV投影和基于BEV投影的方法。

Methods Based On RV Projection

RV投影方法运用球面映射将3D点映射至2D空间。通过将点云投影至范围图像，LiDAR传感器的全分辨率数据得以保留，避免了空间损失。Chen等人[11]提出了一种名为LMNet的方法，利用范围图像和RV残差图来捕捉时空信息，并通过直接 ConCat 来对特征对齐。

然后提出了MotionSeg3D[12]作为改进版本，引入了双分支结构。它使用Salsanext[16]作为两个分支的编码器，同时编码语义和运动信息，将运动特征在编码过程中集成到语义特征中。RVMOS[24]也提出了一种多分支分割框架，将语义和运动信息集成在一起。与上述方法不同，MF-MOS[13]更注重运动特征的提取，这与作者的观点一致，并已成功添加了语义标签，取得了领先性能。

上述方法都利用了范围图像和RV残差图的空间-时间信息。但是，RV投影方法在反投影过程中可能会遇到边界模糊问题，并且对范围的变化敏感，这限制了这些方法的表现。

Methods Based On BEV Projection

与RV投影相比，BEV投影在场景内部呈现出更直观的物体运动和空间关系。BEV图像与范围图像相比，目标之间的重叠较少，从而在一定程度上解决了反投影过程中边界模糊的问题。因此，许多方法采用了基于BEV的方法。LiMoSeg [14]提出了一种基于BEV的方法，利用差分和残差计算两次连续帧之间的差异。此后，MotionBEV [15]引入了一个双分支网络，利用PolarNet [17]作为编码器，同时对来自BEV投影的运动和语义信息进行编码。此外，它采用基于窗口的方法生成BEV图像，显著提高了依赖于BEV投影方法的目标检测性能。然而，与范围图像不同，BEV图像对高度变化非常敏感，易于产生累积误差，导致在检测较小的目标（如人行道和自行车）时性能较差。因此，这些限制在一定程度上限制了这些方法的发展。

在点云研究的其他领域，采用跨视图方法的方法已被用于各种下游任务。[25，26]例如，在语义分割中，[26]使用 Transformer 作为编码器进行两个不同视图，并使用所提出的Word-Aligned模块进行特征融合。然而，在这些领域尚未探索用于MOS任务的类似方法。对于MOS，有效利用运动信息至关重要，其他领域的跨视图框架主要关注语义信息而非运动信息。因此，直接从其他领域应用跨视图技术可能不适合。

本文重新考虑了RV和BEV projections的缺点，并设计了一个跨视图网络模型，将BEV和RV残差映射的运动信息融合在一起，捕捉到来自运动分支的移动目标。

III Our Approach

在随后的部分中，作者将详细概述作者的CV-MOS。首先，作者将继续广泛介绍RV和BEV投影技术。这将涵盖将激光雷达点云数据投影到范围图像以及RV和BEV残差图上的方法。然后，作者将深入讨论所提出的CV-MOS的网络架构。

RV and BEV Projection

给定激光点云，其中每个点 (x, y, z) 的格式为 (x, y, z, e)，其中 (x, y, z) 表示相对于激光传感器的世界坐标系，而 e 表示回波激光的强度。

对于投影方法，首先必须将点云转换为图像以利用主要用于 2D 视觉识别的深度神经网络。在这里，H 和 W 分别表示投影图像的空间维度，而 C 表示通道数。作者详细介绍生成范围图像、RV 和 BEV 残差图的过程如下：

范围图像。 基于之前工作的设置 [11]，对于点云中的每个点 (x, y, z)，作者使用球坐标投影将其转换为范围图像，定义如下公式：

在此上下文中，(u, v) 表示图像的坐标，(h, w) 分别表示范围图像的高度和宽度。在这里，表示传感器的垂直视场，而表示每个点的范围。然后，作者可以使用 (u, v) 索引 3D 点云并将其坐标 (x, y, z)、范围 r 和强度 e 作为范围图像的五个通道。范围图像可以表示为公式 (2)。

(2)

RV 残差图。 作者生成 RV 残差图以利用连续激光扫描的时空信息。在获取点云的各个帧的范围图像后，作者可以使用帧间像素级方差计算得到过去 k 帧的残差图，如下所示： (3)

此外，作者进一步引入了 [13] 所提出的数据增强技术。作者利用多帧步长而不是单一帧步长来生成 RV 残差图。此外，作者以每次训练迭代选择一个而不是依赖固定的分布概率。

BEV 残差图。 生成 BEV 残差图的第一步是制作 BEV 图像。对于空间坐标系中的点 (x, y, z)，作者将其转换为极坐标。

根据第4式，

对于每个点，根据其极坐标将其分配到BEV图像相应的网格中：

其中，代表BEV图像中所有点，表示BEV图像的高度和宽度。和分别表示角度和径向范围。这些范围内的点将被保留为点云，而超出这些指定范围的点将被剔除。之后，根据生成的BEV图像，将创建BEV残差图。

作者采用MotionBEV [15]中的设置，使用时间窗口生成BEV残差图，以避免直接逐帧比较。作者保持两个相邻的时间窗口，分别为Q1和Q2，每个的时间窗口长度为。作者通过检查Q1和Q2中相应网格细胞的差距来生成BEV残差图。首先，作者将Q1和Q2的坐标系统转换为当前帧的坐标系统进行自补偿。然后，对于每个像素点和BEV图像像素点，像素点的表达式如下：

对于z的范围，作者将其设置在（-4，2）之间，因为这是移动目标（如行人和安全车辆）最常见的位置。作者将第1个和第2个BEV图像和相减，得到BEV残差图：

首先，作者检查Q1和Q2网格细胞的差距，得到BEV residual map。然后，作者根据极角范围生成角点图，以对目标物体进行有效约束。最后，作者基于生成的BEV图像和角点图进行后续分析。

在中，k表示第k个通道，表示在前k帧中作为当前帧的帧的运动信息。例如，如果生成了残差图，其中像素（x, y）具有[k_1, k_2, ...k_i]个通道，那么k_i表示考虑到前i帧作为当前帧的运动信息。每当新帧到达时，作者将时间窗口移动到下一个位置。每个帧在时间窗口内保持个周期，从而确保BEV运动特征具有一个长度为N的连续特征。

Network Structure

作者提出了一个新颖的双视图网络架构，如图3所示。CV-MOS的输入包括范围图像、RV和BEV残差图。为了探索MOS的运动信息，作者将传统的双分支网络结构修改为三分支结构，其中额外的运动分支用于编码BEV投影的运动信息。具体而言，本文提出的CV-MOS的贡献如下：

Iii-B1 The Cross-View Motion Branch Structure

作者已经设计了一种交叉视图运动分支结构，以取代传统的单视图运动分支结构。如图3所示，BEV和RV的运动信息被输入到不同的编码器中进行编码。编码后的BEV运动特征被输入到BEV运动分支，并与RV运动特征进行融合，以获得最终的移动特征。与传统的单视图运动分支编码相比，交叉视图运动分支结构可以更有效地利用运动信息，并减少因投影而引起的信息损失。

Iii-B2 The Cross-View Motion Features Encoding

有效利用运动信息对于MOS任务至关重要。编码这些运动信息主要分为两个关键部分：由RV投影计算得出的运动信息编码和由BEV投影计算得出的运动信息编码。下面介绍如何完成RV投影生成的运动信息的编码：

其中，表示矩阵的点积。等式中的输出结果是RV语义特征图和RV残差特征图的融合。

BEV投影生成的运动特征编码如下：

代表 Polarnet [17] 中提取的运动特征。在获得两个不同视图和中的运动特征后，可以进行交叉视图特征融合。

将各种视图集成在一起的过程如图4所示。这个过程的关键是如何获得转化矩阵（BEV到RV）。作者使用GFNET [25]中提出的几何校准方法进行对齐。其基本概念在于在两个视图之间建立几何变换矩阵。为了获得转换矩阵，作者首先利用反投影在范围图像的范围范围内生成一个对应于点云原点的索引矩阵：