TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF！高效感知多传感器融合，解决3D语义分割问题

AI生成未来 · 公众号 · · 2024-08-04 07:00

正文

点击下方 卡片 ，关注“ AI生成未来 ”

请加小助理 加入AIGC技术交流群

备注公司/学校+昵称+研究方向

论文链接：

https://ieeexplore.ieee.org/document/10541899

代码链接：

https://github.com/ICEORY/PMF

简介

用于 3D 语义分割的多传感器融合技术对于自动驾驶和机器人等许多应用的场景理解非常重要。例如，对于配备 RGB 摄像头和 LiDAR 的自动驾驶汽车，融合来自不同传感器的互补信息以实现稳健且准确的分割至关重要。然而，由于两种模态之间存在巨大差异，现有的基于融合的方法可能无法满足所需性能。作者研究了一种称为感知（Perception-aware）多传感器融合（PMF）的协作融合方案，以有效地利用两种模态的感知信息，即 来自 RGB 图像的外观信息和来自点云的空间深度信息 。首先使用透视投影将点云投影到相机坐标。通过这种方式，在 2D 空间中处理来自 LiDAR 和相机的输入，同时防止 RGB 图像的信息丢失。然后，提出了一个由激光雷达流和相机流组成的双流网络，以分别从两种模态中提取特征。提取的特征通过有效的基于残差的融合模块进行融合。此外，作者引入了额外的Perception-aware损失来衡量两种模态之间的感知差异。最后，所提出了 PMF 的改进版本，即 EPMF ，通过优化透视投影下的数据预处理和网络架构，更加高效有效。具体来说，跨模态对齐和裁剪，以获得严格的输入并减少不必要的计算成本。在透视投影下探索更高效的上下文模块，将 LiDAR 功能融合到相机流中，以提高双流网络的性能。

研究动机

现有的多传感器融合的方法主要使用球面投影将密集的2D图像特征提升到3D LiDAR坐标，并在稀疏LiDAR域中进行特征融合。然而，这些方法存在一个关键的限制： 由于点云非常稀疏，RGB 图像中的大部分外观信息在未投影到 LiDAR 坐标后会丢失 。例如，如图1（c）所示，图像中的汽车和摩托车因球面投影而变形。因此，现有的基于融合的方法很难从投影的 RGB 图像中捕获外观信息。

论文贡献

作者从以下几个方面扩展了之前的版本[1]。

1）提出跨模态对齐和裁剪（CAC）来解决点云和RGB图像的未对齐问题。

2）探索了点云不同分辨率的影响，并在不降低性能的情况下提高了方法的效率。

3）在更多基准数据集上采用了所提出的EPMF，并在极其稀疏的点云上展示了所提出方法的优越性能。

4）提供更多的消融研究来检验方法的有效性。

[1]Perceptionaware multi-sensor fusion for 3d lidar semantic segmentation. ICCV, 2021.

EPMF

如图4所示，EPMF包含三个组成部分：（1）具有跨模态对齐和裁剪的透视投影；（2）具有基于残差的融合模块的双流网络（TSNet）；(3)感知损失。EPMF方法首先使用透视投影将点云投影到相机坐标系。然后，使用包含相机流和激光雷达流的双流网络分别从两种模态中提取感知特征。相机流中的特征通过基于残差的融合模块融合到 LiDAR 流中。最后，将Perception-aware损失引入网络优化中。

数据预处理

在透视投影中，我们的目标是将点云从 LiDAR 坐标投影到相机坐标，以获得 2D LiDAR 特征。这里，C 表示投影点云的通道数。通过将第四列附加到来获得并计算相机坐标中的投影点 :

其中是激光雷达坐标到相机坐标的投影矩阵。通过附加第四个零行和列并设置从校正旋转矩阵扩展。

跨模式对齐和裁剪 如图4（a）所示，由于我们只关注点云的分割，直接将点云投影到相机的视图会导致不必要的计算成本。为了解决这个问题，文中引入了跨模式对齐和裁剪（CAC）。首先，将 RGB 图像和投影点云对齐，以找到多模态输入的重叠。然后，裁剪 RGB图像和投影点云以获得紧凑的输入：对于 RGB 图像，只保留包含点云的区域。对于投影点云，由于相机水平视场（FOV）之外的区域被其他相机覆盖，因此文中只保留相机水平视场内的点。在LiDAR传感器具有较大垂直FOV的情况下，可以将点云保留在图像之外。

EPMF的结构设计

由于图像和点云是不同模态的数据，因此很难使用单个网络来处理来自两种模态的两种类型的信息。作者提出了一个双流网络（TSNet），其中包含相机流和激光雷达流来分别处理来自相机和激光雷达的特征，如图4所示。这样，则可以使用为图像和点云设计的网络架构作为TSNet中每个流的主干。

双流网络设计 令