专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

有没有近期开源好用的点云配准算法？

计算机视觉工坊 · 公众号 · · 2024-11-12 07:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Equi-GSPR: Equivariant SE(3) Graph Network Model for Sparse Point Cloud Registration

作者：Xueyang Kang, Zhaoliang Luan, Kourosh Khoshelham, Bing Wang

机构：KU Leuven、The Hong Kong Polytechnic University、The University of Melbourne、Queen Mary University of London

原文链接：https://arxiv.org/abs/2410.05729

代码链接：https://github.com/alexandor91/se3-equi-graph-registration

1. 导读

点云配准是三维对齐和重建应用的基础任务。虽然传统的和基于学习的配准方法都取得了成功，但利用点云数据的内在对称性，包括旋转等方差，还没有得到足够的重视。这阻碍了模型的有效学习，导致需要更多的训练数据并增加了模型的复杂性。为了解决这些挑战，我们提出了一个图神经网络模型，通过基于SE(3)消息传递的传播嵌入了局部球面欧几里德3D等方差特性。我们的模型主要由描述符模块、等变图层、匹配相似性和最终回归层组成。这种模块化设计使我们能够利用稀疏采样的输入点，并通过自训练或预训练的几何特征描述符容易地初始化描述符。在3DMatch和KITTI数据集上进行的实验显示，与最先进的方法相比，我们的模型具有令人信服的稳健性能，同时模型复杂性保持相对较低。

2. 引言

点云配准通常涉及构建稳健的几何特征描述符，以及后续的复杂匹配过程来预测特征对应关系。然而，这些从原始点云中建立的对应关系往往具有较高的外点（不匹配点）与内点（匹配点）比例，从而导致显著的配准误差或完全失败。为了提高配准过程的鲁棒性，PointDSC显式地计算局部特征的空间一致性，并评估跨两帧的成对3D几何特征描述符相似性，以从对齐优化过程中消除外点。其他方法，如深度全局配准（DGR），将对应关系预测视为分类问题，利用输入点云对的连接坐标，并采用可微优化器进行姿态细化。尽管这些模型在公共数据集上表现有效，但其训练需要准确的对应关系监督，这需要复杂的点对点搜索过程，而该过程特别容易受到大量外点的影响。

由指定范围内的关键点邻域导出的几何特征描述符通常会忽略数据的潜在几何拓扑，如点之间的全局连通性。这种疏忽导致特征描述符缺乏SE(3)旋转等变性，从而阻碍了旋转等变和不变特征的有效且稳健的学习。最近引入的RoReg模型采用旋转引导的检测器来增强旋转一致性匹配，并将其与RANSAC算法结合用于姿态估计。然而，它存在计算需求高和处理速度降低的问题。这凸显了需要更高效的旋转等变模型架构来显著提升配准性能。

3. 效果展示

为解决这些挑战，我们提出了一种新方法，该方法利用基于图卷积的模型来联合学习SE(3)等变特征，从跨两帧稀疏采样点提取的特征描述符开始。我们提出的针对稀疏点云配准的SE(3)等变图网络模型如图1所示。与Transformer和基于CNN的模型不同，我们的图架构能够捕获点云的拓扑和几何特征，与其他提出的几何描述符类似，通过数据对称性，促进了精细粒度的刚性旋转等变特征表示的学习，从而实现更稳健和一致的点云配准。

4. 主要贡献

本研究的主要贡献如下：

——引入等变图模型，以促进邻域特征聚合和从学习的几何描述符中进行的SE(3)等变坐标嵌入，用于点云配准。

——在隐式特征空间内实现了一种新的匹配方法，该方法基于相似性评估和低秩特征变换（LRFT），无需显式点对应关系监督和耗尽的搜索。

——开发了一种基于矩阵秩的特定正则化器，使模型能够自动识别并缓解对应关系外点的影响，从而增强配准过程的鲁棒性。推荐课程：聊一聊经典三维点云方法，包括：点云拼接、聚类、表面重建、QT+VTK等。

5. 方法

我们的配准过程始于从下采样的点云中提取特征描述符。通过等变图卷积层，将等变性整合到特征中。随后，通过基于低秩的约束，将成对图中的特征数量聚合为更少的数量。最后，计算两帧成对特征之间的相似性，以进行相对变换预测。模型的详细图示如图2所示。我们的模型输入包括来自源帧的N个点X = [x1, ..., xN] ∈ N × R3，以及来自目标帧的N个点Y = [y1, ..., yN] ∈ N × R3，其中xi ∈ R3和yj ∈ R3形成对应关系(i, j)。重要的是，为了便于后续的相似性搜索，每帧中点的坐标会根据从点位置到传感器帧中心os的射线长度||r(t)||2按降序重新排列。为了训练期间的数值稳定性，源扫描被归一化为规范帧，目标扫描则相对于源帧进行变换，从而使模型能够预测从源帧到目标帧的相对变换。

6. 实验结果

7. 总结 & 未来工作

我们引入了一个端到端模型，该模型利用预训练的特征描述符，或者直接从两帧的原始扫描点中学习，通过图层整合等变嵌入、低秩特征变换和相似性得分计算。在室内和室外数据集中的验证结果证实了我们所提模型的优越性能。消融研究进一步证实了模型设计的合理性。值得注意的是，该模型的延迟表现证明了其在视觉里程计中的潜在应用价值。未来的工作可以探索通过图注意力层或池化层使该框架对输入顺序具有置换不变性，并可能整合额外的传感器模态，以应对动态挑战。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

「 3D视觉从入门到精通」知识星球

「3D视觉从入门到精通」知识星球 ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云