专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
禽报网  ·  冻品•2-9\\局部单品继续跌100-300 ... ·  4 天前  
51好读  ›  专栏  ›  计算机视觉工坊

精度99.8!PTT:点云配准最新SOTA!

计算机视觉工坊  · 公众号  ·  · 2024-07-02 11:00

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 3DGS系列 计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

点云配准旨在确定用于对齐点云对的最佳变换,这是计算机视觉和机器人学中的基本问题,如3D对象检测、同时定位与地图构建(SLAM)。近年来,3D点表示学习的进步正推动点云配准从传统方法向基于学习的方法发展。最广为人知的传统方法是迭代最近点(ICP),它在建立对应关系和计算变换之间迭代。然而,当初始误差较大时,ICP及其变体容易陷入局部最小值。为了实现更高的配准精度,基于学习的方法整合了神经网络来分别提取逐点特征,并基于特征相似性建立对应关系。然而,点云之间的独立性在识别共同结构和提取独特特征时产生了障碍。基于学习的方法已经努力通过整合以处理排列不变性和捕获依赖关系而闻名的变换器模型来解决这些挑战。这些方法使得一个点云能够感知另一个点云并提取它们之间的上下文信息,从而增强了所提取特征的判别效力。然而,标准的注意力机制经常整合许多低相关性的点,这阻碍了其有效地为稀疏但重要的点分配注意力权重的能力。这种低效性导致有限的局部结构建模能力,并带来二次计算复杂度。

许多近期的研究已经深入探讨了点云处理的局部注意力机制,它们通过限制注意力到静态、预定义的模式上来修剪低相关性的点。点Transformer将注意力范围限制在局部邻域内,而VoTr通过引入局部窗口和步长扩张来修改注意力框架。然而,这些策略限制了它们动态地优先处理高相关区域的能力。此外,这些方法基于点之间的邻近性假设相关性,例如,空间上接近的点是相关的。在跨点云场景中,这样的假设通常是不准确的,从而降低了跨注意力机制中固定注意力模式的有效性。因此,在点云配准中,仍然存在一个基本需求,即开发一种能够编码关键局部结构同时降低计算复杂性的Transformer模型。

为了实现这一目标,我们提出了点树变换器(Point Tree Transformer,PTT),它能够专注于重要的局部结构,并在没有预定义注意力稀疏性的情况下实现线性计算复杂度。PTT建立在所提出的点树注意力(Point Tree Attention,PTA)模块的基础上,该模块驱动了被关注区域的层次收敛,并将空间粗粒度特征融入子点中以指导特征提取过程。在3DMatch、ModelNet40和KITTI数据集上进行的实验表明,我们的PTA机制在保持线性计算复杂度的同时,有效地提取了关键的局部结构。因此,我们的PTT能够准确、高效地对齐点云,优于现有最先进(SOTA)的方法。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Point Tree Transformer for Point Cloud Registration

作者:Meiling Wang, Guangyan Chen, Yi Yang, Li Yuan, Yufeng Yue

机构:北京理工大学、鹏城实验室

原文链接:https://arxiv.org/abs/2406.17530

2. 摘要

点云配准是计算机视觉和机器人学领域的一项基本任务。最近,基于Transformer的方法在该领域的发展已显示出增强的性能。然而,这些方法中使用的标准注意力机制经常整合许多低相关性的点,因此在稀疏但有意义的点上难以优先分配注意力权重。这种低效率导致了有限的局部结构建模能力和二次计算复杂度。为了克服这些限制,我们提出了点树Transformer(PTT),这是一种基于Transformer的点云配准新方法,它能够在保持线性计算复杂度的同时有效地提取全面的局部和全局特征。PTT以从粗到密的方式从点云中构建层次化特征树,并引入了一种新的点树注意力(PTA)机制,该机制遵循树结构,以促进所关注区域逐步收敛至显著点。具体而言,每个树层选择性地识别具有最高注意力分数的关键点子集。后续层将注意力集中在由所选点集的子点派生出的重要相关区域上。特征提取过程还结合了捕获高级语义信息的粗点特征,从而促进了局部结构建模和多尺度信息的逐步融合。因此,PTA使模型能够专注于关键的局部结构并推导出详细的局部信息,同时保持线性计算复杂度。在3DMatch、ModelNet40和KITTI数据集上进行的广泛实验表明,我们的方法优于最先进的方法。

3. 效果展示

一个直观的例子如图1(a)所示。在第一层中,查询点的注意力计算涵盖了所有关键点,从中选择了注意力分数最高的前S个(这里,S=2)点,以橙色突出显示。在第二层中,对于前一层(第一层)中查询点对应的子点,仅在前一层选定的S个对应键的子点之间计算注意力,从而跳过低相关点并降低计算复杂度。此外,还利用前一层导出的特征来指导子点的特征提取过程。这些过程在第三层中重复,使用了第二层中选择的前S个点。通过这种方式,PTA使我们的方法能够自适应地指定高相关位置作为关注区域,并专注于关键的局部结构。此外,PTA的动态注意力稀疏性消除了对预定义模式的需求,并且与跨注意力机制天然兼容。

点树注意力(PTA)的解释以及与标准转换器(ST)和点转换器(PT)的注意力机制的比较,以及用绿色点标记的点的注意力权重的可视化。(a)在我们的方法中,首先构建特征树,然后使用PTA来分层融合粗略特征,并将下一层的关注区域限制为具有最高注意力分数的前S个关键点的子点,跳过阴影区域,其中前S个关键点的位置以与查询相同的颜色突出显示。因此,(b)PTA可以专注于关键的局部结构,并自适应地关注相关区域。相比之下,ST考虑了许多低相关性的点,难以捕捉局部结构,而PT只是将注意力区域设置为预定义的模板,忽略了来自其他相关区域的信息。

配准结果的定性展示。

4. 主要贡献

• 本文通过将树结构融入Transformer模型,提出了PTT(Point Transformer Tree),使模型能够提取丰富的局部特征,并在学习到的关注区域内实现线性计算复杂度。

• 本文提出了PTA(Point Transformer Attention),以层次化和动态的方式指定高相关性的关键点,并沿着树结构组织点云,从而便于局部结构建模和多尺度信息聚合。

• 大量的实验表明,我们的方法在3DMatch、ModelNet40和KITTI数据集上均优于基线方法,并达到了SOTA(State-of-the-Art)性能。

5. 基本原理是啥?

点云配准的目标是估计一个旋转矩阵 ˆR ∈ SO(3) 和一个平移向量 ˆt ∈ R3,以将源点云 X = {x1, x2, ..., xM} ⊆ R3 与目标点云 Y = {y1, y2, ..., yN} ⊆ R3 对齐。

PTT的总体流程如图2所示。PTT首先使用核点卷积(KPConv)对点云X、Y进行下采样,得到更小的点集 ˜X, ˜Y,并提取逐点特征 F ˜X, F ˜Y。接着,树形Transformer编码器学习上下文信息,并提取具有丰富局部信息的特征 F ˜X, F ˜Y。然后,这些特征被用于在解码器中生成相应的点云 ˆY, ˆX 并预测重叠分数 ˆo ˜X, ˆo˜Y。最后,一个加权的Procrustes模块基于预测的对应关系 { ˜X, ˆY }, { ˜Y, ˆX } 和重叠分数 ˆo ˜X, ˆo˜Y 来估计最优变换 { ˆR, ˆt}。

树结构构建。为了鼓励注意力权重向有意义的点收敛,并逐步结构化点云,采用树结构来表示点云。构建3层树表示的直观过程如图3所示。具体来说,基于点云˜X和˜Y,分别构建Lτ层树τ ˜X和τ ˜Y,首先将点云划分为体素,然后将N个相邻的体素分层组合成一个体素。

点树注意力(Point Tree Attention,PTA)。为了捕获重要的局部结构并降低计算复杂度,我们引入了PTA来逐步指定关注的区域并对点云进行结构化。考虑一个一般的情况,其中给定两个不同点云的特征树 F ˜X_l 和 F ˜Y_l,其中 l = 1, 2, ..., Lτ。如图4所示,PTA从最粗糙的层开始执行全局注意力 MA(F ˜X_1, F ˜Y_1),MA(F ˜Y_1, F ˜X_1) 以获得平均注意力映射 M˜_X1 ∈ R(N_˜X_1 × N_˜Y_1),M˜_Y1 ∈ R(N_˜Y_1 × N_˜X_1) 和提取的特征 Φ ˜_X1 ∈ R(N_˜X_1 × D),Φ˜_Y1 ∈ R(N_˜Y_1 × D)。在下一层,PTA结合提取的特征 Φ ˜_X1,Φ˜_Y1 来指导特征提取过程,并基于注意力映射 M˜_X1,M˜_Y1 指定关注的区域,然后在指定的区域内计算注意力。这个过程使用共享参数迭代重复,直到达到最密集的层,获得富含相互信息的特征 Φ ˜_XL_τ 和 Φ˜_Y_Lτ。

6. 实验结果







请到「今天看啥」查看全文