专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

北大&清华开源Key-Grid：全新语义一致3D关键点！高精度点云配准，实现SE(3)不变性！

3DCV · 公众号 · · 2024-11-04 07:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Key-Grid: Unsupervised 3D Keypoints Detection using Grid Heatmap Features

作者：Chengkai Hou, Zhengrong Xue, Bingyang Zhou, Jinghan Ke, Lin Shao, Huazhe Xu

机构：Shanghai Qizhi Institute、Tsinghua University、Peking University、The University of Hong Kong、University of Science and Technology of China、National Unversity of Singapore、Shanghai AI Lab

原文链接：https://arxiv.org/abs/2410.02237

代码链接：soon

1. 导读

具有语义一致性的三维关键点检测广泛应用于许多场景，如姿态估计、形状配准和机器人。目前，大多数无监督的三维关键点检测方法都集中在刚体物体上。然而，当面对可变形物体时，它们识别的关键点不能很好地保持语义一致性。在本文中，我们介绍了一种新颖的无监督关键点检测器Key-Grid，用于刚体和可变形物体，这是一个自动编码器框架。编码器预测关键点，解码器利用生成的关键点来重建对象。与之前的工作不同，我们利用信息中识别的关键点来形成3D网格特征热图，称为网格热图，用于解码器部分。网格热图是一个新概念，它表示在三维立方体空间中均匀采样的网格点的潜在变量，这些变量是网格点和由关键点对连接的骨架之间的最短距离。同时，我们将来自编码器每一层的信息合并到解码器部分。我们在一系列基准数据集上对Key-Grid进行了广泛的评估。Key-Grid在关键点的语义一致性和位置准确性方面达到了最先进的性能。此外，我们证明了关键网格对噪声和下采样的鲁棒性。此外，通过将关键点网格推广到SE(3)不变骨架，我们实现了关键点的SE(3)不变性。

2. 引言

通过一组3D关键点来表示物体，是压缩和理解3D物体最流行且最直观的方法之一。3D关键点有效地展现了其效用，促进了包括姿态估计、形状配准、计算机视觉中的物体跟踪以及各类机器人操作任务在内的多项下游任务的成功。

为了使检测到的关键点尽可能强大且易于获取，研究领域目前正集中于3D点云上语义一致关键点的无监督学习。语义一致性的含义通常有两方面：关键点应位于物体的语义显著部位；同时，即使在不同3D物体实例间存在较大形状变化的情况下，它们也应在同一类别内保持一致的对齐。为了实现这些目标，先前的工作通常采用自编码器框架来促进自监督训练，其中作为关键点预测器的编码器是可泛化到形状变化的骨干网络，而解码器则根据预测的关键点重建输入形状。由于神经网络通常更擅长压缩而非生成，因此该流程的主要挑战在于仅从少量估计的关键点重建整个点云。因此，最先进（SOTA）的检测器侧重于利用3D结构的不同先验（例如，Skeleton Merger中的“骨架”和KeypointDeformer中的“笼子”），以便仅通过检测到的关键点的信息就能更合理地近似3D物体形状。

在刚体物体的形状变化下保持语义一致性已经颇具挑战性（例如，ShapeNetCoreV2数据集中的物体），如果考虑到可变形物体，则更具挑战性。例如，在检测裤子的关键点时，如果检测到的一个关键点位于裤腿之一上，则希望该关键点在裤子折叠过程中能跟随裤腿的运动。请注意，由变形引起的形状变化如此剧烈，以至于甚至物体的轮廓也已完全改变，这表明关键点的空间和几何结构发生了偏移。尽管存在难度，但随着机器人中对可变形物体操作的兴趣日益增长，以及计算机视觉中大规模可变形物体数据集[49; 6]的出现，开发在面对可变形物体时同样有效的关键点检测器变得愈发重要。推荐课程：聊一聊经典三维点云方法，包括：点云拼接、聚类、表面重建、QT+VTK等。

在本文中，我们提出了Key-Grid，这是一种针对3D点云的无监督关键点检测器，旨在刚体和可变形物体形状变化下实现语义一致性。根据普遍做法，Key-Grid使用了自编码器框架。为了应对变形带来的关键点几何结构可能发生的偏移，我们提出将预测的关键点的信息嵌入到密集的3D特征热图中。更具体地说，我们首先以3D数组的形状均匀采样大量网格点。然后，我们通过计算网格点到所有关键点对连接线（即关键点的“骨架”）的最短距离，并将其乘以连接线的权重，从而为每个网格分配一个特征。最后，当解码器尝试重建点云时，会从密集网格特征热图中提取从粗到细的特征，其中提取的点坐标与编码器PointNet++模块中的分层点集一致。直观上，网格热图可以视为“骨架”的密集扩展，其中未定义的空白空间被平滑地外推。在功能上，网格热图构成了整个3D空间中的连续特征景观，为物体提供了更丰富且更稳定的几何描述。这在物体经历剧烈形状变化（如布料变形）时可能至关重要。

3. 效果展示

在帽子和长裤类别物体下落和拖动过程中的不同方法。(a)和(b)：帽子在下落和拖动形变过程中的关键点检测。(c)和(d)：长裤在下落和拖动形变过程中的关键点检测。我们用线连接相同颜色的关键点，表示物体形变过程中相同关键点的位置变化。

在折叠衣物、Deep Fash3D V2数据集和SUN3D数据集上检测到的关键点。(a)和(b)：衣物折叠过程中通过不同方法识别的八个关键点。线条连接相同颜色的关键点，表示这些关键点在形变过程中的位置变化。(c)：折叠衣物上的网格热图和骨架结构。在骨架结构中，我们使用紫色点连接通过SM（一种方法或模型）识别的关键点以构建骨架。在网格热图中，我们使用颜色表示D(p)的值，黄色表示较小的值。黄色点捕捉了折叠衣物的几何结构。(d)：在Deep Fash3D V2数据集和SUN3D数据集上，Key-Grid检测到的关键点。

4. 主要贡献

从实验上看，结果表明，Key-Grid不仅在流行的ShapeNetCoreV2数据集中的刚体物体上取得了SOTA性能，而且在最近提出的ClothesNet数据集中，对于具有下落和拖动变形的物体，分别比先前的SOTA高出8.0%和9.1%。同时，Key-Grid对噪声或下采样操作具有鲁棒性。此外，我们还表明，当与USEEK框架集成时，Key-Grid可以轻松扩展为SE(3)-等变版本。我们致力于公开相关代码。

5. 方法

我们提出了Key-Grid，这是一种基于自编码器架构的3D点云无监督关键点检测器。图2展示了Key-Grid的概览。在以下部分中，我们对Key-Grid的关键组成部分进行了详细解释：一个预测输入点云中关键点位置的编码器；一个网格热图，是一个3D特征图，通过计算3D立方体空间中均匀采样点到由关键点对生成的“骨架”的最短距离来捕获可变形物体的几何结构；一个解码器，利用网格热图和编码器每一层中的信息来重建点云。

6. 实验结果

对于ShapeNetCoreV2数据集，我们采用Key-Grid和其他基线来检测十个关键点，并使用DAS和mIoU评估它们在表1中13类刚体物体上的性能。对于具有直线几何结构的物体，如“飞机”、“船只”、“小刀”和“吉他”，由连接关键点形成的骨架可以轻松地表示其几何结构，这就是为什么在mIoU指标上，SM在这些类别上优于Key-Grid。然而，Key-Grid在这些类别上的性能同样优异，与其他基线相比，在DAS和mIoU上均获得了更高的平均分。此外，我们在表3中基于mIoU指标，展示了各种监督网络和自监督方法，以在KeypointNet数据集上与Key-Grid进行比较。我们训练了几种标准网络，包括PointNet、SpiderCNN和PointConv，以监督的方式预测关键点概率。我们可以观察到，与其他自监督方法相比，Key-Grid在关键点定位方面表现出了更高的准确性，并且优于一些使用PointNet和SpiderCNN作为骨干的监督方法。

7. 总结

在本文中，我们提出了Key-Grid，它可以检测刚体和可变形物体的关键点。它利用检测到的关键点构建网格热图，并将其融入点云重建过程。我们在多个数据集上评估了关键点的质量，并分析了Key-Grid的鲁棒性。同时，我们将Key-Grid嵌入USEEK框架中，以生成SE(3)-等变关键点。大量实验表明，Key-Grid能够检测到具有高度语义一致性和精确位置的关键点。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

「 3D视觉从入门到精通」知识星球

「3D视觉从入门到精通」知识星球