专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

ACCV 2024 Oral|具身智能破解‘打不开’难题，开关部件检测新SOTA

3D视觉工坊 · 公众号 · · 2024-12-24 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

1. 效果展示

MOPD可以对复杂场景下的可打开部位进行检测，并估计目标的运动轴和运动方向。

2. 论文信息

标题：Locate n' Rotate: Two-stage Openable Part Detection with Foundation Model Priors

作者：Siqi Li, Xiaoxue Chen, Haoyu Cheng, Guyue Zhou, Hao Zhao and Guanzhong Tian

机构：浙江大学、清华大学

原文链接：https://arxiv.org/abs/2412.13173

代码链接：https://github.com/lisiqi-zju/MOPD

3. 摘要

检测铰接物体的可打开部分对于智能机器人技术的下游应用至关重要，例如拉动抽屉。由于需要理解物体类别和运动，这项任务带来了多任务处理的挑战。大多数现有方法要么是特定类别的，要么是在特定数据集上训练的，缺乏对未知环境和对象的泛化能力。在本文中，我们提出了一种基于Transformer的可打开部分检测（OPD）框架，称为多特征可打开部分检测（MOPD），该框架结合了感知分组和几何先验，在性能上优于以前的方法。在框架的第一阶段，我们引入了一个感知分组特征模型，该模型为可打开部分检测提供了感知分组特征先验，通过交叉注意力机制增强了检测结果。在第二阶段，几何理解特征模型为预测运动参数提供几何特征先验。与现有方法相比，我们提出的方法在检测和运动参数预测方面都表现出更好的性能。

4. 算法解析

下图是MOPD的总体架构。上侧显示了整个网络，而下侧详细显示了解码器。 该模型使用三个编码器从图像中提取特征。编码器提取出的特征被传递到后面two-stage结构的解码器中。在分割解码器中，OPD特征和感知分组特征被连续交叉，以获得高分辨率掩模。同样，OPD特征和几何特征用于运动解码器。在语义分割解码器的所有FFN层中预测运动类型、部分类型和掩模，而在运动解码器的所有FFN层中预测对象姿态、原点和轴。

下图为我们的方法与相关研究在网络架构上的比较。我们的论文不仅提出了一种有效的架构，还论证了以下两点。 首先，引入正常和分割特征可以提高开放部分检测的预测性能。其次，将图像分割和运动参数预测的任务分为两个阶段可以提高预测结果。

5. 实验

下图展示了法向量特征的引入对模型的影响。在顶部，对MOPD中是否引入几何编码器获得的结果进行了比较。在底部，是 DSINE 的输出，我们用它来预训练几何编码器。通过几何特征的插入，模型校正了轴方向，使其更接近表面法线评估。这表明解码器确实利用了几何特征。在比较这两个模型时，我们可以观察到我们的模型在原点预测方面具有更好的精度，尤其是在两个模型的轴预测相似的情况下。这是因为RGB图片缺乏关于两个交叉表面角度的信息，这使得模型在轴靠近门和盖的边缘时无法提供三维坐标的准确预测。

下图展示了分割特征的引入对模型的影响。在顶部，对MOPD中是否引入感知分组编码器获得的结果进行了比较。在底部，是 EfficientSAM 的输出，我们用它来预训练编码器。该图表明我们的模型确实使用了预训练编码器。由于DETR是基于查询的模型，因此它偶尔会将两个不同的对象检测为单个实体。然而，通过利用EfficientSAM模型固有的细分功能，我们能够有效地减轻这些错误，并提高检测的整体准确性。

最优传输匹配策略： 传统的目标检测器通过预测一组建议的分类标签和回归偏移来进行检测。为了训练检测器，为每个候选框匹配目标是一个必要的步骤。大多数策略可能会导致每个ground truth在没有上下文的情况下单独进行次优候选框分配，因为将模糊的候选框分配给任何ground truth都可能会给其他ground truth带来有害的梯度。为了在一对多的情况下实现全局最优的分配结果，最优传输将标签分配表述为最优传输（OT）问题。具体来说，ground truth和候选框之间的成本仅由它们的成对分类成本定义。在正则化之后，找到最优分配方案就转化为求解最优运输计划，可以使用现成的Sinkhorn-Knopp迭代高效快速地解决。我们将这种分配策略命名为最优运输分配（OTA）。

6. 总结

可打开部分检测在涉及与铰接物体交互的应用中起着至关重要的作用。本文介绍了一种基于two-stage的transformer框架，该框架集成了感知分组和几何特征。在初始阶段，我们引入感知分组编码器，为可打开部分检测提供感知分组特征先验，从而通过交叉注意力机制改进检测结果。随后，在第二阶段，几何理解编码器提供几何特征先验，用于检测运动参数。最后，我们在匹配步骤中引入了运动成本，并结合最优运输模型进行训练，这显著提高了模型的性能。广泛的实验表明，我们的方法在泛化和性能上都优于以前的方法。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、