0. 这篇文章干了啥?
六自由度(6-DoF)目标姿态估计在各种应用中具有重要意义,这些应用包括增强现实、机器人操作和自动驾驶等。由于光照和遮挡的变化,不同姿态的对象在不同视角下的外观可能会有很大差异,这给从单一彩色图像中估计6-DoF对象姿态带来了巨大挑战。
基于学习的早期阶段方法通常一次性估计6-DoF姿态。Yu等人提出使用卷积神经网络直接回归对象中心和距离以及旋转分量。而更近期的工作则提出首先估计观测图像与对象模型之间的2D-3D对应关系,然后使用PnP算法求解对象姿态。这些一次性方法的性能通常受到网络容量的限制,并且容易受到不良条件(如光照变化和遮挡)的影响。
近期表现最出色的方法还包含姿态细化过程,这极大提升了性能。其中一些框架依赖于深度传感器,并使用ICP算法来细化姿态。为了避免昂贵的深度传感器,Li等人和Manhardt等人率先开展了基于RGB的姿态细化。在细化过程中,这些方法首先根据粗略的姿态估计来渲染一个参考彩色图像。然后,将渲染的图像与观测到的图像一起输入到卷积神经网络(CNN)中,以直接预测残差姿态来细化粗略的姿态。虽然这些方法在基于大量训练数据的理想场景中表现良好,但在实践中姿态回归变得不那么稳定。最近,Iwase等人将对象姿态细化表述为一个基于特征对齐的优化问题,并报告了显著的性能提升。在他们的工作中,使用神经网络对3D模型的编码特征根据姿态参数投影到2D图像平面上。然后,通过将投影的特征与观测到的目标图像特征进行对齐来进行姿态优化。由于姿态优化依赖于像素级特征差异的梯度,基于特征对齐的方法仅适用于帧间姿态变化较小的情况,并且在初始姿态错误时不够鲁棒。此外,Iwase等人在遮挡处理方面的设计仍然有限,这可能限制了其应用范围。
在这项工作中,我们提出了一种递归对象姿态细化框架,称为RNNPose。与基于特征对齐优化姿态的RePose不同,我们根据精心设计的RNN估计的对应关系场来制定对象姿态优化。鉴于RNN的广泛感受野和几个提出模块的增强功能,RNNPose能够处理显著的初始姿态错误和遮挡。在细化之前,根据初始姿态估计来渲染对象的参考图像。我们的细化模块基于该渲染图像和观测图像来细化初始姿态。为了增加对错误初始姿态的容忍度,我们在递归框架内执行细化,其中姿态优化被制定为基于估计对应关系场的非线性最小二乘问题。在每个递归迭代中,都会估计渲染图像和观测图像之间的密集对应关系,然后优化对象姿态以使其与对应关系场估计保持一致。我们的对应关系估计架构受到最近的光流估计技术[19]、[20]的启发,该技术被集成到我们的姿态优化中并反复使用。为了适应我们的任务,即无纹理对象和光照变化无处不在的情况,我们还在每个递归迭代中基于当前优化的姿态,进一步包括了一个对应关系场校正步骤。通过强制刚性变换约束来校正不一致的对应关系。校正后的对应关系场也用于初始化下一个递归迭代,以进一步提高鲁棒性。
为了处理遮挡问题,我们引入了一个基于3D-2D的混合网络,该网络通过对比损失进行训练,为3D对象模型和观测到的2D图像生成独特的逐点描述符。基于学习到的描述符,为每个估计的对应点对构建一个相似度得分,用于在姿态优化过程中降低不可靠对应的权重。姿态优化通过可微分的Levenberg-Marquardt(LM)算法进行,以实现端到端的训练。
下面一起来阅读一下这项工作~
1. 论文信息
标题:RNNPose: 6-DoF Object Pose Estimation via Recurrent Correspondence Field Estimation and Pose Optimization
作者:Yan Xu , Kwan-Yee Lin , Guofeng Zhang , Xiaogang Wang , and Hongsheng Li
机构:香港中文大学、浙江大学
原文链接:https://ieeexplore.ieee.org/document/10416758
代码链接:https://github.com/DecaYale/RNNPose.
2. 摘要
从单目图像中估计6自由度(6-DoF)物体姿态是一个具有挑战性的问题,通常需要进行后细化过程以实现高精度估计。在本文中,我们提出了一种基于循环神经网络(RNN)的对象姿态细化框架,名为RNNPose,该框架对错误的初始姿态和遮挡具有鲁棒性。在循环迭代过程中,对象姿态细化被表述为一个基于估计的对应场(在渲染图像和观测图像之间)的非线性最小二乘问题。然后,通过可微分的Levenberg-Marquardt(LM)算法解决该问题,从而实现端到端训练。在每次迭代中,交替进行对应场估计和姿态细化以改善对象姿态。此外,为了提高对遮挡的鲁棒性,我们引入了一种基于3D模型学习描述符和观测到的2D图像的一致性检查机制,该机制在姿态优化过程中降低了不可靠对应关系的权重。我们在几个公共数据集上评估了RNNPose,包括LINEMOD、Occlusion-LINEMOD、YCB-Video和TLESS。我们展示了在场景中对严重杂波和遮挡的先进性能和强大鲁棒性。广泛的实验验证了所提方法的有效性。此外,基于RNNPose的扩展系统成功泛化到多实例场景,并在TLESS数据集上实现了顶级性能。
3. 效果展示
在遮挡LINEMOD数据集上可视化我们的姿态估计(第一行),以及在姿态优化过程中降低不可靠对应权重的相似性记分图(第二行)。对于姿态可视化,白色方框表示错误的初始姿态,红色方框由我们的算法估计,地面实况方框为蓝色。这里,用于姿态精化的初始姿态最初来自PVNet,但添加了用于鲁棒性测试的显著干扰。
我们的6-DoF物体姿态估计系统的每个阶段的输出可视化。1-3列分别展示了检测结果、我们估计的初始姿态和RNNPose的最终姿态精化结果。更好地用彩色观看。
4. 主要贡献
我们的贡献总结如下:
1)我们提出了一个基于RNN的6自由度姿态细化框架,该框架对较大的初始姿态误差和遮挡具有鲁棒性。在递归迭代中,基于估计的对应关系场将姿态优化问题建模为非线性最小二乘问题。同时,通过优化后的姿态对对应关系场进行校正和改进,以提高鲁棒性。
2)为了处理遮挡问题,我们引入了一个3D-2D混合网络来学习逐点描述符,这些描述符用于在姿态优化过程中降低不可靠对应估计的权重。
3)我们基于这个姿态细化框架构建了一个独立的系统,该系统能够高效地处理场景中同一类别的多个实例。
4)我们在LINEMOD、Occlusion LINEMOD和YCB-Video数据集上取得了新的最先进性能。我们的代码已公开,可在https://github.com/DecaYale/RNNPose上访问。
5. 基本原理是啥?
给定一个观测到的对象图像Iobs、一个初始对象姿态估计Pinit和对象的CAD模型M作为输入,一个6自由度(6-DoF)姿态细化系统旨在进一步改进对象姿态估计。在本文中,我们提出了一种递归姿态细化方法,称为RNNPose,该方法对错误的初始姿态和遮挡具有鲁棒性。我们的方法基于渲染管线,并可能包含多个渲染周期。
在第一个渲染周期开始时,根据初始姿态Pinit(通过任何直接方法估计得出)使用对象的CAD模型渲染参考图像Iref。然后,将渲染的参考图像、观测到的目标图像和CAD模型的顶点编码为高维特征,这些特征将用于后续姿态细化模块中估计对应关系(在渲染图像和观测图像之间)。姿态细化模块构成了我们的主要贡献,我们基于对应关系估计制定了一个优化问题。我们将对应关系场估计和姿态细化集成到一个递归框架中,以提高鲁棒性和效率。为了处理遮挡,我们为3D对象模型和观测图像生成逐点的独特描述符,使用3D-2D混合网络来在姿态优化过程中降低不可靠对应关系的权重。在每次几个递归迭代之后,使用当前优化的姿态重新渲染参考图像Iref,以减小下一周期中姿态与目标之间的差距。
6. 实验结果
我们在LINEMOD、Occlusion LINEMOD和YCB-Video数据集上与前沿方法进行了比较。
对于LINEMOD数据集,我们与最近的姿态细化方法RePOSE、DPOD和DeepIM以及一些直接估计基线方法进行了比较。表IV包含了比较结果,我们取得了最先进的性能。有趣的是,当使用PoseCNN作为初始姿态生成器时,我们的平均性能略优于使用PVNet,尽管PVNet的姿态准确性如表IV所示要好得多。这一现象揭示了我们的系统对错误初始姿态的良好容忍度。为了测试我们对更大初始姿态错误的鲁棒性,
我们还在Occlusion LINEMOD数据集上进行了比较。如表V所示,我们以显著的优势(51.6% vs 60.65%)超越了前沿方法,这体现了系统对遮挡的鲁棒性。们的系统即使在高度遮挡的场景中也能处理大的初始姿态错误。
我们进一步在YCB-Video数据集上评估了RNNPose。我们使用不同的方法作为姿态初始化器,包括PoseCNN、GDR-Net和SO-Pose,以测试RNNPose的通用性。RNNPose在这个大规模数据集上仍然表现良好。实验结果如表VII所示。我们始终能从其他现成的方法中改进初始姿态,并达到更高的平均准确率。此外,当采用相同的姿态初始化方法,即PoseCNN时,我们的方法显著优于先前的细化方法DeepIM和RePose。
7. 总结
我们提出了一个用于6自由度(6-DOF)对象姿态细化的递归框架。基于渲染图像和观测图像之间的估计对应关系场,我们为姿态优化构建了一个非线性最小二乘问题。为了处理遮挡,我们包含了基于描述符的一致性检查来降低不可靠对应关系的权重。我们的方法能够鲁棒地处理错误的姿态初始化和严重的遮挡,并在公共数据集上达到了最先进的性能。
人类可以轻松识别两个不同帧或不同模态中对象的对应关系,但通常难以直接准确地估计它们之间的姿态差异。我们的框架致力于利用网络的学习能力进行2D-2D和2D-3D对应关系识别,而将姿态优化留给数学来提高鲁棒性。尽管本文主要关注刚性对象姿态估计,但我们希望我们的发现也能启发定位、里程计、人体姿态建模等领域的研究人员,其中6自由度姿态也是一个重点。
尽管我们的方法具有鲁棒性,但不可否认的是,与其他许多工作类似,我们的方法仍然局限于已知对象。在未来,我们计划扩展我们的方法以处理未知对象,以实现更好的通用性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉工坊知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉工坊官网:
www.3dcver.com
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、
BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、
无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划
、
LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、
MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等
。
▲长按扫码学习3D视觉精品课程