0. 论文信息
标题:Universal Features Guided Zero-Shot Category-Level Object Pose Estimation
作者:Wentian Qu, Chenyu Meng, Heng Li, Jian Cheng, Cuixia Ma, Hongan Wang, Xiao Zhou, Xiaoming Deng, Ping Tan
机构:Institute of Software, Chinese Academy of Sciences、University of Chinese Academy of Sciences、Hong Kong University of Science and Technology、Aerospace Information Research Institute, Chinese Academy of Sciences
原文链接:https://arxiv.org/abs/2501.02831
代码链接:https://iscas3dv.github.io/universal6dpose/
1. 导读
在计算机视觉和机器人应用中至关重要的物体姿态估计面临着未知类别多样性的挑战。我们提出了一种零镜头方法来实现类别级的6自由度物体姿态估计,该方法利用输入RGB-D图像的2D和3D通用特征来建立基于语义相似性的对应关系,并且可以扩展到看不见的类别,而无需额外的模型微调。我们的方法首先结合有效的2D通用特征来寻找类别内对象之间的稀疏对应,并获得初始粗略姿态。如果姿态偏离目标姿态很多,为了处理2D通用特征的对应退化,我们使用迭代策略来优化姿态。随后,为了解决由于类内对象之间的形状差异造成的姿态模糊,通过使用3D通用特征的密集对齐约束进行优化来细化粗略姿态。在REAL275和Wild6D基准测试中,我们的方法优于以前的方法。
2. 效果展示
(a)我们提出了一种使用通用特征的未知类别的零镜头姿态估计方法,并获得了多类别场景的精确结果。与传统的实例级和类别级方法相比,我们的方法具有更高的成本效率和更好的泛化能力。(b)当姿态具有大的间隙时,与通用特征的对应性降级。(c)对象之间的形状差距会导致优化中的姿态模糊。这些挑战影响了姿态估计的准确性。
REAL275和Wild6D上的定性结果。红色框表示地面真实值,绿色框表示估计值。由于显著的纹理和形状差异,先前的方法在应用于未见过的类别时表现出较大的误差。我们的方法在未见过的类别上表现出强大的泛化能力,并具有准确的姿态估计。
3. 方法
我们利用多模态(2D和三维)通用特征来估计未知类别上的物体姿态。我们设计了一个由粗到细的精确六自由度姿态估计框架。在粗略阶段,它识别稀疏对应以求解初始粗略物体姿态。给定输入RGB-D图像,我们使用感兴趣类别的参考模型来渲染参考图像,并从目标和渲染的参考图像中提取2D通用特征。然后,我们计算2D特征之间的余弦相似性图,并使用循环距离来选择前k个对应。结合深度图和摄像机内部特征,我们选择摄像机坐标中的前k个关键点,并计算从参考空间到目标空间的变换,通过最小二乘解获得初始的粗略的6自由度物体姿态。针对2D通用特征在初始姿态偏离目标姿态较大时特征对应性退化的问题,采用迭代策略优化对应性和粗姿态。在粗略的姿态估计之后,我们将参考模型映射到目标图像空间,以利用逐像素优化来执行姿态细化。为了解决优化过程中由于类内物体之间的形状差异造成的姿态模糊,我们采用从点云中提取的3D通用特征,通过密集像素级配准迭代地改进6自由度物体姿态和参考模型。
推荐课程:
移动机器人规划控制入门与实践:基于Navigation2
。
(a)姿态优化。基于粗姿态作为初始化,可以将参考模型扭曲到目标空间以获得初始掩模并提取3D通用特征。然后,我们通过最小化损失函数来优化粗略的姿态和形状。(b)在姿态细化阶段之后,参考模型的姿态和形状更精确地与目标对象对准。
4. 实验结果
5. 总结
我们提出了一种新的通用特征引导零样本类别级物体姿态估计方法,采用从粗到细的方式。它可以从未见过的类别中估计物体的6D姿态,而无需额外的模型微调。我们的方法有效地利用了2D和3D预训练的通用特征,以实现强大的泛化能力。它有可能帮助许多应用处理未见过的类别,并避免额外的模型训练或微调。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结