专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

慕尼黑大学&苏黎世联邦理工学院！基于扩散模型的零样本视角合成用于RGB类别级6D姿态估计

3DCV · 公众号 · · 2024-03-23 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

作者：小柠檬 | 来源：3DCV
添加微信：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

标题： Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation
链接： https://arxiv.org/abs/2403.14279

1、导读

该论文提出了一种基于扩散模型的零样本新视角合成方法Zero123-6D,用于增强RGB类别级6D位姿估计。该方法利用预训练的视角条件扩散模型从稀疏的RGB参考视图中生成新视角，从而扩大可用参考视图集。

2、主要贡献

引入零样本新视图合成的扩散模型，以增加可用的参考视图的稀疏集
在现有技术的基础上改进的单目RGB类别级姿态估计方法
利用新合成的视图来补偿深度信息的缺乏的细化技术。

3、方法

根据论文中的图2和相关文字，Zero123-6D的方法流程可以总结如下：

输入：给定了属于同一类别的N个RGB参考视角和1个RGB查询图像。

新视角合成 ：将参考视角输入到新视角合成器中，生成M个新视角（M>N）。

语义匹配 ：利用DINO特征提取模型，对查询图像和生成的新视角进行语义匹配，选择与查询图像最匹配的参考视角，得到2D对应关系和粗略的6D姿态估计。

3D重建 ：使用生成的所有视角图像重建3D网格，以获取与2D参考匹配点对应的3D点。

优化：通过在线优化，计算查询图像的2D点与参考视角的3D点之间的对应关系，以获得最终精细的6D姿态估计。

这一流程有效结合了新视角合成、语义匹配和3D重建，使Zero123-6D在有限参考视角下也能实现精确的RGB类别级姿态估计。

4、实验结果

主要涵盖以下内容：

数据集 ：在Common Objects in 3D (CO3D)数据集上进行评估，涵盖50个类别中的5个类别（自行车、汽车、椅子、笔记本电脑和摩托车）。

评估指标 ：主要评估指标包括中值旋转误差（度数）和准确率（在15度和30度误差阈值下的比例）。

对比实验 ：与无深度信息的ZSP方法和有深度信息的ZSP方法进行了对比，以展示Zero123-6D的优势。

结果：结果显示，Zero123-6D在所有指标上均优于无深度信息的ZSP方法，在有限参考视角下性能良好。与有深度信息的ZSP方法相比，Zero123-6D在少视角情况下表现更佳。

可视化结果 ：作者提供了定性结果，展示了参考视角选择、特征匹配和3D重建的可视化，验证了方法的有效性。

效率：作者提到，3D CAD生成是耗时最多的步骤，但只需要每个类别生成一次，不会影响应用中的实时性。

通过定量和定性的实验结果，作者验证了Zero123-6D的有效性和优势，进一步证明了方法在有限参考视角下的优异性能。

表1：CO3D数据集上具有不同数量参考视图的类别级RGB比较。

表2：与ZERO SHOT POSE比较。

表3：与基于深度的ZSP的改进姿势进行比较

Zero123-6D在CO3D数据集上的定性结果以及在三个通道上用PCA突出显示的相应特征图

5、结论

这项工作提出了Zero123-6D，这是一种根据单个查询图像和属于同一类的一组 RGB 图像进行类别级姿态估计的管道。所提出的在线方法利用有限数量的视图，并通过零镜头扩散模型进行增强，最终改进了最先进解决方案的匹配和姿势估计。所呈现的设置对于参考集有限的情况特别有用。Zero123-6D利用主要在以对象为中心的数据集上训练的基础模型；这可能会限制其在杂乱场景中的功效，这可以在未来的工作中通过将所提出的方法的适用性扩展到其他仅RGB设置来解决。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程：
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

3D视觉学习圈子

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

慕尼黑大学&苏黎世联邦理工学院！基于扩散模型的零样本视角合成用于RGB类别级6D姿态估计

正文

1、导读

2、主要贡献

3、方法

4、实验结果

5、结论

3D视觉精品课程：
3dcver.com

3D视觉学习圈子

3D视觉交流群

请到「今天看啥」查看全文

慕尼黑大学&苏黎世联邦理工学院！基于扩散模型的零样本视角合成用于RGB类别级6D姿态估计

正文

1、导读

2、主要贡献

3、方法

4、实验结果

5、结论

3D视觉精品课程： 3dcver.com

3D视觉学习圈子

3D视觉交流群

请到「今天看啥」查看全文

3D视觉精品课程：
3dcver.com