专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
简七读财  ·  指数基金种类多,到底咋选? ·  12 小时前  
连州点点网  ·  正在刷短视频的你,注意了! ·  20 小时前  
连州点点网  ·  正在刷短视频的你,注意了! ·  20 小时前  
法治网  ·  “DeepSeek告诉我得用什么药”,人工智 ... ·  21 小时前  
法治网  ·  “DeepSeek告诉我得用什么药”,人工智 ... ·  21 小时前  
西藏自治区教育厅  ·  解码《纲要》⑩ | ... ·  昨天  
西藏自治区教育厅  ·  解码《纲要》⑩ | ... ·  昨天  
福州日报  ·  DeepSeek,又发大消息 ·  3 天前  
51好读  ›  专栏  ›  3DCV

慕尼黑大学&苏黎世联邦理工学院!基于扩散模型的零样本视角合成用于RGB类别级6D姿态估计

3DCV  · 公众号  ·  · 2024-03-23 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

点击加入「3DCV」技术交流群

作者:小柠檬 | 来源:3DCV
添加微信:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

标题 Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation
链接 https://arxiv.org/abs/2403.14279

1、导读

该论文提出了一种基于扩散模型的零样本新视角合成方法Zero123-6D,用于增强RGB类别级6D位姿估计。该方法利用预训练的视角条件扩散模型从稀疏的RGB参考视图中生成新视角,从而扩大可用参考视图集。

图1:Zero123-6D

2、主要贡献

  • 引入零样本新视图合成的扩散模型,以增加可用的参考视图的稀疏集
  • 在现有技术的基础上改进的单目RGB类别级姿态估计方法
  • 利用新合成的视图来补偿深度信息的缺乏的细化技术。

3、方法

图2

根据论文中的图2和相关文字,Zero123-6D的方法流程可以总结如下:

输入 :给定了属于同一类别的N个RGB参考视角和1个RGB查询图像。

新视角合成 :将参考视角输入到新视角合成器中,生成M个新视角(M>N)。

语义匹配 :利用DINO特征提取模型,对查询图像和生成的新视角进行语义匹配,选择与查询图像最匹配的参考视角,得到2D对应关系和粗略的6D姿态估计。

3D重建 :使用生成的所有视角图像重建3D网格,以获取与2D参考匹配点对应的3D点。

优化 :通过在线优化,计算查询图像的2D点与参考视角的3D点之间的对应关系,以获得最终精细的6D姿态估计。

这一流程有效结合了新视角合成、语义匹配和3D重建,使Zero123-6D在有限参考视角下也能实现精确的RGB类别级姿态估计。

4、实验结果

主要涵盖以下内容:

数据集 :在Common Objects in 3D (CO3D)数据集上进行评估,涵盖50个类别中的5个类别(自行车、汽车、椅子、笔记本电脑和摩托车)。

评估指标 :主要评估指标包括中值旋转误差(度数)和准确率(在15度和30度误差阈值下的比例)。

对比实验 :与无深度信息的ZSP方法和有深度信息的ZSP方法进行了对比,以展示Zero123-6D的优势。

结果 :结果显示,Zero123-6D在所有指标上均优于无深度信息的ZSP方法,在有限参考视角下性能良好。与有深度信息的ZSP方法相比,Zero123-6D在少视角情况下表现更佳。

可视化结果 :作者提供了定性结果,展示了参考视角选择、特征匹配和3D重建的可视化,验证了方法的有效性。

效率 :作者提到,3D CAD生成是耗时最多的步骤,但只需要每个类别生成一次,不会影响应用中的实时性。

通过定量和定性的实验结果,作者验证了Zero123-6D的有效性和优势,进一步证明了方法在有限参考视角下的优异性能。

表1:CO3D数据集上具有不同数量参考视图的类别级RGB比较。

表2:与ZERO SHOT POSE比较。

表3:与基于深度的ZSP的改进姿势进行比较

Zero123-6D在Objectron数据集上的定性结果
Zero123-6D在CO3D数据集上的定性结果以及在三个通道上用PCA突出显示的相应特征图

5、结论

这项工作提出了Zero123-6D,这是一种根据单个查询图像和属于同一类的一组 RGB 图像进行类别级姿态估计的管道。所提出的在线方法利用有限数量的视图,并通过零镜头扩散模型进行增强,最终改进了最先进解决方案的匹配和姿势估计。所呈现的设置对于参考集有限的情况特别有用。Zero123-6D利用主要在以对象为中心的数据集上训练的基础模型;这可能会限制其在杂乱场景中的功效,这可以在未来的工作中通过将所提出的方法的适用性扩展到其他仅RGB设置来解决。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程:
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

▲长按扫码学习3D视觉精品课程

3D视觉学习圈子

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目&作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球

3D视觉交流群







请到「今天看啥」查看全文


推荐文章
简七读财  ·  指数基金种类多,到底咋选?
12 小时前
连州点点网  ·  正在刷短视频的你,注意了!
20 小时前
连州点点网  ·  正在刷短视频的你,注意了!
20 小时前
福州日报  ·  DeepSeek,又发大消息
3 天前
遇见漫画  ·  内涵漫画 | 套套要过期
7 年前
产业互联网大视野  ·  B2B进入3.0时代,企业如何抢占行业制高点
7 年前
杨恒均游学  ·  Timberland“踢不烂”美国专场
7 年前