专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
电商报Pro  ·  外卖市场战火重燃,从财报看饿了么的竞争底盘 ·  5 小时前  
电子商务研究中心  ·  2024进口跨境电商投诉报告发布 中免日上 ... ·  昨天  
电子商务研究中心  ·  A股IPO败北后 ... ·  2 天前  
亿邦动力  ·  瑞幸咖啡2024年净收入344.75亿元,门 ... ·  2 天前  
51好读  ›  专栏  ›  3DCV

CVPR'24 Highlight开源 | FAR:显著提高相机定位的精度和鲁棒性!

3DCV  · 公众号  ·  · 2024-05-24 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

转自:3D视觉工坊 | 编辑:3DCV

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

相机相对姿态估计是计算机视觉中的一个基本问题,在增强现实、机器人学和自动驾驶中都有应用。最近的一系列工作学习估计匹配关系,然后解决姿态,通常提供亚度误差。不幸的是,当面对大视角变化时,这个框架往往会遇到困难,而且由于它产生基本或本质矩阵,也无法恢复尺度。另一种工作线路直接学习估计姿态,虽然不太精确,但可能更健壮,并产生平移尺度。

所提出的方法建立在这两个社区的基础上,以产生一种通用方法,其性能不比任何一个选项差,而且通常比两者都好。关键是,它利用了学习的对应关系预测作为输入,并将学习的姿态估计与求解器相结合,以估计 6DoF 姿态。对于这个任务,我们有意选择了 Transformer,它可以处理密集特征或对应关系作为输入。简而言之,该方法是灵活的:对于对应关系和特征骨干不可知;准确的:匹配对应关系的方法的精度;和健壮的:建立在学习的姿态方法的韧性之上。

FAR 使基于学习和求解器的方法相互改进。学习的预测比求解器的输出更健壮,因此被用作偏置求解器的先验。改进的求解器输出,当成功时往往比学习输出更精确,然后与 Transformer 预测结合形成最终输出。预测是通过 Transformer 预测的权重结合的,这意味着 Transformer 可以根据它们的有效性更多地依赖于任一方法。

实验详细分析了一系列情景和数据集中的 FAR。首先,我们从地面真实匹配关系开始分析理论韧性,然后逐步添加(1)噪声和(2)异常值。接下来,我们在四个具有挑战性的数据集上评估所提出的方法,涵盖室内:Matterport3D 和 InteriorNet,以及室外:StreetLearn 和无地图重定位。在各种设置中,所提出的方法通常优于或偶尔与最先进技术相匹配。我们还在消融中分析了 FAR 的组件,并将其应用于对应关系和特征估计骨干的各种排列。我们还研究了数据集大小对模型行为的影响。

下面一起来阅读一下这项工作~

1. 论文信息

标题:FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation

作者:Chris Rockwell, Nilesh Kulkarni, Linyi Jin, Jeong Joon Park, Justin Johnson, David F. Fouhey

机构:密歇根大学、纽约大学

原文链接:https://arxiv.org/abs/2403.03221

代码链接:https://github.com/crockwell/far

官方主页:https://crockwell.github.io/far/

2. 摘要

在计算机视觉中,估计图像之间的相对相机姿态一直是一个核心问题。通过寻找对应关系并解出基础矩阵的方法,在大多数情况下具有高精度。相反,直接使用神经网络预测姿态的方法对于重叠区域有限的情况更加稳健,并且可以推断绝对平移尺度,但会以降低精度为代价。我们展示了如何结合这两种方法的优点;我们的方法既能提供精确又稳健的结果,同时准确推断出平移尺度。我们模型的核心是一个Transformer,它(1)学习平衡解决和学习姿态估计之间的关系,(2)提供一个先验来指导求解器。全面的分析支持我们的设计选择,并证明我们的方法能够灵活适应各种特征提取器和对应估计器,表现出在Matterport3D、InteriorNet、StreetLearn和无地图重定位中的6DoF姿态估计的最先进性能。

3. 效果展示

精确和稳健的六自由度姿态估计。匹配估计+求解器方法(这里是LoFTR,RANSAC)对于中等旋转产生精确输出,但不适用于大旋转(左图),且无法产生平移比例。基于学习的方法(这里是带有8点ViT头的LoFTR)产生了比例(右图),并且更稳健,但缺乏精确性(左图)。FAR利用两者进行精确和稳健的预测,包括比例。

结合经典和学习方法。左侧:当存在许多内点时,求解器输出精确,但是当内点较少时质量较差;通过FAR的先验更新求解器输出显著提高了鲁棒性。FAR的变换器精度较低但更加鲁棒。完整模型融合了先验引导的求解器输出和变换器输出,以获得两者的最佳效果,当存在许多内点时更倾向于求解器(右侧)。

4. 基本原理是啥?

在密集特征和匹配关系给定的情况下,FAR的变换器通过一个变换器和经典求解器产生相机姿态(在方框中)。在第一轮中,求解器产生一个姿态Ts。FAR的姿态变换器通过权重w将其与自己的预测Tt进行平均,得到第一轮姿态T1。T1姿态作为经典求解器的先验,产生一个更新的姿态Tu。这与Tt的额外估计和权重w结合,产生最终结果T。在匹配关系较少的情况下,T1有助于求解器输出,而网络学习更加重视变换器的预测;在匹配关系较多的情况下,求解器输出通常较好,因此网络主要依赖求解器的输出。

5. 实验结果

表1显示了Matterport3D的定量结果。在先前的工作中,端到端方法,如8-Point ViT在绝对平移方面表现良好,而如LoFTR等对应解方法在旋转方面表现最佳。FAR在两个指标上都树立了新的标准,大幅超越了最佳先前基线(NOPE-SAC-Reg)。它将中位数和平均翻译误差分别从0.52降至0.25和从0.94降至0.49,减少了约50%。此外,与最佳先前工作(LoFTR)相比,它将平均旋转误差几乎减少了50%,从9.66降至4.93。即使只有对应关系可用作输入,"FAR(Vanilla TF)"通常也远远优于所有先前工作。

如表2所示,我们可以清楚地从图4中观察到相同的趋势:解算器在大多数情况下的特点是中位数旋转误差较低,精度很高。然而,由于异常值,解算器的平均误差较高,并且翻译误差较大。合并FAR的先验明显改善了解算器的平均旋转误差。相比之下,Transformer回归输出几乎不够精确,中位数旋转误差超过4°,但它减少了大误差的比例(大于1m或30°)。FAR提升了Transformer和Solver取得的最佳结果。这些模式对Vanilla Transformer也适用。在预测选择中,我们发现预测Solver的翻译比例对翻译性能很重要,而为旋转和翻译分别设置权重可以提高鲁棒性。

表3显示,FAR改进了8-Pt ViT,无论是使用SuperGlue还是LoFTR对应关系。同样,FAR改进了LoFTR,无论是使用LoFTR特征和对应关系还是仅使用对应关系。

表4显示,8-Point ViT在InteriorNet上取得了令人印象深刻的平均误差,在5°以下,即使是对于重叠小的配对也是如此。FAR仍然在8-Point ViT之上增加了精度。在具有挑战性的StreetLearn数据上,FAR明显优于最先进技术,尽管LoFTR在StreetLearn上泛化能力不强。

6. 总结 & 限制性

在这项工作中,我们解决了给定宽基线图像对的6DoF相对摄像机姿态估计问题。我们引入的FAR代表了一种简单而强大的方法,融合了基于对应关系和基于学习的方法的最佳方面。这导致了精确而稳健的结果,可适用于各种主干和解算器。

限制。FAR由几个组件组成,并在Kornia中实现了先验引导的RANSAC,将推断速度降低到了10个1080Ti GPU上的3.3 it/sec。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉技术星球

3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉课程官网: www.3dcver.com






请到「今天看啥」查看全文