专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
闹闹每日星运  ·  蛇年九宫飞星布局全攻略!这样布置全家好运来 ·  3 天前  
闹闹每日星运  ·  星历0205:双子做全新的自己 摩羯提高适应能力 ·  5 天前  
闹闹每日星运  ·  星历0207:巨蟹谨慎而低调 摩羯剔除不良习惯 ·  3 天前  
闹闹每日星运  ·  最最脸盲的星座 ·  3 天前  
闹闹每日星运  ·  星历0206:白羊避免冲动消费 射手要保持冷静 ·  4 天前  
51好读  ›  专栏  ›  计算机视觉工坊

3R系列杀疯了!港大重磅开源Reloc3r:通用、快速、精确的视觉定位!

计算机视觉工坊  · 公众号  ·  · 2024-12-18 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Reloc3r: Large-Scale Training of Relative Camera Pose Regression for Generalizable, Fast, and Accurate Visual Localization

作者:Siyan Dong, Shuzhe Wang, Shaohui Liu, Lulu Cai, Qingnan Fan, Juho Kannala, Yanchao Yang

机构:The University of Hong Kong、Aalto University、ETH Zurich、VIVO、University of Oulu

原文链接:https://arxiv.org/abs/2412.08376

代码链接:https://github.com/ffrivera0/reloc3r

1. 导读

视觉定位旨在确定查询图像相对于姿态图像数据库的相机姿态。近年来,直接回归相机姿态的深度神经网络由于其快速推理能力而受到欢迎。然而,现有的方法要么很好地推广到新的场景,要么提供准确的相机姿态估计。为了解决这些问题,我们提出了一个简单而有效的视觉定位框架。它由一个设计优雅的相对姿态回归网络和一个用于绝对姿态估计的最小运动平均模块组成。在大约800万个已设定姿势的图像对上进行训练,Reloc3r获得了令人惊讶的良好性能和泛化能力。我们在6个公共数据集上进行了大量的实验,一致证明了所提出方法的有效性和效率。它实时提供高质量的相机姿态估计,并推广到新的场景。

2. 引言

视觉定位(亦称相机重定位)是计算机视觉、机器人学和图形学中的一项关键挑战。它在许多应用中至关重要,包括增强现实和机器人导航。该过程涉及将新的查询图像与包含预设图像或3D模型的数据库进行配准。这通常是通过在由数据库定义的世界坐标系中估计6自由度(6-DoF)相机位姿来实现的。

传统的视觉定位方法依赖于结构从运动(SfM)技术来重建3D模型。这些方法将查询图像中的像素与3D场景点进行匹配,然后使用几何优化来求解相机位姿。尽管这些方法以高精度定位而闻名,但在测试时往往效率低下,这限制了它们在实时应用中的可扩展性。场景坐标回归方法为像素到点的对应关系提供了另一种视角。这些方法使用神经网络来学习隐式场景表示,然后利用这些表示来推断密集对应关系。然而,它们中的大多数在泛化能力方面存在局限。此外,这些方法通常需要密集的监督,如真实的关键点匹配或3D点图,这使得训练数据的扩展变得具有挑战性。 推荐课程: 国内首个面向具身智能方向的理论与实战课程

绝对位姿回归(APR)方法直接从图像中回归相机位姿,提供了更快的推理时间和高精度。然而,这些方法本质上是场景特定的,并且在训练期间通常需要密集的视角覆盖,这限制了它们在现实世界中的适用性。最近,通过合成数据生成来提高准确性的尝试引入了显著的计算开销,阻碍了广泛部署。相比之下,相对位姿回归(RPR)方法估计数据库-查询图像对之间的相对位姿。这些方法无需对每个场景进行单独训练,同时保持了APR模型在测试时的效率。然而,即使是最先进的RPR方法在定位准确性方面仍未达到APR方法的水平。虽然一些RPR方法已展现出在不同数据集上泛化的能力,但这通常会进一步降低相机位姿的准确性。因此,上述方法中的大多数在以下三个标准之一上存在问题:新场景泛化、测试时效率和相机位姿准确性。

为应对这些挑战,我们提出了Reloc3r,这是一个简单但出乎意料地有效的视觉定位框架。它受到最近的基础模型的启发。这些模型利用可扩展的网络架构(如Transformer)和大规模训练,在各种任务中表现出强大的性能和卓越的泛化能力。这一成功促使我们探索类似的位姿估计方法。我们采用DUSt3R的架构作为主干,通过简洁而优雅的修改构建了一个相对位姿回归网络。该网络设计为完全对称,并在训练期间忽略相对位姿的度量尺度。然后,我们将其与一个极简的运动平均模块相结合,以估计绝对位姿,从而形成了Reloc3r框架。为了发挥大规模训练的力量,我们处理了来自不同公共来源的大约800万对图像,涵盖以对象为中心、室内和室外场景。实验表明,Reloc3r在6个著名的位姿估计数据集上表现出优越的性能,这得益于其简单的架构和大规模训练。

3. 效果展示

姿态准确性和运行时间效率的比较。我们在ScanNet1500数据集上报告了AUC@5和每秒图像对数(FPS)。我们提供了Reloc3r的两个版本:一个在图像宽度为512时进行训练和测试,另一个在224时进行训练和测试。所提出的Reloc3r-512在所有方法中表现最佳,在达到最佳AUC@5的同时保持24 FPS的效率。值得注意的是,即使在224分辨率下,我们的方法也与ROMA相匹配在提高准确性的同时,速度提高了20倍。

4. 主要贡献

我们的主要贡献可以概括如下:

• 我们提出了Reloc3r,这是一个简单但出乎意料地有效的视觉定位框架。它能够实现对新场景的出色泛化、快速的测试时效率和高的相机位姿准确性。

• 所提出的完全对称的相对位姿回归网络和运动平均模块都遵循简洁性原则。这种精简的方法使得大规模训练变得高效。

• 在6个流行的评估数据集上进行的综合实验一致证明了我们提出方法的有效性。

5. 方法

Reloc3r由两个模块组成:相对相机位姿回归网络和运动平均模块。给定一对输入图像,网络模块推断它们之间的相对相机位姿(在未知尺度上)。该模块由具有共享权重的双分支视觉Transformer(ViT)组成。图像被分割成块,转换为令牌,并通过单独的编码器嵌入为潜在特征。解码器然后在两组潜在特征之间交换信息。每个头聚合其潜在特征以估计相对相机位姿。为了确定查询图像相对于数据库的绝对相机位姿,我们检索至少两个数据库-查询对。这些对首先通过网络进行相对位姿估计。随后,运动平均模块通过聚合相对估计来计算绝对度量位姿。

6. 实验结果

7. 总结 & 未来工作

在这篇论文中,我们提出了Reloc3r,一个简单而有效的视觉定位框架。它由一个精心设计的相对姿态回归网络和最小化运动平均模块组成。利用大约800万对图像的大规模训练,Reloc3r展示了强大的泛化能力、高效率以及在多个数据集上准确的姿态估计性能,同时保持简洁。它至少为基于姿态回归的视觉定位设定了强有力的基线。未来的研究可以进一步探索数据的规模和多样性,以及不同的网络架构。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文