0. 这篇文章干了啥?
从物体的二维图像观测中理解三维结构是计算机视觉领域的一项重要任务。近年来,神经辐射场(NeRF)和高斯样条(Gaussian Splatting)的发展实现了高质量的三维重建和新颖视角合成,最初仅依赖于密集排列的图像。这些方法的核心在于,运动结构(Structure-from-Motion, SfM)在从输入图像中提取相机姿态方面发挥着重要作用。
受在线市场平台和日常用户随意拍摄等关键现实应用的启发,人们越来越关注将这些方法应用于稀疏视角图像,即仅有几张(如3到5张)图像可用,且每张图像覆盖不同的视角。与密集视角图像的方法类似,这些方法通常假设输入相机姿态已知;然而,在实践中,由于稀疏视角图像的视角重叠极少,基于几何的SfM默认管道可能会失败。这凸显了稀疏姿态估计的必要性,并激发了一股新的研究潮流,即采用数据驱动的方法,从大规模以对象为中心的数据集中学习预测姿态,其性能优于基于几何的方法。
从稀疏视角图像中恢复相对相机姿态的数据驱动方法大致可分为两类。一种方法是直接回归6DoF相机参数,包括旋转R和平移T。然而,在稀疏视角设置中,尤其是在具有对称性的物体或场景中,会出现模糊性。姿态回归假设数据中存在单一模式,当训练数据呈现多模式分布时,这可能导致次优解。
另一种方法是将旋转建模为概率分布。Implicit-PDF首先引入了一种方法来预测旋转流形上的任意非参数概率分布,以解决对称性问题。它从SO(3)密集采样旋转假设,并为每个给定的图像特征预测概率。这种方法自然考虑了对称情况下的不确定性,允许模型输出多个模式,从而在姿态回归上提高了准确性。
尽管这种方法功能强大,但其主要缺点是这种基于能量的暴力方法需要从整个参数空间密集采样。为了达到高精度,必须从参数空间中采样密集的网格。例如,RelPose在推理时需要采样50万个旋转矩阵,以生成足够密集的网格来获得良好的准确性,尤其是在较低的误差阈值下。然而,对一对图像评估50万个旋转假设在计算上是昂贵的。此外,这种方法还受到维数灾难的困扰:它仅在低维(如SO(3)是三维的)中实用,而在更高维度中则变得难以承受。在不降低采样粒度的情况下,从三维扩展到六维以联合建模旋转和平移意味着需要一个2500亿大小的网格,而降低采样粒度则意味着结果较差。
我们如何同时利用这两种方法的优点?我们的关键观察是,使用均匀网格来表示姿态分布是低效的。在现实世界中,姿态的分布高度偏斜,少数孤立的模式主导着分布。换句话说,现实世界中的姿态分布位于回归(单模式)和均匀分布之间。基于这一观察,我们专注于生成器-判别器框架:给定两张或更多图像,生成器学习从相对姿态的条件分布中产生样本,而判别器则对它们进行排序。我们发现,这仅需要几百个样本来覆盖分布的所有可能模式。自适应特性还消除了由网格分辨率(无论是固定网格的固定间距还是随机网格的预期间距)施加的任何基本精度下限。
我们将这项工作命名为ADen;ADen仅需要500个样本,就能超越在推理时采样50万个位置的方法;ADen不受任何网格分辨率的限制,可以输出任意接近真实模式的样本。生成的样本明显学会了遵循多模态分布,捕捉了姿态的不确定性。重要的是,通过消除从参数空间密集采样的需要,ADen不仅限于单独建模旋转;生成器通过简单地预测产品空间中的粒子,就可以轻松输出联合旋转和平移[R, t]对,而不会增加它们的数量。
下面一起来阅读一下这项工作~
1. 论文信息
标题:ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation
作者:Hao Tang, Weiyao Wang, Pierre Gleize, Matt Feiszli
机构:FAIR at Meta
原文链接:https://arxiv.org/abs/2408.09042
2. 摘要
从一组图像中恢复相机姿态是三维计算机视觉中的一项基础任务,它支持如三维场景/物体重建等关键应用。经典方法通常依赖于特征对应,如关键点,这要求输入图像具有较大的重叠区域和较小的视角变化。这些要求在视图稀疏的场景中构成了相当大的挑战。最近的数据驱动方法旨在直接输出相机姿态,通过回归6自由度(6DoF)相机姿态或将旋转表示为概率分布来实现。然而,每种方法都有其局限性。一方面,直接回归相机姿态可能是不适定的,因为它假设了单一模式,这在存在对称性的情况下并不成立,并导致次优解。另一方面,概率方法能够建模对称模糊性,但它们通过暴力方法均匀采样整个旋转空间。这导致了一个不可避免的权衡,即提高模型精度的高样本密度与决定运行时间的样本效率之间的权衡。在本文中,我们提出了ADen,通过采用生成器和判别器来统一这两个框架:生成器被训练来输出多个6DoF相机姿态假设,以表示分布并处理多模式模糊性,而判别器则被训练来识别最能解释数据的假设。这使得ADen能够结合两个框架的最佳特点,在经验评估中实现比以前方法更高的精度和更低的运行时间。
3. 效果展示
4. 主要贡献
综上所述,我们的贡献如下:
我们提出了ADen,这是一种使用高效、自适应的生成器-判别器框架从图像中学习并从相对姿态的条件分布中采样的方法。
ADen自然地扩展到高维空间,而无需对整个空间进行详尽采样;它适应分布的复杂性,而不是环境空间。
实验表明,ADen在较低误差阈值下大大优于现有技术方法。此外,ADen的运行速度比以前的方法快得多,实现了实时推理速度。
5. 基本原理是啥?
ADen概述。ADen是一种从稀疏视角RGB图像中恢复相机姿态的新颖方法。ADen首先使用ResNet主干网络提取每幅图像的特征,然后利用转换器融合所有图像的特征并在全局范围内传播信息。ADen通过首先在融合后的特征上应用姿态生成器头部来产生M个相机姿态的支持集,然后使用具有融合特征的姿态判别器来预测每个生成姿态的概率,从而预测每个图像上相机姿态的非均匀分布。
推荐学习:
单目深度估计方法: 理论与实战
6. 实验结果
如表1和表3所示,与以前的方法相比,ADen在旋转和平移精度上都达到了最先进的性能。ADen在不同数量的图像输入下始终优于其他基线方法。
在更严格的旋转精度阈值下,这种性能提升更为显著(如表2所示)。与姿态回归(Pose Regression)和SparsePose相比,我们的方法允许模型在训练过程中探索不同的模式,以更好地学习潜在的模糊多模态分布,因此表现显著更好。
与RelPose/RelPose++等也预测姿态概率分布的方法相比,我们的方法不受SO(3)空间样本分辨率的限制,能够生成与真实相机姿态紧密匹配的样本。这一改进在更严格的旋转误差阈值下更为明显(如表2所示),突出了我们姿态生成器生成样本的精度。此外,我们的方法在相机平移误差方面也取得了最先进的结果,这主要得益于旋转精度的提高。在两个额外的数据集上,ADen展示了强大的泛化能力,显著超过了以前的方法,并实现了最先进的性能(如表4a和表4b所示)。
7. 总结 & 未来工作
在本文中,我们提出了一种新的基于学习的方法,仅从稀疏视角的RGB图像中恢复相机姿态。在ADen中,姿态生成器和姿态判别器的设计使网络能够处理宽基线图像中固有的模糊性,并生成多种模式。实验表明,ADen在CO3D数据集上实现了最先进的性能,超越了以往的方法,尤其是在较低的旋转误差阈值下的准确性方面。此外,由于其高效的生成器,ADen能够实时(20 FPS)推断九张图像的姿态,相较于所有先前的方法,显著提高了速度。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
,已沉淀6年,星球内资料包括: