0. 论文信息
标题:Scalable Benchmarking and Robust Learning for Noise-Free Ego-Motion and 3D Reconstruction from Noisy Video
作者:Xiaohao Xu, Tianyi Zhang, Shibo Zhao, Xiang Li, Sibo Wang, Yongqi Chen, Ye Li, Bhiksha Raj, Matthew Johnson-Roberson, Sebastian Scherer, Xiaonan Huang
机构:University of Michigan, Ann Arbor、Carnegie Mellon University
原文链接:https://arxiv.org/abs/2501.14319
代码链接:https://github.com/Xiaohao-Xu/SLAM-under-Perturbation
1. 导读
我们的目标是通过解决一个关键的限制来重新定义稳健的自我运动估计和真实感3D重建:对现有模型中无噪声数据的依赖。虽然这种经过净化的条件简化了评估,但它们无法捕捉真实世界环境中不可预测、嘈杂的复杂性。当这些模型在实践中部署时,动态运动、传感器缺陷和同步扰动会导致性能急剧下降,表明迫切需要能够适应并在现实世界噪声下表现出色的框架。为了弥合这一差距,我们解决了三个核心挑战:可扩展的数据生成、全面的基准测试和模型鲁棒性增强。首先,我们介绍了一种可扩展的噪声数据合成管道,它可以生成模拟复杂运动、传感器缺陷和同步误差的不同数据集。其次,我们利用这一管道创建了Robust-Ego3D,这是一个严格设计的基准,旨在揭示噪声引起的性能下降,突出了当前基于学习的方法在自我运动准确性和3D重建质量方面的局限性。第三,我们提出了对应引导的高斯Splatting (CorrGS),这是一种新的测试时间自适应方法,通过将有噪声的观察结果与来自干净的3D地图的渲染的RGB-D帧对准,通过视觉对应增强几何对准和外观恢复,来逐步改进内部干净的3D表示。在合成和真实世界数据上的大量实验表明,CorrGS始终优于现有的最先进的方法,特别是在涉及快速运动和动态照明的场景中。
2. 效果展示
迈向稳健的自我运动和逼真的3D重建。(a)之前的方法依赖于条件完美的合成数图1:据集(无噪声和光滑运动)。(b)现实世界的数据引入固有的噪声和复杂性。我们提出了一种可定制的噪声数据合成管道,以在现实的噪声条件下评估方法。(c)我们的Robust-Ego3D基准表明,现有方法在噪声、稀疏视点的视频中产生噪声的3D重建,而(d)我们提出的CorrGs实现了逼真的、无噪声的3D重建。
3. 主要贡献
我们提出了三个关键的研究问题:
1)如何大规模合成噪声数据?
2)当前SOTA模型在噪声条件下的表现如何?
3)我们如何增强型对复杂扰动的鲁棒性?为了解决这些问题,我们提出了一个全面的框架,用于在广义噪声条件下进行稳健的自我运动估计和逼真的3D重建,具有以下贡献:
1)可扩展的噪声数据生成管道。我们首先为移动系统提出了RGB-D传感扰动的全面分类,并开发了一个可扩展的噪声数据合成管道,将干净的3D网格转换为具有挑战性的数据集(见图1b),支持从单个传感器到分布式多传感器配置的传感器配置。这些数据集提供了精确的3D地图和轨迹真实值、可扩展性和可定制的扰动。我们的管道支持比无噪声基准更全面和成本效益的评估,从而弥合了与现实世界测试的差距。
2)Robust-Ego3D基准用于广义噪声条件。利用我们的噪声数据合成管道,我们实现了Robust-Eg03D,这是一个大型基准,支持广泛和可定制的RGB-D扰动,提供了124个扰动设置进行全面评估。与现有基准专注于无噪声条件不同,Robust-Ego3D提供了一个具有挑战性的测试平台来评估模型的鲁棒性。我们的广泛实验和理论分析表明,现有模型最常见的挑战是:动态运动下的姿态跟踪失败,以及由于缺乏恢复机制而在成像扰动下3D重建精度的退化(见图。 1c).有几点关键的见解:i)没有模型在所有扰动下都表现出一致的稳健性,ii)单独的扰动在孤立和混合设置中都有类似的影响,iii)高度相关的扰动可以作为有效基准的代理。我们希望Robust-Ego3D促使研究人员重新思考模型在广义噪声条件下的稳健性,并质疑现有数据集和模型的假设。
推荐课程:
为什么说colmap仍然是三维重建的核心?
3)CorrGs:对应引导高斯插值。为了解决复杂运动下的稳健姿态跟踪和在Robust-Ego3D基准中识别的嘈杂条件下的颜色一致性重建问题,我们提出了CorrGS。CorrGs采用高斯插值3D表示,快速渲染成RGB-D帧。通过将渲染的图像与嘈杂的观察结果进行比较,它建立了对应关系,从而增强几何对齐以进行稳健的姿态学习。这些对应关系还支持在线外观恢复学习,能够从嘈杂的视频中实现无噪点的3D重建。 CorrGs在快速运动下显著优于先前的最先进方法能够从合成(见图1d)和现实世界中的噪声视频中实现准确的自我运动和逼真的3D重建,即使在动态照明和快速运动的情况下也是如此。
4. 方法
扰动源
。如图3所示,RGB-D传感的扰动源于姿态偏差、成像不准确和传感器失步。所有扰动都是使用基本的物理和运动学建模构建的,例如,运动偏差来自刚体变换。
(a)传感器姿态运动的扰动。现实中的移动平台可能表现出多样和动态的运动这挑战了模型的鲁棒性。如图3a所示,我们将运动扰动分为运动偏差(通过应用旋转ARESO(3)和平移AteR3扰动组合)和更快的运动效应。
(b) RGB传感器成像的扰动。成像的损坏,如运动糊和高照度,在真实世界的数据收集中很常见,影响图像质量。如图3b所示,十六种RGB成像扰动被建模,以模拟在整个成像过程中产生的误差源--从3D场景捕获到最终图像输出。这些扰动源于影响光传输的环境干扰、导致模糊的镜头失真、传感器引起的噪声以及在后期处理中引入的伪像。
(c)对深度传感器成像的扰动。我们观察到模拟SLAM基准(Replica)和真实世界数据集(TUM-RGBD)之间的深度分布存在显著差异,TUM-RGBD缺少25%的深度数据,而Replica中只有0.39%的数据缺失。为了解决这个问题,我们提出了一组深度扰动操作(见图3c):高斯噪声以模拟深度噪声;边缘侵蚀和随机缺失深度以处理缺失数据;范围裁剪以限制深度传感器的感知范围。
(d) 多传感器同步的扰动。为了模拟RGB-D传感系统中多个传感器未良好同步时的传感器延迟(例如,由于信号采样频率不同),我们引入多个传感器流之间的时序错位。
我们提出了一种可扩展的噪声数据合成管道,集成了可定制的RGB-D扰动(见图4)。关键创新在于其可定制性和基于物理的建模,能够生成具有可控扰动的逼真噪声数据。初始阶段包括配置传感器设置、原始轨迹和3D场景。接下来,由运动扰动作曲家处理干净和稳定的轨迹,以引入偏差和更快的运动效果。从3D场景网格、扰动轨迹和传感器配置入手,生成干净但不稳定的传感器数据流。随后,包括成像模糊和多传感器失同步在内的传感器相关扰动被组合起来,导致传感器流产生噪声和不稳定。这种噪声数据,以受扰动的传感器流作为输入,以干净的3D数据和受扰动的轨迹作为地面真实值,允许对受扰动条件下的模型性能进行评估。
5. 实验结果
6. 总结 & 未来工作
结论。我们提出了一种结构化的方法来解决鲁棒的自我运动估计和从噪声视频中实现逼真的3D重建。我们的贡献有三方面:1)我们开发了一个可扩展的噪声数据合成管道,集成了全面的RGB-D扰动,用于移动代理,从而能够生成逼真和多样化的噪声数据集。2)我们引入了Robust-Ego3D基准,以系统地暴露性能瓶颈并指导有针对性的改进。3)基于我们对基准分析的见解,我们提出了CorrGs,它在从噪声、稀疏视图视频中实现自我运动估计和3D重建方面显著提高了鲁棒性。 这项工作为评估和提高密集神经SLAM的鲁棒性建立了新的标准。
未来工作。我们希望激发探索,拥抱不完美的观察,并将其转化为3D和自我运动的清晰度因为前方的道路提供了机会:1)改进方法,根据现实条件自适应选择扰动,确保效率和相关性;2)利用生成模型产生更丰富、更多样的扰动,更好地反映现实世界的挑战;3)扩展Robust-Ego3D,使其涵盖户外和跨领域环境,拓宽模型评估的范围;4)通过为关键帧实施自适应处理来优化CorrGS,进一步提高其性能和效率。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球