专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
格上财富  ·  一文讲透关于DeepSeek的7个核心问题 ·  2 天前  
格上财富  ·  广东成立新机构,信号强烈 ·  2 天前  
简七读财  ·  过去100年,这类资产更赚钱 ·  2 天前  
曾星智中线投资  ·  只赚不亏:长线投资成功的关键 ·  3 天前  
曾星智中线投资  ·  只赚不亏:长线投资成功的关键 ·  3 天前  
格上财富  ·  全面拆解!梁文锋和王兴兴的底牌 ·  3 天前  
51好读  ›  专栏  ›  3DCV

彻底解决运动模糊!开源MBA-SLAM:定位和建图双重SOTA!兼容3DGS和NeRF!

3DCV  · 公众号  ·  · 2024-11-16 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:MBA-SLAM: Motion Blur Aware Dense Visual SLAM with Radiance Fields Representation

作者:Peng Wang, Lingzhe Zhao, Yin Zhang, Shiyu Zhao, Peidong Liu

机构:Westlake University

原文链接:https://arxiv.org/abs/2411.08279

代码链接:https://github.com/WU-CVGL/MBA-SLAM

1. 导读

新兴的3D场景表示,如神经辐射场(NeRF)和3D高斯Splatting (3DGS),已经证明了它们在照片级渲染的同时定位和映射(SLAM)中的有效性,特别是在使用高质量视频序列作为输入时。然而,现有的方法很难处理运动模糊帧,这在现实世界中很常见,如低光或长曝光条件下。这通常会导致相机定位精度和地图重建质量的显著降低。为了应对这一挑战,我们提出了一种密集视觉SLAM流水线(即MBA-SLAM)来处理严重的运动模糊输入。我们的方法集成了一个有效的运动模糊感知跟踪器与神经辐射场或基于高斯分布的映射器。通过精确建模运动模糊图像的物理图像形成过程,我们的方法同时学习3D场景表示和估计相机在曝光时间期间的局部轨迹,从而实现对相机运动引起的运动模糊的主动补偿。在我们的实验中,我们证明了MBA-SLAM在相机定位和地图重建方面都超过了以前的最先进方法,在一系列数据集上展示了优异的性能,包括具有清晰图像以及受运动模糊影响的合成和真实数据集,突出了我们方法的多功能性和鲁棒性。

2. 引言

同时定位与地图构建(SLAM)是三维视觉领域的一个基础问题,具有广泛的应用,包括自动驾驶、机器人导航和虚拟现实等。传统稀疏SLAM方法利用稀疏点云进行地图重建,而最近基于学习的密集SLAM系统则侧重于生成密集地图,这对于下游应用至关重要。

由于神经辐射场(NeRF)和三维高斯溅射(3DGS)能够生成逼真的三维场景表示,它们已被探索与SLAM系统结合使用,在地图表示和高保真表面重建方面显示出显著改善。然而,现有方法严重依赖于高质量、清晰的RGB-D输入,在处理运动模糊帧时面临挑战,这种情况在低光或长曝光条件下经常发生。这些条件会显著降低这些方法的定位和地图构建性能。

运动模糊图像给密集视觉SLAM系统带来的困难主要源于两个因素:1)跟踪过程中的姿态估计不准确:当前逼真的密集视觉SLAM算法依赖于清晰图像,通过最大化光度一致性来估计相机姿态。然而,现实世界场景中常见的运动模糊图像违反了这一假设,使得难以从模糊帧中准确恢复姿态。这些不准确跟踪的姿态反过来又会影响映射过程,导致多视图几何不一致。2)映射中的多视图几何不一致:多视图模糊图像之间的不匹配特征会引入错误的三维几何信息,导致三维地图重建质量差。这将降低地图重建质量,进而影响跟踪过程。综合这两个因素,现有密集视觉SLAM系统在处理运动模糊图像时通常会表现出性能下降。

为解决这些挑战,我们引入了MBA-SLAM,这是一种逼真的密集RGB-D SLAM管道,旨在有效处理运动模糊输入。我们的方法将物理运动模糊成像过程融入跟踪和映射两个阶段。具体而言,我们在SE(3)空间内采用连续运动模型来表征曝光时间内的相机运动轨迹。鉴于曝光时间通常较短,每个运动模糊图像的轨迹由其曝光开始和结束时的初始和最终姿态分别表示。在跟踪阶段,我们首先根据学习的三维场景表示渲染与最新关键帧相对应的参考清晰图像。然后,基于先前优化迭代中预测的运动轨迹,将渲染的图像重新模糊以匹配当前捕获的模糊图像。我们强制跟踪的模糊图像和重新模糊的图像之间的光度一致性,以进一步细化曝光时间内的相机运动轨迹。在映射阶段,我们通过最小化光度一致性损失来联合优化一组稀疏选择帧(即关键帧)的轨迹和三维场景表示。在我们的实现中探索了两种常用的场景表示,即隐式神经辐射场和显式三维高斯溅射。这两种表示各具优缺点。特别是,基于NeRF的实现能够实现更高的帧率(FPS),但渲染质量低于基于3D-GS的实现。相反,基于3D-GS的实现以较低的FPS为代价提供了更好的渲染质量。我们提供了这两种实现,以满足不同使用场景的需求。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

我们通过使用清晰和模糊数据集,与先前最先进的方法进行了对比,对MBA-SLAM的性能进行了全面评估。特别是,我们使用了公共合成模糊数据集和自捕获模糊数据集进行了评估。真实数据集是在低光照条件下使用RealSense RGB-D相机收集的。为进一步评估MBA-SLAM在清晰图像上的性能,我们利用了Replica、ScanNet和TUM RGBD中常用的公共数据集。实验结果表明,与先前最先进的方法相比,MBA-SLAM不仅在处理模糊图像时表现出更稳健的性能,而且在处理清晰图像时也具有优越的性能。

MBA-SLAM基于作者的三篇初步研讨会论文,即MBA-VO、BAD-NeRF和BAD-Gaussians,这些论文分别被ICCV 2021(口头报告)、CVPR 2023和ECCV 2024接受。在本文中,我们以几种重要方式扩展了这些工作:1)我们通过利用MBA-VO中的运动模糊感知跟踪器和BAD-NeRF或BAD-Gaussians中的运动模糊感知束平差算法,将它们集成到一个全面的SLAM管道中;2)我们将BAD-NeRF中的原始NeRF表示替换为更高效的三平面基表示,将训练效率提高了100倍;3)所有实验评估都是新进行的,以彻底验证该管道相对于先前最先进方法的有效性。

3. 效果展示

用ArchViz-1数据集不同方法的定性网格可视化。结果表明,隐式辐射场(如CoSLAM、ESLAM)比显式基于点的方法(如Point-SLAM、SplaTAM)提供更好的重建网格性能。MBA-SLAM总是取得最好的成绩,不管是我们的-NeRF还是我们的-GS。

图4展示了MBA-SLAM在ArchViz数据集中的运动模糊序列上估计的轨迹,凸显了我们所提算法在处理运动模糊图像序列方面的有效性。

图5所示的定性结果表明,我们的方法可以从运动模糊序列中恢复并渲染出高质量图像,特别是在纹理丰富(如绿叶)和边缘清晰的区域。

4. 主要贡献

我们的贡献如下:

• 我们提出了一种专为运动模糊图像设计的新颖光度束平差公式,建立了基于RGB-D 3DGS/NeRF的SLAM管道,该管道对运动模糊具有鲁棒性。

• 我们的SLAM管道通过集成运动模糊感知跟踪器得到了增强,从而提高了跟踪准确性,进而提高了映射性能。

• 我们说明了该公式如何从运动模糊输入中获取精确的相机轨迹和高保真三维场景地图。

• 我们的实验结果表明,MBA-SLAM在各种数据集上的跟踪和映射性能优于先前最先进的基于NeRF和3DGS的SLAM方法,包括合成和真实运动模糊数据集。

• 我们的方法还在常用标准清晰图像数据集上表现良好,并超越了先前最先进的密集视觉SLAM管道。

5. 方法

我们详细介绍了一种名为运动模糊感知密集视觉SLAM(MBA-SLAM)的方法,该方法旨在处理运动模糊RGB图像流及其对应的深度数据。MBA-SLAM的主要目标是在准确估计相机运动轨迹的同时,重建高质量的密集3D场景。这通过整合两个关键组件来实现:一个运动模糊感知跟踪器,以及基于神经辐射场(NeRF)或3D高斯溅射(Gaussian Splatting)的捆绑调整去模糊映射器。

前端跟踪器估计当前模糊帧曝光时间内的局部相机运动轨迹,该轨迹是相对于从学习到的3D场景表示中渲染出的最新虚拟清晰关键帧图像而言的。后端映射器通过联合学习隐式或显式场景表示并估计相机轨迹来工作。

我们的运动模糊感知跟踪器通过直接将假设为清晰的关键帧与可能遭受运动模糊的当前帧进行对齐来工作。为了在对齐过程中利用光度一致性,我们必须对当前帧进行去模糊处理或对关键帧进行重新模糊处理。在我们的方法中,我们选择后者,因为与运动去模糊相比,重新模糊通常更简单且更稳健,特别是对于严重受运动模糊影响的图像。将Iref中具有已知深度的每个采样像素转移到当前(模糊)图像Bcur中。然后,我们为每个投影点在当前模糊图像中识别最近的整数位置像素。假设3D点位于相对于Iref的前平行平面上,我们利用该平面将所选像素传回参考视图。更多详细信息见图2。为了从参考视图中合成重新模糊的像素(便于与真实捕获的像素强度进行比较),我们在Tstart和Tend之间进行插值。对于在[0, τ]内均匀采样的每个虚拟视图Tt,将像素坐标(即图2中的红色像素)传回参考图像,并通过双线性插值获得图像强度值。

6. 实验结果

跟踪:表1中的结果表明,我们的方法在提供的合成运动模糊ArchViz数据集上,跟踪性能优于其他最先进的NeRF-SLAM和高斯-SLAM系统。此外,它还表明,当面对具有挑战性的运动模糊序列时,纯隐式SLAM(如CoSLAM和ESLAM)的性能优于基于显式点或高斯的方法(即Point-SLAM和SplaTAM)。

渲染:表2展示了ArchViz数据集上的定量渲染结果(左三列)。结果表明,得益于物理运动模糊图像形成模型,我们的方法显著优于其他最先进的方法。

重建:由于ArchViz数据集未提供真实网格,我们使用TSDF Fusion从真实相机姿态、清晰图像和深度数据中提取参考网格。我们仅报告ArchViz1的重建指标作为参考(表2右列),因为ArchViz2和ArchViz3中存在许多未见区域,这些区域应使用我们计算真实网格指标时没有的“未见点”文件从提取的网格中排除。

7. 总结 & 未来工作

本文介绍了一种新颖的框架MBA-SLAM,用于实现稳健的密集视觉RGB-D SLAM,包括隐式神经辐射场版本和显式高斯溅射版本。借助我们的物理运动模糊图像形成模型、高度CUDA优化的模糊感知跟踪器和去模糊映射器,MBA-SLAM能够在曝光时间内跟踪准确的相机运动轨迹,并在给定严重模糊的视频序列输入的情况下重建出清晰且逼真的地图。我们还提出了一个具有运动捕获真实相机姿态的现实世界运动模糊SLAM数据集,这对社区而言可能很有用。通过大量实验,我们证明了我们的方法在现有数据集和我们的现实世界数据集上均达到了最先进的水平。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001







请到「今天看啥」查看全文