专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
哈佛商业评论  ·  TikTok的命运,对全球商业意味着什么? ·  昨天  
FT中文网  ·  为什么香港不能放弃联系汇率制? ·  昨天  
新民晚报  ·  胖东来道歉!承认管理中存在问题 ·  昨天  
新民晚报  ·  胖东来道歉!承认管理中存在问题 ·  昨天  
三峡小微  ·  7天11万游客!春节假期三峡大坝旅游人气旺 ·  2 天前  
FT中文网  ·  中美竞争已聚焦于人工智能和关键矿产 ·  2 天前  
51好读  ›  专栏  ›  3D视觉工坊

提交至TRO!开源DynoSAM:超越全部动态SLAM!打通3D重建和轨迹预测的壁垒!

3D视觉工坊  · 公众号  ·  · 2025-01-25 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:DynoSAM: Open-Source Smoothing and Mapping Framework for Dynamic SLAM

作者:Jesse Morris, Yiduo Wang, Mikolaj Kliniewski, Viorela Ila

机构:University of Sydney (USyd)

原文链接:https://arxiv.org/abs/2501.11893

代码链接:https://github.com/ACFR-RPG/DynOSAM

1. 导读

传统的视觉同步定位与地图创建(vSLAM)系统只关注静态场景结构,忽略了环境中的动态元素。尽管这些方法对于复杂场景中的精确视觉里程计是有效的,但是它们丢弃了关于移动物体的关键信息。通过将该信息结合到动态SLAM框架中,可以估计动态实体的运动,从而在确保精确定位的同时增强导航。然而,动态SLAM的基本公式仍然是一个公开的挑战,对于SLAM流水线内精确运动估计的最佳方法没有共识。因此,我们开发了DynoSAM,这是一个用于动态SLAM的开源框架,能够有效地实现、测试和比较各种动态SLAM优化公式。DynoSAM将静态和动态测量集成到一个统一的优化问题中,使用因子图解决,同时估计相机姿态、静态场景、对象运动或姿态以及对象结构。我们在各种模拟和真实数据集上评估DynoSAM,在室内和室外环境中实现最先进的运动估计,与现有系统相比有显著改进。此外,我们展示了DynoSAM在下游应用中的效用,包括动态场景的3D重建和轨迹预测,从而展示了推进动态物体感知SLAM系统的潜力。DynoSAM是开源的。

2. 效果展示

:DynoSAM是一个开源的平滑和建图框架,用于动态SLAM。系统的输出显示在(a)中,包括相机和物体轨迹以及静态和每个物体的动态地图。(b)可视化基于特征的前端,除了视觉测距外,还执行多物体跟踪。(c)显示了从相机视角的动态地图,突出显示了每个物体的估计轨迹和跟踪的3D点

我们的下游应用之一,DynORecon在OMD实验中,逐步构建动态对象和静态背景的表面网格重建。(a):动态物体网格及其轨迹(独特颜色)的视觉化,以及静态背景(灰色),此外还包括相机姿态和轨迹(绿色);(b-d)):物体3逐步构建的网格。 推荐课程: 基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]

3. 主要贡献

本文的具体贡献如下:

• 提出了一个动态SLAM(Simultaneous Localization and Mapping,即同时定位与地图构建)框架,为基于图的解决方案的实施、测试和评估提供了一个结构化方法。我们的框架为评估动态SLAM流程建立了通用术语和指标,从而促进了更稳健的结论和分析。在此框架内,我们提出了一种可定制的公式集,作为实用动态SLAM系统的理论基础。我们针对每种方法进行了讨论和分析。

• 提出了一个完整的动态视觉SLAM流程,该流程整合了本文中提出的所有公式。我们在各种数据集上评估了系统的准确性。

• 提出了一种新颖的动态SLAM公式,该公式直接参数化场景中每个对象的姿态,同时确保保持刚体动力学。

• 对我们的框架和所提出的方法在各种数据集上进行了详尽评估,展示了最先进的性能。据我们所知,本文在现有文献中对动态SLAM公式的评估最为广泛之一。

• 实现了一种滑动窗口优化方法以限制计算量。我们分析了滑动窗口与全批量方法相比对整体准确性的影响。

• 将我们的动态SLAM流程与对导航高度相关的下游任务相结合,如动态对象重建[8]和轨迹预测。

作为我们的贡献之一,我们开源了DynoSAM的C++实现,该实现与Robot Operating System 2(ROS2)集成,并可以使用离线数据集或在线数据进行运行。此外,我们为每个模块提供了数据记录和序列化工具,以便进行评估和调试,并提供了一个配套的自动化评估套件,该套件已用于生成本文中的所有结果。

4. 方法

为了促进关键组件的模块化和并行化,DynoSAM的架构受Kimera启发。DynoSAM是一个基于因子图的动态视觉SLAM系统。在输入方面,我们的流程接受立体/RGBD图像、实例分割掩码和密集光流,并生成相机和对象的全局一致轨迹,以及每个对象的静态结构和时间地图。系统框图如图5所示。

我们的流程分为典型的前端和后端结构。前端处理图像数据以生成静态和动态特征轨迹,并为后端提供初步估计。前端负责跨帧的对象级数据关联,确保特征在同一对象上持续跟踪,从而实现稳健估计。后端通过基于GTSAM的因子图优化融合静态和动态测量,以产生动态场景的全局一致估计。我们的实现可以执行全批量平滑,即对整个测量范围内的系统进行优化,也可以执行滑动窗口估计,从而限制优化问题的大小。

5. 实验结果

6. 总结 & 未来工作

我们已推出DynoSAM,这是一个前沿的动态SLAM(Simultaneous Localization and Mapping,即同步定位与地图构建)开源框架,标志着机器人技术领域的重大进展。通过概述支撑我们方法的关键理论概念和公式,我们为解决动态环境挑战提供了坚实的基础。DynoSAM提供了一个结构良好的平台,用于实现、测试和评估动态SLAM解决方案,使研究人员和从业者能够更轻松、更精确地开发和基准测试创新方法。重要的是,我们的实现设计注重灵活性,模块间接口清晰界定,便于与现有方法和新方法集成。这一贡献为在动态和复杂环境中构建更可靠、更自适应的机器人系统铺平了道路。

本文深入探讨了动态SLAM问题的最新方法,并介绍了一种专为实际应用量身定制的新型公式。我们强调了从观察到的运动角度构建问题框架的重要性,这能够实现物体轨迹的准确估计和恢复。此外,我们还评估了所有讨论过的公式,并证明我们的框架在运动估计和视觉里程计方面均优于现有系统,为动态SLAM解决方案树立了新的基准。本文还展示了DynoSAM在下游任务(如运动预测和三维重建)中的有效性。这些能力共同构成了未来动态物体感知导航系统的基础。凭借用户友好的基础设施和全面的评估套件,我们旨在使DynoSAM成为一个稳健的平台,以推动动态SLAM领域的研究进步。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文