专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
51好读  ›  专栏  ›  3D视觉工坊

AAAI'25开源 | 越来越拟人化?FloNa:具身视觉导航新突破!

3D视觉工坊  · 公众号  ·  · 2025-01-22 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:FloNa: Floor Plan Guided Embodied Visual Navigation

作者:Jiaxin Li, Weiqi Huang, Zan Wang, Wei Liang, Huijun Di, Feng Liu

机构:Beijing Institute of Technology、Yangtze Delta Region Academy of Beijing Institute of Technology、Beijing Racobit Electronic Information Technology Co

原文链接:https://arxiv.org/abs/2412.18335

代码链接:https://gauleejx.github.io/flona/

1. 导读

人类自然依靠平面图在陌生的环境中导航,因为它们容易获得、可靠,并且提供丰富的几何指导。然而,现有的视觉导航设置忽略了这种有价值的先验知识,导致效率和准确性有限。为了消除这种差距,我们引入了一种新的导航任务:平面图视觉导航(FloNa),这是第一次尝试将平面图整合到嵌入式视觉导航中。虽然平面图提供了显著的优势,但是出现了两个关键的挑战:(1)处理平面图和实际场景布局之间的空间不一致性,以实现无冲突导航,以及(2)将观察到的图像与平面图草图对齐,尽管它们具有不同的形态。为了应对这些挑战,我们提出了FloDiff,一种新的扩散策略框架,结合了本地化模块,以促进当前观察和平面图之间的对齐。我们进一步收集20k导航剧集117支持培训和评估的iGibson模拟器中的场景。大量的实验证明了我们的框架在使用平面图知识的陌生场景中的有效性和效率。

2. 效果展示

平面图视觉导航(FloNa):给定一个平面图,用红色圆点表示标记的目标,代理的任务是利用RGB观测值导航到环境中的相应目标位置。为了解决这个任务,我们提出了FloDif,这是一个新颖的基于扩散政策的框架,可以迭代地生成和细化计划中的轨迹。

我们收集的数据集中的典型场景、可导航区域、导航剧集。我们分别使用绿色和蓝色来显示短剧和长剧集。

3. 引言

具身人工智能(Embodied AI)中的一项关键任务是使智能体能够在多样化的环境中向目标导航,目标可以表示为点、图像、物体或语言指令。近期,研究人员越来越多地利用容易获取的先验知识来提高效率和准确性。其中,平面图作为一种有价值且广泛可用的知识来源,提供了高级别的语义和几何信息,能够帮助智能体在未知空间中进行定位和导航。此外,将平面图融入其中有利于多种应用,如应急响应、搜救以及动态公共环境中的路径规划。

先前的研究已经探索了整合平面图来促进定位和导航的方法,通常依赖于多传感器融合或对平面图结构施加约束,这限制了其实际应用性。受人类能够在不熟悉的环境中使用最少的抽象信息和视觉线索高效导航的能力启发,我们的目标是减少在导航过程中对传感器的依赖和对平面图结构的约束。

在本研究中,我们引入了一项新的导航任务——平面图视觉导航(FloNa),其中智能体使用抽象平面图和一系列RGB观测值在环境中导航。尽管平面图提供了宝贵的先验知识,但这项任务仍面临两大挑战。首先,由于平面图与实际观察到的布局之间存在显著差异(主要由场景中的家具摆放引起),导致空间不一致性,这可能会在导航过程中引发碰撞。其次,由于平面图提供的是抽象的拓扑信息,而RGB观测值捕捉的是从特定视角观察到的自然场景的外观,因此会出现观测错位,导致当前观测值在平面图中的定位错误,从而阻碍规划的有效性。

为解决这些挑战,我们开发了FloDiff,这是一个新颖的扩散策略框架,它利用强大的动作分布建模能力来学习从大量演示中隐式处理空间不一致性。FloDiff还整合了一个显式的定位模块来对齐观测值和平面图,根据当前智能体姿态的推导方式,产生了两种变体:(1)NaiveFloDiff,在训练期间学习预测姿态;(2)Loc-FloDiff,直接使用真实姿态或来自预训练模型的预测。这两种变体都使用Transformer主干网络来融合平面图和当前观测值,然后将融合结果传递给策略网络,该网络学习对动作序列进行去噪。 推荐课程: 国内首个面向具身智能方向的理论与实战课程

为了进行基准测试,我们使用iGibson模拟器收集了包含约20,000个导航片段、跨越117个不同场景的数据集。该数据集包括使用45度视场捕捉的大约330万张图像。我们将场景分为67个用于训练,50个用于测试,以评估模型在未见过环境中的泛化能力。每个场景包括一个平面图、一个可通行性地图和足够的导航片段。每个片段包含一个A*生成的轨迹以及与其对应的RGB观测值。

大量实验证明了我们的方法在使用平面图在未见过环境中导航的有效性和效率。与基线方法相比,我们的方法在成功率(SR)和通过路径长度加权的成功率(SPL)衡量的效率方面均表现更佳。此外,我们还全面分析了FloDiff的不同能力,包括定位、避障、多样化目标的规划以及鲁棒性。在无需微调的情况下,FloDiff在自动导引车(AGV)上的真实世界部署进一步凸显了其鲁棒性和泛化能力,证明了其在实际场景中有效处理未见场景的潜力。

4. 主要贡献

我们的贡献总结如下:

• 我们提出了FloNa,这是一项使用RGB观测值和平面图向目标导航的新任务,丰富了具身视觉导航的应用场景。

• 我们提出了一种新颖的基于端到端扩散策略的框架,即FloDiff,通过整合显式的智能体定位来高效、有效地解决FloNa。

• 我们在精心策划的数据集上进行了大量实验,并全面分析了FloDiff在不同维度上的能力,证明了其相对于基线方法的优越性。

5. 方法

FloDiff使用一个注意力模块来融合来自视觉观测和平面图的特征,生成上下文嵌入。根据当前智能体姿态的推导方式,FloDiff有两种变体:(1)NaiveFloDiff(下文),它在策略学习期间学习预测当前姿态;(2)Loc-FloDiff(上文),它直接使用真实姿态或来自预训练模型的预测。然后,将观测上下文、目标位置和当前智能体姿态拼接起来,输入策略网络以生成动作。

6. 实验结果

7. 总结

总之,本文介绍了FloNa,这是第一个将平面图集成到实体视觉导航中的工作。为了解决FloNa的问题,我们开发了FloDiff,这是一个高效有效的扩散政策框架,集成了明确的定位模块,并精心准备了一个基准数据集。FloDiff在对比基准上的优越表现突显了我们方法的有前途潜力。通过展示这一实际设置和解决方案,我们的目标是激励视觉导航领域的进一步研究,并为该领域的进步做出贡献。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文