专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
l 看齐 l  ·  刚刚!王曼昱夺冠! ·  9 小时前  
l 看齐 l  ·  刚刚!王曼昱夺冠! ·  9 小时前  
中国基金报  ·  证监会出手,重罚! ·  2 天前  
中国基金报  ·  今夜,大跳水! ·  3 天前  
中国基金报  ·  华为,重磅!“黑科技”来了 ·  3 天前  
51好读  ›  专栏  ›  3DCV

迈向真实世界的视觉导航!RoomTour3D:具身导航的几何感知

3DCV  · 公众号  ·  · 2024-12-29 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

作者:Mingfei Han, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev

机构:Department of Computer Vision, MBZUAI、Shenzhen Campus of Sun Yat-Sen University、ReLER Lab, AAII, UTS、University of Science and Technology of China

原文链接:https://arxiv.org/abs/2412.08591

代码链接:https://github.com/roomtour3d/roomtour3d-NaviLLM

1. 导读

视觉和语言导航(VLN)受到训练数据的有限多样性和规模的影响,主要受到现有模拟器的手动管理的限制。为了解决这个问题,我们引入了RoomTour3D,这是一个视频教学数据集,来自基于网络的房间游览视频,捕捉真实世界的室内空间和人类行走演示。与现有的VLN数据集不同,RoomTour3D利用在线视频的规模和多样性来生成开放式人类行走轨迹和开放式导航指令。为了弥补在线视频中导航数据的缺乏,我们执行3D重建并获得行走路径的3D轨迹,这些轨迹增加了关于房间类型、物体位置和周围场景的3D形状的附加信息。我们的数据集包括∼100K开放式描述-丰富的轨迹∼来自1847个房间游览环境的200K指令和17K动作丰富的轨迹。我们通过实验证明,RoomTour3D能够显著改善多个VLN任务,包括CVDN、索恩、R2R和遐想。此外,RoomTour3D促进了可训练的零射击VLN代理的发展,展示了向开放世界导航前进的潜力和挑战。

2. 引言

近年来,视觉与语言导航(Vision-and-Language Navigation,VLN)在很大程度上依赖于人为设计的模拟器和标注轨迹。R2R(Room-to-Room)为模拟室内环境下的语言指导导航设立了基准,而CVDN(Collaborative Vision and Dialog Navigation)、REVERIE(Remote Embodied Visual Referring Expression in Real Indoor Environments)和SOON(Semantic Object Occupancy Network)则将VLN扩展到了基于对话和以对象为中心的任务。然而,这些人工整理的模拟环境缺乏场景多样性,且未能捕捉现实世界的复杂性。

为解决多样性受限的问题,最近的方法提出使用更丰富和更多样化的训练数据。AirBERT结合了离散的Airbnb图像以形成全景视图,但缺乏室内场景的一致性和自然背景。ScaleVLN使用了费力整理的3D场景,但受到重建质量和可扩展性的限制。最近,YTB-VLN(YouTube-based Vision-and-Language Navigation)尝试使用视频帧来合成全景视图,并使用预定义模板组织指令,但忽略了对象的多样性和几何结构。NaVid从MatterPort3D和R2R的标注中构建了连续的单视图轨迹,并与通用视频数据配对以训练模拟到真实的代理。然而,这些方法均未能同时在场景多样性、对象种类的开放性或空间表征中的综合地理感知方面实现可扩展性,而这三者对于训练有效且适用于开放世界的导航代理至关重要。 推荐课程: 国内首个面向具身智能方向的理论与实战课程

为解决这一挑战,我们引入了RoomTour3D,这是一个为VLN代理提供几何感知且空间丰富的训练环境的新型数据集。RoomTour3D基于互联网上易于获取的房屋参观视频构建,通过第一人称视角的手持摄像机捕捉在房地产中的连续移动。每一帧都呈现了一个以代理为中心的逼真视图,并展示了丰富的室内物品。这些帧的连续流动捕捉了环境的多个视图,展现了多样的房间布局,并内在地嵌入了空间的几何属性。为释放这些视频的力量,我们提出了一个自动且可扩展的管道,以获得开放式的几何感知人类行走轨迹,并使用开放词汇生成具有空间上下文关联的文本指令。

为了更好地模拟导航场景,我们利用连续的穿越轨迹,并从房屋参观视频中密集采样帧。然后,我们使用COLMAP重建房地产的3D场景以获得几何信息。通过访问相机位置和方向,我们在最大偏航旋转点采样“决策”帧,并每隔约1.5米进一步采样帧以最终确定轨迹。此外,我们的管道通过采用RAM进行对象标注、Grounding-DINO进行精确定位,以及DepthAnything来评估对象与相机之间的相对距离,从而融入了广泛的标注。为了将对象种类、几何感知和人类行走偏好的知识融入模型训练,我们使用GPT-4生成了用于总结和特定任务导航任务的导航指令。

我们的RoomTour3D是一个持续努力的项目,旨在创建一个从房屋参观视频衍生而来并丰富了人类居住知识的综合数据库。目前,该数据集包含约10万个开放式轨迹和约20万个描述,以及来自1847个房屋的约1.7万个具有可导航动作的几何感知轨迹。此外,我们还发布了中间产品,如对象标签、边界框、深度图、房间位置,以及用于生成指令的必要代码和提示。为验证其鲁棒性,我们使用了NaviLLM(一种基于大型语言模型(Large Language Model,LLM)的通用模型)进行了实验,以训练一个统一的多任务导航代理。将我们的数据融入训练同时提升了如CVDN、SOON、R2R和REVERIE等基线性能,改进幅度超过6%,在SOON上实现了9.8%的显著提升,并设立了新的最优水平(state-of-the-art,SOTA)结果。此外,我们丰富的动作-指令数据使得能够训练端到端的零样本导航代理,朝着开放世界的具身导航迈进。

3. 主要贡献

我们做出了以下主要贡献:

• 复杂环境的视频收集:我们整理了一个专为导航任务设计的新型多样化视频数据集,使其与现有的数据集(如YTB-VLN)相区分。我们的数据集包含更长的视频,能够表示更复杂的环境,并且镜头切换更少,确保了连续性和上下文一致性。

• 视频的自动化预处理:我们提出了一个管道,以自动提取几何感知的导航指令,使空间理解与导航目标保持一致。此外,我们还为多样且开放式的轨迹生成了开放词汇指令,以增强其在现实世界中的适用性。

• 数据有效性的验证:通过广泛的实验和消融研究,我们证明了我们的数据集显著提升了最优水平模型的性能。

4. RoomTour3D

我们介绍了RoomTour3D的自动数据整理管道。我们详细描述了从采样开放式人类行走轨迹到生成具有开放世界对象种类和空间感知的相应描述的过程。在重建的3D场景的帮助下,我们进一步采样了具有动作的可导航轨迹。我们的数据生成整体管道如图1所示。

物体多样性与空间感知。为了利用物体多样性并实现空间感知,我们构建了三个专家模型,并设计了一个文本模板,即:“存在一个物体标签,用于标记当前位置相对于的空间位置”,以此组织多源信息,从而简化GPT(生成式预训练Transformer 3)的生成过程。首先,我们使用RAM[61]为帧内的物体类别进行标注。基于这些类别标签,我们采用Grounding DINO定位帧中的物体。随后,我们使用Depth-Anything预测与帧相对应的深度图。利用这些数据,我们可以确定物体相对于当前相机位置的空间位置和距离。通过分析物体边界框的中心位置和深度图位置,我们可以生成帧的标题,如图2所示。最后,不同帧中的物体可以轻松地进行关联,并捕捉不同帧之间的进程。

为了从可扩展的场景中学习导航决策,我们将NaviLLM(一种基于LLM(大型语言模型)的导航模型)适应于我们RoomTour3D中的动作丰富的轨迹。与从单个位置捕获观察的全景视图不同,我们的数据提供了来自不同位置和方向的帧的候选视图,其中只有一个帧指向目的地。视频序列中的每个帧都被视为一个潜在的可导航动作,并用 (候选)标记进行包裹。这些候选视图以与全景视图相同的方式呈现给模型并进行处理。如图3(b)所示,模型处理输入以预测下一个动作,从候选视图中选择适当的帧。然后,将所选动作缓存为 (历史)标记,用于后续的决策步骤。

在微调过程中,每个帧都被视为一个可导航的步骤,下一个轨迹帧作为目标动作, (停止)作为备选。模型使用历史观察和导航指令迭代预测下一个动作,从而对路径建立详细的理解。在最后一步,模型总结导航路径,包括物体的进程和房间的位置。此总结任务增强了其回忆导航历史的能力,并提高了性能。

5. 实验结果

如表1所示,我们对四个任务进行了一次性微调,采用完全监督的方式。首先,我们的实验再次验证了多任务训练相较于单任务训练的优越性。此外,将我们的RoomTour3D数据融入预训练过程,在Val-U的所有指标上都带来了持续改进,并在CVDN数据集的GP指标上取得了最先进的结果。值得注意的是,使用我们动作丰富的数据进行微调,在SOON、R2R和REVERIE任务的Val-U和Test集上都取得了最先进的性能。虽然CVDN和SOON数据集上的改进幅度适中,但与再现基线相比,R2R Val-U和REVERIE Val-U上的提升最为显著,分别提高了约5.7%和6%。R2R的改进主要得益于空间感知的增强,这得益于邻近数据的纳入,这有助于模型更好地理解物体的距离和位置。同样,REVERIE的收益归功于开放词汇标签、空间感知和房间类型数据的添加,这鼓励模型推断环境布局,从而增强其空间推理能力。此外,我们使用开放式的指令,使模型能够灵活地适应各种场景,从而表现出更稳健和泛化的性能,并更好地理解上下文。

为了进一步证明我们的数据中包含的丰富室内知识及其对具身动作和语言指令的有效性,我们对具身动作预测进行了零样本实验,如表3所示。我们从训练数据集中删除了所有动作和几何数据,并使用和不使用我们的RoomTour3D数据集重新训练了NaviLLM。在没有动作预测数据的情况下,NaviLLM无法学习有效的可导航动作选择。然而,在纳入我们动作丰富的轨迹后,NaviLLM实现了14.33%的成功率(SR)和10.86%的标准路径长度比(SPL),优于基于LLaMA-7B构建的开源模型,并达到了与利用GPT-3.5的NavGPT[64]相当的结果。这些改进验证了我们从房间参观视频重建中挖掘的3D轨迹的有效性,并强调了我们的动作丰富轨迹的价值。这凸显了我们的数据集在推动开放世界导航方面的重大贡献。

6. 总结 & 未来工作

在本文中,我们提出了RoomTour3D,这是一个从房间参观视频自动整理得到的新型数据集,用于视觉语言导航(VLN)任务。通过利用视频数据的丰富性和顺序性,并结合物体多样性和空间感知,我们从1847个房间参观场景中生成了20万条导航指令和1.7万条动作丰富的轨迹。此外,我们还从视频帧和重建的3D场景中生成了可导航轨迹,这显著提升了性能,并在SOON和REVERIE基准上创造了新的最先进结果。这种方法还使得能够开发一个可训练的零样本导航代理,证明了RoomTour3D在推动VLN研究方面的有效性和可扩展性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文