专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
能源新媒  ·  订购推荐 ... ·  昨天  
福州新闻网  ·  微信、快手、抖音相继宣布:下架! ·  2 天前  
福州新闻网  ·  微信、快手、抖音相继宣布:下架! ·  2 天前  
51好读  ›  专栏  ›  3D视觉工坊

RA-L 2025 | DovSG:使机器人能够在动态和不断变化环境中准确执行长期任务

3D视觉工坊  · 公众号  ·  · 2025-03-01 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

添加小助理: cv3d001,备注: 方向+学校/公司+昵称,拉你入群。 文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

作者 | Zhijie Yan等 编辑 | 具身智能之

图1. DovSG 系统实现整体流程
图1. DovSG 系统实现整体流程
  • 作者:Zhijie Yan 1 , Shufei Li 2 , Zuoxu Wang 1 , Lixiu Wu 3 , Han Wang 4 , Jun Zhu 4 , Lijiang Chen 4 , Jihong Liu 1

  • 单位: 1 北京航空航天大学, 2 香港城市大学, 3 中央民族大学, 4 Afanti Tech LLC

  • 论文标题:Dynamic Open-Vocabulary 3D Scene Graphs for Long-term Language-Guided Mobile Manipulation

  • 论文链接:https://arxiv.org/abs/2410.11989

  • 项目主页:https://bjhyzj.github.io/dovsg-web/

  • 代码链接:https://github.com/BJHYZJ/DovSG


研究背景

在动态、不断变化的真实环境中,移动机器人面临着执行长期任务的巨大挑战,尤其是当环境因人类交互或机器人自身动作频繁变化时。传统的机器人系统大多假设环境是静态的,因此无法有效应对环境的快速变化。这一局限性使得这些系统在面对高度动态的现实世界时表现不佳。为了能够在这些动态环境中持续执行复杂任务,机器人需要具备更强的适应性和实时更新感知的能力,以处理环境中的变化并支持长期任务的顺利进行。


主要贡献

  • DovSG 提出了一种新颖的机器人框架,将动态开放词汇的3D场景图与语言引导的任务规划相结合,使机器人能够在动态和交互环境中准确执行长期任务。

  • DovSG 构建了动态3D场景图,捕捉丰富的物体语义和空间关系,并在机器人与其环境交互时进行局部更新,使其能够高效适应环境的逐步变化。

  • DovSG 开发了一种任务规划方法,将复杂任务分解为可管理的子任务,包括拾取、放置和导航,增强了机器人在长期任务中的灵活性和可扩展性。

  • DovSG 在真实世界的移动机器人上实现了DovSG系统,并在动态环境中展示了其能力,证明了其在长期任务和子任务(如导航和操作)中的出色表现。


相关工作

  1. 3D场景表示 :机器人领域的3D场景表示方法通常有两种主要途径:一种是使用基础模型构建3D结构,另一种是结合2D图像和视觉语言模型。这些方法在开放词汇任务和语言引导物体定位方面表现出色,但在动态机器人应用中,由于密集的语义特征过于冗余且内存消耗大,限制了其使用。

  2. 3D场景图用于记忆 :3D场景图通过层次化的图结构表示场景中的物体及其关系,能够高效地在机器人记忆中存储语义信息。尽管一些方法如ConceptGraphs和HOV-SG通过减少冗余来提高场景图的存储效率,但它们通常假设环境是静态的。RoboEXP通过结合空间关系和逻辑关联,解决了动态环境下的场景更新问题,并在移动机器人中得到了应用。

  3. 大型语言模型用于规划 :大型语言模型(LLMs)和视觉语言模型(VLMs)在机器人规划中展现出巨大潜力。它们能够生成轨迹和规划操作,提高机器人适应性。本文通过将GPT-4与3D场景图结合,帮助机器人将复杂任务分解为可执行的子任务,提升了任务执行的灵活性和适应性。

  4. 室内视觉定位与交互 :机器人交互依赖于6自由度姿态的精确追踪,视觉重定位技术主要分为基于结构的方法和基于学习的方法。本文结合了ACE、LightGlue和ICP的优势,以实现快速且精准的室内重定位,克服了传统方法在大规模环境中的挑战,同时提升了小型静态环境中的性能。


方法

DovSG 设计了一种基于动态三维场景图和大语言模型的任务规划系统,旨在帮助移动机器人在室内环境中执行长期任务。首先,系统通过RGB-D摄像头扫描环境,获取RGB-D图像序列,并通过坐标变换对场景进行标准化。接着,使用开放词汇的3D物体映射方法,识别、关联并融合场景中的物体,生成三维物体表示。根据这些物体的空间关系,构建三维场景图,并不断更新,适应环境变化。然后,通过语言引导的任务规划,将长时间跨度的任务分解为多个子任务,并通过导航和操作模块逐一执行。

图2. 3D场景图的初始化与构建
图2. 3D场景图的初始化与构建
  1. 室内场景扫描和坐标变换 。首先,系统使用RGB-D相机扫描家庭环境,捕捉RGB-D图像序列,并通过DROID-SLAM算法估算摄像头的位姿。为了确保坐标系统标准化,系统使用地面作为参考,通过RANSAC算法将地面平面对齐到全局坐标系(如图2左上角所示)。通过这种方式,确保了场景图中物体的空间关系能够准确反映环境的真实结构。
  2. 开放词汇3D物体映射 。在获取RGB-D图像和相机位姿后,系统构建了一个物体为中心的3D表示,逐步提取场景中的物体,并对其进行语义和几何特征的融合。在每一帧图像中,使用开放词汇的物体检测方法,提取物体类别、边界框和物体掩码,并通过CLIP模型提取视觉和文本特征(如图2中间所示)。通过计算几何和语义相似度,系统实现了物体的关联与融合,从而生成了更完整的3D场景表示。
  3. 3D场景图生成 。基于上述的物体表示,系统构建了一个3D场景图,其中包含了物体节点和物体之间的空间关系(例如“在上面”、“属于”、“在里面”,如图2右侧所示)。通过对物体点云进行体素化处理,减少计算和存储量,并根据物体之间的空间位置推断出这些关系,从而为后续的任务执行提供了结构化的信息。
图3. DovSG 在动态交互场景中的自适应性。
图3. DovSG 在动态交互场景中的自适应性。
  1. 动态场景适应 。在机器人执行任务过程中,环境会发生变化(如人为干扰或任务执行导致的变化,如图3所示)。为了使场景图能够适应这些动态变化,系统设计了一个动态更新机制。当机器人通过新的RGB-D图像获取到环境信息时,系统能够通过重新定位和特征匹配来更新场景图,去除已不存在的物体,并实时更新物体的空间关系。
  2. 语言引导的任务规划 。系统通过大语言模型(如GPT-4)对自然语言描述的任务进行分解,将长远的任务分解为多个子任务(如图1右上角所示)。每个子任务包含具体的“动作名称”和“物体名称”,从而使机器人能够理解并执行任务。任务规划的输出是机器人能够执行的具体操作,从而支持复杂的长期任务执行。
图4. DovSG 中提出的两种抓取策略。
图4. DovSG 中提出的两种抓取策略。
  1. 导航和操作 。导航部分,机器人根据当前的位姿和目标物体的位置,利用CLIP模型计算物体的语义嵌入,通过相似度匹配找到目标物体的实际位置,然后利用A*算法规划出无碰撞的路径并执行(如图1底部第二张子图所示)。操作部分,机器人在到达目标物体后,采用了结合Anygrasp和启发式规则结合的抓取方式(如图4所示)和放置操作实现物体的操控。


实验

通过在一系列真实环境中的动态场景任务,评估了 DovSG 在应对变化和长期任务执行方面的表现。我们设计了四个实际房间的实验场景,其中通过人工干预对物体的位置、数量等进行动态修改,模拟现实环境中的变化。我们的主要目标是验证系统是否能更新场景图,并在不需要手动重置的情况下,顺利完成连续任务。



实验设置

我们使用了带有RealSense D455摄像头的xARM6机械臂和Ranger Mini 3移动平台,并在不同的任务中加入了三种类型的环境变化:轻微调整、物体外观变化和显著位置变动。在这些动态环境中,系统需要持续执行任务并适应场景的变化。

评估指标

图5. 人为对场景中物体变化的程度。






请到「今天看啥」查看全文