RA-L 2025 | DovSG：使机器人能够在动态和不断变化环境中准确执行长期任务

3D视觉工坊 · 公众号 · · 2025-03-01 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

添加小助理： cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

作者 | Zhijie Yan等编辑 | 具身智能之心

作者：Zhijie Yan ¹ , Shufei Li ² , Zuoxu Wang ¹ , Lixiu Wu ³ , Han Wang ⁴ , Jun Zhu ⁴ , Lijiang Chen ⁴ , Jihong Liu ¹
单位： ¹ 北京航空航天大学， ² 香港城市大学， ³ 中央民族大学， ⁴ Afanti Tech LLC
论文标题：Dynamic Open-Vocabulary 3D Scene Graphs for Long-term Language-Guided Mobile Manipulation
论文链接：https://arxiv.org/abs/2410.11989
项目主页：https://bjhyzj.github.io/dovsg-web/
代码链接：https://github.com/BJHYZJ/DovSG

研究背景

在动态、不断变化的真实环境中，移动机器人面临着执行长期任务的巨大挑战，尤其是当环境因人类交互或机器人自身动作频繁变化时。传统的机器人系统大多假设环境是静态的，因此无法有效应对环境的快速变化。这一局限性使得这些系统在面对高度动态的现实世界时表现不佳。为了能够在这些动态环境中持续执行复杂任务，机器人需要具备更强的适应性和实时更新感知的能力，以处理环境中的变化并支持长期任务的顺利进行。

主要贡献

DovSG 提出了一种新颖的机器人框架，将动态开放词汇的3D场景图与语言引导的任务规划相结合，使机器人能够在动态和交互环境中准确执行长期任务。
DovSG 构建了动态3D场景图，捕捉丰富的物体语义和空间关系，并在机器人与其环境交互时进行局部更新，使其能够高效适应环境的逐步变化。
DovSG 开发了一种任务规划方法，将复杂任务分解为可管理的子任务，包括拾取、放置和导航，增强了机器人在长期任务中的灵活性和可扩展性。
DovSG 在真实世界的移动机器人上实现了DovSG系统，并在动态环境中展示了其能力，证明了其在长期任务和子任务（如导航和操作）中的出色表现。

方法

DovSG 设计了一种基于动态三维场景图和大语言模型的任务规划系统，旨在帮助移动机器人在室内环境中执行长期任务。首先，系统通过RGB-D摄像头扫描环境，获取RGB-D图像序列，并通过坐标变换对场景进行标准化。接着，使用开放词汇的3D物体映射方法，识别、关联并融合场景中的物体，生成三维物体表示。根据这些物体的空间关系，构建三维场景图，并不断更新，适应环境变化。然后，通过语言引导的任务规划，将长时间跨度的任务分解为多个子任务，并通过导航和操作模块逐一执行。

室内场景扫描和坐标变换 。首先，系统使用RGB-D相机扫描家庭环境，捕捉RGB-D图像序列，并通过DROID-SLAM算法估算摄像头的位姿。为了确保坐标系统标准化，系统使用地面作为参考，通过RANSAC算法将地面平面对齐到全局坐标系（如图2左上角所示）。通过这种方式，确保了场景图中物体的空间关系能够准确反映环境的真实结构。
开放词汇3D物体映射 。在获取RGB-D图像和相机位姿后，系统构建了一个物体为中心的3D表示，逐步提取场景中的物体，并对其进行语义和几何特征的融合。在每一帧图像中，使用开放词汇的物体检测方法，提取物体类别、边界框和物体掩码，并通过CLIP模型提取视觉和文本特征（如图2中间所示）。通过计算几何和语义相似度，系统实现了物体的关联与融合，从而生成了更完整的3D场景表示。
3D场景图生成 。基于上述的物体表示，系统构建了一个3D场景图，其中包含了物体节点和物体之间的空间关系（例如“在上面”、“属于”、“在里面”，如图2右侧所示）。通过对物体点云进行体素化处理，减少计算和存储量，并根据物体之间的空间位置推断出这些关系，从而为后续的任务执行提供了结构化的信息。

动态场景适应 。在机器人执行任务过程中，环境会发生变化（如人为干扰或任务执行导致的变化，如图3所示）。为了使场景图能够适应这些动态变化，系统设计了一个动态更新机制。当机器人通过新的RGB-D图像获取到环境信息时，系统能够通过重新定位和特征匹配来更新场景图，去除已不存在的物体，并实时更新物体的空间关系。
语言引导的任务规划 。系统通过大语言模型（如GPT-4）对自然语言描述的任务进行分解，将长远的任务分解为多个子任务（如图1右上角所示）。每个子任务包含具体的“动作名称”和“物体名称”，从而使机器人能够理解并执行任务。任务规划的输出是机器人能够执行的具体操作，从而支持复杂的长期任务执行。

导航和操作 。导航部分，机器人根据当前的位姿和目标物体的位置，利用CLIP模型计算物体的语义嵌入，通过相似度匹配找到目标物体的实际位置，然后利用A*算法规划出无碰撞的路径并执行（如图1底部第二张子图所示）。操作部分，机器人在到达目标物体后，采用了结合Anygrasp和启发式规则结合的抓取方式（如图4所示）和放置操作实现物体的操控。

实验

通过在一系列真实环境中的动态场景任务，评估了 DovSG 在应对变化和长期任务执行方面的表现。我们设计了四个实际房间的实验场景，其中通过人工干预对物体的位置、数量等进行动态修改，模拟现实环境中的变化。我们的主要目标是验证系统是否能更新场景图，并在不需要手动重置的情况下，顺利完成连续任务。

实验设置

我们使用了带有RealSense D455摄像头的xARM6机械臂和Ranger Mini 3移动平台，并在不同的任务中加入了三种类型的环境变化：轻微调整、物体外观变化和显著位置变动。在这些动态环境中，系统需要持续执行任务并适应场景的变化。

评估指标

RA-L 2025 | DovSG：使机器人能够在动态和不断变化环境中准确执行长期任务

正文

研究背景

主要贡献

相关工作

方法

实验

实验设置

请到「今天看啥」查看全文