点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
添加小助理:
cv3d001,备注:
方向+学校/公司+昵称,拉你入群。
文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
作者 |
Zhijie Yan等
编辑 |
具身智能之
心
图1. DovSG 系统实现整体流程
-
作者:Zhijie Yan
1
, Shufei Li
2
, Zuoxu Wang
1
, Lixiu Wu
3
, Han Wang
4
, Jun Zhu
4
, Lijiang Chen
4
, Jihong Liu
1
-
单位:
1
北京航空航天大学,
2
香港城市大学,
3
中央民族大学,
4
Afanti Tech LLC
-
论文标题:Dynamic Open-Vocabulary 3D Scene Graphs for Long-term Language-Guided Mobile Manipulation
-
论文链接:https://arxiv.org/abs/2410.11989
-
项目主页:https://bjhyzj.github.io/dovsg-web/
-
代码链接:https://github.com/BJHYZJ/DovSG
研究背景
在动态、不断变化的真实环境中,移动机器人面临着执行长期任务的巨大挑战,尤其是当环境因人类交互或机器人自身动作频繁变化时。传统的机器人系统大多假设环境是静态的,因此无法有效应对环境的快速变化。这一局限性使得这些系统在面对高度动态的现实世界时表现不佳。为了能够在这些动态环境中持续执行复杂任务,机器人需要具备更强的适应性和实时更新感知的能力,以处理环境中的变化并支持长期任务的顺利进行。
主要贡献
-
DovSG 提出了一种新颖的机器人框架,将动态开放词汇的3D场景图与语言引导的任务规划相结合,使机器人能够在动态和交互环境中准确执行长期任务。
-
DovSG 构建了动态3D场景图,捕捉丰富的物体语义和空间关系,并在机器人与其环境交互时进行局部更新,使其能够高效适应环境的逐步变化。
-
DovSG 开发了一种任务规划方法,将复杂任务分解为可管理的子任务,包括拾取、放置和导航,增强了机器人在长期任务中的灵活性和可扩展性。
-
DovSG 在真实世界的移动机器人上实现了DovSG系统,并在动态环境中展示了其能力,证明了其在长期任务和子任务(如导航和操作)中的出色表现。
相关工作
-
3D场景表示
:机器人领域的3D场景表示方法通常有两种主要途径:一种是使用基础模型构建3D结构,另一种是结合2D图像和视觉语言模型。这些方法在开放词汇任务和语言引导物体定位方面表现出色,但在动态机器人应用中,由于密集的语义特征过于冗余且内存消耗大,限制了其使用。
-
3D场景图用于记忆
:3D场景图通过层次化的图结构表示场景中的物体及其关系,能够高效地在机器人记忆中存储语义信息。尽管一些方法如ConceptGraphs和HOV-SG通过减少冗余来提高场景图的存储效率,但它们通常假设环境是静态的。RoboEXP通过结合空间关系和逻辑关联,解决了动态环境下的场景更新问题,并在移动机器人中得到了应用。
-
大型语言模型用于规划
:大型语言模型(LLMs)和视觉语言模型(VLMs)在机器人规划中展现出巨大潜力。它们能够生成轨迹和规划操作,提高机器人适应性。本文通过将GPT-4与3D场景图结合,帮助机器人将复杂任务分解为可执行的子任务,提升了任务执行的灵活性和适应性。
-
室内视觉定位与交互
:机器人交互依赖于6自由度姿态的精确追踪,视觉重定位技术主要分为基于结构的方法和基于学习的方法。本文结合了ACE、LightGlue和ICP的优势,以实现快速且精准的室内重定位,克服了传统方法在大规模环境中的挑战,同时提升了小型静态环境中的性能。
方法
DovSG 设计了一种基于动态三维场景图和大语言模型的任务规划系统,旨在帮助移动机器人在室内环境中执行长期任务。首先,系统通过RGB-D摄像头扫描环境,获取RGB-D图像序列,并通过坐标变换对场景进行标准化。接着,使用开放词汇的3D物体映射方法,识别、关联并融合场景中的物体,生成三维物体表示。根据这些物体的空间关系,构建三维场景图,并不断更新,适应环境变化。然后,通过语言引导的任务规划,将长时间跨度的任务分解为多个子任务,并通过导航和操作模块逐一执行。
图2. 3D场景图的初始化与构建
-
室内场景扫描和坐标变换
。首先,系统使用RGB-D相机扫描家庭环境,捕捉RGB-D图像序列,并通过DROID-SLAM算法估算摄像头的位姿。为了确保坐标系统标准化,系统使用地面作为参考,通过RANSAC算法将地面平面对齐到全局坐标系(如图2左上角所示)。通过这种方式,确保了场景图中物体的空间关系能够准确反映环境的真实结构。
-
开放词汇3D物体映射
。在获取RGB-D图像和相机位姿后,系统构建了一个物体为中心的3D表示,逐步提取场景中的物体,并对其进行语义和几何特征的融合。在每一帧图像中,使用开放词汇的物体检测方法,提取物体类别、边界框和物体掩码,并通过CLIP模型提取视觉和文本特征(如图2中间所示)。通过计算几何和语义相似度,系统实现了物体的关联与融合,从而生成了更完整的3D场景表示。
-
3D场景图生成
。基于上述的物体表示,系统构建了一个3D场景图,其中包含了物体节点和物体之间的空间关系(例如“在上面”、“属于”、“在里面”,如图2右侧所示)。通过对物体点云进行体素化处理,减少计算和存储量,并根据物体之间的空间位置推断出这些关系,从而为后续的任务执行提供了结构化的信息。
图3. DovSG 在动态交互场景中的自适应性。
-
动态场景适应
。在机器人执行任务过程中,环境会发生变化(如人为干扰或任务执行导致的变化,如图3所示)。为了使场景图能够适应这些动态变化,系统设计了一个动态更新机制。当机器人通过新的RGB-D图像获取到环境信息时,系统能够通过重新定位和特征匹配来更新场景图,去除已不存在的物体,并实时更新物体的空间关系。
-
语言引导的任务规划
。系统通过大语言模型(如GPT-4)对自然语言描述的任务进行分解,将长远的任务分解为多个子任务(如图1右上角所示)。每个子任务包含具体的“动作名称”和“物体名称”,从而使机器人能够理解并执行任务。任务规划的输出是机器人能够执行的具体操作,从而支持复杂的长期任务执行。
图4. DovSG 中提出的两种抓取策略。
-
导航和操作
。导航部分,机器人根据当前的位姿和目标物体的位置,利用CLIP模型计算物体的语义嵌入,通过相似度匹配找到目标物体的实际位置,然后利用A*算法规划出无碰撞的路径并执行(如图1底部第二张子图所示)。操作部分,机器人在到达目标物体后,采用了结合Anygrasp和启发式规则结合的抓取方式(如图4所示)和放置操作实现物体的操控。
实验
通过在一系列真实环境中的动态场景任务,评估了 DovSG 在应对变化和长期任务执行方面的表现。我们设计了四个实际房间的实验场景,其中通过人工干预对物体的位置、数量等进行动态修改,模拟现实环境中的变化。我们的主要目标是验证系统是否能更新场景图,并在不需要手动重置的情况下,顺利完成连续任务。
实验设置
我们使用了带有RealSense D455摄像头的xARM6机械臂和Ranger Mini 3移动平台,并在不同的任务中加入了三种类型的环境变化:轻微调整、物体外观变化和显著位置变动。在这些动态环境中,系统需要持续执行任务并适应场景的变化。
评估指标