专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
姑苏晚报  ·  刚刚,苏州公积金中心回应! ·  12 小时前  
媒哥媒体招聘  ·  上海中西书局有限公司招聘! ·  2 天前  
媒哥媒体招聘  ·  明星造型团队THEICON急招造型师等岗! ·  3 天前  
天玑-无极领域  ·  1、降低杠杆,增加容错率。2、减少交易频次, ... ·  2 天前  
岳西网  ·  曝光!岳西街头他们被拍下! ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

ConceptGraphs:用于感知和规划的开放词汇 3D 场景图

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-10-01 00:32

正文

23年9月来自多伦多大学、蒙特利尔大学、MIT等的论文“ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning”。

为了让机器人执行各种各样的任务,它们需要一个语义丰富、紧凑且高效的 3D 世界表示,以实现任务驱动的感知和规划。最近的方法试图利用大型视觉-语言模型的特征来编码 3D 表示中的语义。然而,这些方法往往会生成具有逐点特征向量的地图,这些地图在较大的环境中扩展性不佳,也不包含环境中实体之间的语义空间关系,而这些关系对于下游规划很有用。这项工作提出 ConceptGraphs,一种用于 3D 场景的开放词汇图结构表示。ConceptGraphs 是通过利用 2D 基础模型并通过多视图关联将其输出融合到 3D 来构建的。生成的表示,可以推广到新的语义类,无需收集大型 3D 数据集或微调模型。通过许多下游规划任务展示了这种表示的实用性,这些任务通过抽象(语言)提示指定,需要对空间和语义概念进行复杂的推理。


场景表征是关键的设计选择之一,它可以促进各种任务(包括移动性和操作性)的下游规划。机器人在环境中导航时,需要根据机载传感器在线构建这些表征。为了高效执行复杂任务,这种表征应具备以下特点:随着场景体量和机器人操作持续时间的增加,可进行扩展且易于维护;词汇开放,不仅限于对训练时预定义的一组概念进行推断,还能够在推理时处理新目标和概念;具有灵活的细节级别,可以规划一系列任务,从需要密集几何信息进行移动性和操作的任务,到需要抽象语义信息和目标级affordance信息进行任务规划的任务。

ConceptGraphs 构建开放词汇 3D 场景图的概述如图所示。(a) 设计一个基于目标的建图系统,仅假设与类别无关的实例掩码并将其融合到 3D 中,(b) 利用大型视觉-语言模型解释和提取每个映射实例的语言标签,以及 (c) 利用大语言模型中编码的先验构建目标-空间关系图。ConceptGraphs 以目标为中心的特性允许轻松维护地图并提高可扩展性,并且图结构提供场景内的关系信息。此外,场景图表示很容易映射到自然语言格式与 LLM 交互,使它们能够回答复杂的场景查询并允许机器人访问有关周围目标的有用事实,例如可遍历性和实用性。在轮式和腿式移动机器人平台上的一系列现实世界机器人任务中实现并演示了 ConceptGraphs。


ConceptGraphs 构建紧凑、语义丰富的 3D 环境表示。 给定一组姿态的 RGB-D 帧,运行一个与类别无关的分割模型来获取候选目标,使用几何和语义相似性度量在多个视图之间关联它们,并在 3D 场景图中实例化节点。 然后,用大型 VLM 为每个节点添加字幕,并使用 LLM 推断相邻节点之间的关系,从而产生场景图中的边。 这个场景图是开放词汇的,封装了目标属性,可用于多种下游任务,包括分割、目标接地、导航、操作、定位和重映射。 该方法如图所示。


ConceptGraphs 的模块化特性,使得任何合适的开放/封闭词汇分割模型、LLM 或 LVLM 都可以使用。 实验使用 Segment-Anything (SAM) [33] 作为分割模型 Seg(·),使用 CLIP 图像编码器 [31] 作为特征提取器 Embed(·)。 用 LLaVA [55] 作为大规模视觉-语言模型 VLM,使用 GPT-4 [32] (gpt-4-0613) 作为 LLM。 点云下采样和最近邻阈值 δnn 的体素大小均为 2.5cm。







请到「今天看啥」查看全文