23年9月来自多伦多大学、蒙特利尔大学、MIT等的论文“ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning”。
为了让机器人执行各种各样的任务,它们需要一个语义丰富、紧凑且高效的 3D 世界表示,以实现任务驱动的感知和规划。最近的方法试图利用大型视觉-语言模型的特征来编码 3D 表示中的语义。然而,这些方法往往会生成具有逐点特征向量的地图,这些地图在较大的环境中扩展性不佳,也不包含环境中实体之间的语义空间关系,而这些关系对于下游规划很有用。这项工作提出 ConceptGraphs,一种用于 3D 场景的开放词汇图结构表示。ConceptGraphs 是通过利用 2D 基础模型并通过多视图关联将其输出融合到 3D 来构建的。生成的表示,可以推广到新的语义类,无需收集大型 3D 数据集或微调模型。通过许多下游规划任务展示了这种表示的实用性,这些任务通过抽象(语言)提示指定,需要对空间和语义概念进行复杂的推理。