0. 论文信息
标题:ROOT: VLM based System for Indoor Scene Understanding and Beyond
作者:Yonghui Wang, Shi-Yong Chen, Zhenxing Zhou, Siyi Li, Haoran Li, Wengang Zhou, Houqiang Li
机构:University of Science and Technology of China、Tencent IEG
原文链接:https://arxiv.org/abs/2411.15714
代码链接:https://github.com/harrytea/ROOT
1. 导读
最近,视觉语言模型(vlm)经历了重大的进步,但这些模型仍然面临室内场景中空间层次推理的挑战。在这项研究中,我们介绍了根,一个基于VLM的系统,旨在加强室内场景的分析。具体来说,我们首先开发了一种迭代的对象感知算法,使用GPT-4V来检测室内场景中的对象实体。随后采用视觉基础模型来获取关于场景的附加元信息,例如边界框。基于这些基础数据,我们提出了一种专门的VLM scene vlm,它能够生成空间分层场景图,并提供室内环境中对象的距离信息。这些信息增强了我们对室内场景空间布局的理解。为了训练我们的SceneVLM,我们从各种公共室内数据集收集了超过610,000张图像,并使用半自动技术实现了场景数据生成管道,以建立室内对象之间的关系并估计它们之间的距离。通过利用这些丰富的数据,我们进行各种训练食谱,并完成场景。我们的实验表明,rootname有助于室内场景理解,并在各种下游应用中证明是有效的,如3D场景生成和嵌入式人工智能。
2. 引言
室内场景理解是一项关键任务,并已得到广泛研究。视觉语言模型(VLMs)的出现显著推动了这一领域的发展,展示了其强大的零样本学习能力。这项任务涵盖了大量信息,如房间内的实体、它们的位置以及它们之间的相互关系。这些信息对于在各种下游任务中取得卓越表现至关重要,包括智能物体摆放、3D场景生成以及提高家用机器人在执行人类指令时的性能。然而,室内场景理解中的一个显著挑战是空间关系的理解,特别是VLMs对这些关系的感知有限。
大多数通用VLMs都经过大量高质量遵循指令的数据的训练,使它们能够理解图像内容并执行标准任务,如视觉问答(VQA)。然而,这些模型在解析室内场景时面临重大挑战,这是追求通用人工智能(AGI)过程中的一个关键障碍。我们认为,理解室内场景的能力是VLMs的一个重要方面,因为它支持各种下游任务的进步。本文主要关注室内场景的理解,特别是空间感知方面。我们介绍了ROOT,一个基于VLM的系统,旨在通过识别物体及其属性,并最终确定这些物体之间的层次位置关系和距离信息来解析室内场景。这种增强的理解有助于开发新技术,以提高下游任务(如基于场景的VQA和智能物体摆放)的性能。
为实现我们的目标,我们采用了多种现成的基础模型和自定义模型来分析室内场景,最终创建了我们的系统ROOT。我们的过程分为三部分:迭代物体感知、室内场景解析和层次场景图生成。首先,我们使用基于GPT-4V[32]的方法来感知室内物体,以识别场景中的实体。为了检测较小的物体,我们采用了一种迭代方法,即根据需要放大并重新检测特定区域。随后,我们使用现有的视觉基础模型来解析室内场景,提取深度信息和基本物体属性,如边界框和掩码。最后,我们的自定义模型SceneVLM利用前面步骤的数据来生成室内物体的层次场景图,以及空间距离信息。
推荐课程:
彻底搞懂3D人脸重建原理,从基础知识、算法讲解、代码解读和落地应用
。
为了训练SceneVLM,我们开发了一个场景数据生成管道,该管道可以在人类辅助下半自动地生成训练数据。为确保模型的稳健零样本能力,我们收集了一个包含超过610,000张室内场景图像的多样化数据集。然后,我们使用CLIP模型来过滤掉不适合的图像。利用在初步步骤中开发的能力,我们自动化了距离数据的生成,并半自动地构建了物体之间的层次数据。使用我们管道生成的数据,我们在先进的开源VLM模型上进行了实验,以增强它们对室内环境的空间理解。
总之,我们的ROOT系统展现出以下能力。首先,它处理室内场景的RGB图像,以识别物体并分析其属性以及场景的属性。此外,它还对这些物体之间的空间关系进行建模,生成一个场景图,该图描绘了它们之间的层次关系和距离。
3. 效果展示
ROOT是一个设计用于解释室内场景图像并提取关于场景的各种类型的元信息的系统。利用这些信息,ROOT可以生成室内对象之间的层次关系和空间距离。这些丰富的数据用于支持各种下游任务。
4. 主要贡献
我们的贡献总结如下:
• 我们介绍了ROOT,一个基于VLM的室内场景理解系统,能够从图像中提取元信息,并描绘物体之间的层次空间关系。
• 我们开发了一个场景数据生成管道,用于创建空间场景数据集,并引入了SceneVLM来整合房间内物体的现有属性信息,从而为室内场景生成空间信息。我们探索了各种训练策略,以评估它们对SceneVLM性能的影响。
• 我们有效地展示了我们的方法在特定下游任务中的显著应用,这些应用为实现这些领域的性能提升做出了进一步贡献。
5. 方法
如图2所示,我们的ROOT系统由三个主要组件组成:迭代物体感知、室内场景解析和层次场景图生成。第一个组件识别室内场景中的物体。然后,第二个组件收集关于物体和场景的元信息。最后,第三个组件利用这些信息生成层次场景图并估计距离。利用各种基础模型,我们的系统在理解室内场景方面表现出了优越的性能。
6. 实验结果
如表1所示,除InstructBLIP和LLaVA-1.5外,大多数视觉语言模型(VLM)的结果中都可以成功提取JSON格式的文件。这一能力得益于SFT数据集中包含了代码数据。从四个不同角度进行分析,关系指标(PRA和OWA)显示出极小的变化。相比之下,对象指标(LWA和NDA)则呈现出显著差异,这归因于LWA严格的评估标准,它要求在每一层的每个节点上都进行精确预测。此外,关系指标略低于NDA指标,这种差异源于与关系输出相比,对象输出的相对简单性。在给定对象列表的情况下,生成对象输出相对简单,而生成关系则更为复杂,需要对室内环境有所了解。从模型角度来看,我们的方法在所有指标上均优于现有的VLM。这一改进归功于SceneVQA数据集,它有助于为特定室内场景生成场景图。在关系指标方面,精确度和召回率均接近90%,表明模型对室内物体之间的空间关系有着深刻的理解。对象输出的评估指标显示准确率接近100%,这表明模型能够始终如一地输出完整的给定对象列表,无遗漏。除了我们的方法外,GPT-4V是表现次优的模型,其强大的泛化和理解能力使其取得了良好的结果。然而,其他方法尽管能够准确生成JSON格式的文件,但往往只是重复问题中的示例,而没有充分理解指令性问题,从而导致性能较低。
此外,图5可视化了我们方法生成的分层JSON文件。结果表明,模型能够有效理解所描绘的内容,并能够模拟房间内物体之间的层级关系。
7. 总结 & 未来工作
在本文中,我们介绍了ROOT,一个基于VLM的系统,旨在通过获取房间对象的元数据并分析其空间关系来理解室内场景。我们的实验结果表明,当前VLM在解释室内空间方面存在局限性,并证明了我们的方法的有效性。此外,我们还利用推导出的空间信息来增强其他应用,并证明了其有效性。我们预计ROOT将对室内场景理解领域产生重大影响,并激发进一步的研究。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球