三维空间理解在现实世界中的诸多应用场景中至关重要,例如机器人技术、自动驾驶、虚拟现实以及医学影像等。近年来,
大型语言模型(LLMs)
在多个领域中展现出惊人的成功,被逐步应用于增强三维理解任务,显示出有望超越传统计算机视觉方法的潜力。
在本综述中,我们系统回顾了将大型语言模型与三维空间理解相结合的方法,提出了一套分类体系,将现有方法划分为三大类:
-
基于图像的方法
:通过二维视觉数据推理三维信息;
-
基于点云的方法
:直接处理三维表示数据;
-
多模态融合方法
:结合多种数据模态进行三维理解。
我们分别从这三大类出发,对具有代表性的方法进行了系统性梳理,涵盖了数据表示方式、架构改进、以及连接文本与三维模态的训练策略等关键技术点。
最后,我们讨论了当前面临的主要挑战,包括数据集匮乏与计算资源开销问题,并指出未来在
空间感知、多模态融合与现实世界应用
等方向上的研究潜力与发展前景。
大型语言模型(LLMs)
已从早期的基础神经网络演进为先进的 Transformer 架构模型,如 BERT [Kenton 和 Toutanova, 2019] 与 GPT [Radford, 2018],最初凭借海量文本数据的训练在语言任务上取得了卓越表现。然而,近年来的进展已将这些模型的能力扩展至纯语言处理之外,使其具备
多模态理解能力
(在本文中,LLMs 特指集成了多模态功能的语言模型)。其在捕捉复杂模式与关系方面的能力 [Chen 等, 2024a],正逐步展现出在
空间推理任务
中的潜力 [Ma 等, 2024b]。
将这些增强型模型应用于理解三维对象关系、空间导航等挑战,为推进机器人、计算机视觉与增强现实等领域带来了全新机遇 [Gao 等, 2024]。与此同时,
三维数据与三维建模技术
也取得了显著发展 [Ma 等, 2024c],在虚拟/增强现实、机器人、自动驾驶、游戏、医学影像等领域中得到了广泛应用。与传统二维图像相比,三维数据提供了更丰富的对象与环境视角,能够捕捉关键的空间关系与几何信息。这些信息对于场景重建、物体操作、自动导航等任务至关重要,而仅靠文本描述或二维表示往往难以传达必要的深度与空间语境。
LLMs赋能空间理解
。将这两个领域——LLMs 所擅长的语言理解能力与三维数据所提供的空间真实感——相结合,有望实现具备上下文感知能力的高效系统。从语言角度看,现实世界中的描述常常涉及物体的空间排列、朝向或操作方式,然而,仅靠文本往往难以准确传达大小、形状或相对位置等信息,除非模型具备稳健的空间或视觉理解能力。因此,当前出现了越来越多的研究致力于赋予 LLMs “三维能力”,使其能够根据自然语言提示进行
三维理解、推理,甚至生成三维表示
。这种集成方法为多个领域带来令人期待的应用前景,例如:能够基于三维上下文更好地理解语言指令的机器人、能够通过文本快速原型化三维空间布局的建筑师、能够根据叙事描述生成沉浸式环境的游戏设计师,以及更多尚未被想象到的创意应用。
研究动机
。尽管 LLMs 已被越来越多地应用于与三维相关的任务,并且 Ma 等 [2024b] 已对该领域进行了系统性综述,但该领域的快速发展在近期产生了大量新成果,亟需一份能够反映最新进展的综述,以捕捉最新的技术突破。将三维能力集成进 LLMs 仍面临诸多挑战,包括:
-
高质量三维数据集的稀缺
,远不如文本语料丰富;
-
文本数据的序列性与三维空间数据的连续性之间的根本差异
,这对模型架构提出了新的适配需求;
-
处理大规模三维数据的计算资源开销巨大
。
虽然早期将语言与三维融合的尝试已显示出一定潜力,但目前的方法在适用范围、可扩展性与泛化能力方面仍存在限制,且大多为
特定领域的解决方案
,尚未具备类似文本 LLM 的广泛适应性。
本研究的贡献
可以总结为以下三点:
-
结构化分类体系
:本研究区别于 Ma 等 [2024b] 的综述,提出了一个全新的视角,通过构建三类主要研究分支的结构化分类体系(见图 2),对当前成果进行重新组织,并前瞻性地分析了最新突破,突显了我们在方法论上的独特性与推动该领域发展的价值。
-
系统性综述
:基于所提出的分类方法,我们对 LLMs 在空间推理任务中的最新研究进展进行了系统梳理与评估。
-
未来研究方向
:我们总结了当前工作的主要局限性,并提出了若干具有前景的未来研究方向。
专知便捷查看,访问下面网址或
点击最底端“阅读原文”
https://www.zhuanzhi.ai/vip/1e3a78d6049a46bebf9fe5c486ae001c
点击“
阅读原文
”,查看下载本文