如何赋予大型语言模型三维能力？—大型语言模型中的空间推理综述

专知 · 公众号 · · 2025-04-11 11:00

正文

请到「今天看啥」查看全文

三维空间理解在现实世界中的诸多应用场景中至关重要，例如机器人技术、自动驾驶、虚拟现实以及医学影像等。近年来， 大型语言模型（LLMs） 在多个领域中展现出惊人的成功，被逐步应用于增强三维理解任务，显示出有望超越传统计算机视觉方法的潜力。

在本综述中，我们系统回顾了将大型语言模型与三维空间理解相结合的方法，提出了一套分类体系，将现有方法划分为三大类：

基于图像的方法 ：通过二维视觉数据推理三维信息；
基于点云的方法 ：直接处理三维表示数据；
多模态融合方法 ：结合多种数据模态进行三维理解。

我们分别从这三大类出发，对具有代表性的方法进行了系统性梳理，涵盖了数据表示方式、架构改进、以及连接文本与三维模态的训练策略等关键技术点。

最后，我们讨论了当前面临的主要挑战，包括数据集匮乏与计算资源开销问题，并指出未来在 空间感知、多模态融合与现实世界应用 等方向上的研究潜力与发展前景。

大型语言模型（LLMs） 已从早期的基础神经网络演进为先进的 Transformer 架构模型，如 BERT [Kenton 和 Toutanova, 2019] 与 GPT [Radford, 2018]，最初凭借海量文本数据的训练在语言任务上取得了卓越表现。然而，近年来的进展已将这些模型的能力扩展至纯语言处理之外，使其具备 多模态理解能力 （在本文中，LLMs 特指集成了多模态功能的语言模型）。其在捕捉复杂模式与关系方面的能力 [Chen 等, 2024a]，正逐步展现出在 空间推理任务 中的潜力 [Ma 等, 2024b]。

将这些增强型模型应用于理解三维对象关系、空间导航等挑战，为推进机器人、计算机视觉与增强现实等领域带来了全新机遇 [Gao 等, 2024]。与此同时， 三维数据与三维建模技术 也取得了显著发展 [Ma 等, 2024c]，在虚拟/增强现实、机器人、自动驾驶、游戏、医学影像等领域中得到了广泛应用。与传统二维图像相比，三维数据提供了更丰富的对象与环境视角，能够捕捉关键的空间关系与几何信息。这些信息对于场景重建、物体操作、自动导航等任务至关重要，而仅靠文本描述或二维表示往往难以传达必要的深度与空间语境。

LLMs赋能空间理解 。将这两个领域——LLMs 所擅长的语言理解能力与三维数据所提供的空间真实感——相结合，有望实现具备上下文感知能力的高效系统。从语言角度看，现实世界中的描述常常涉及物体的空间排列、朝向或操作方式，然而，仅靠文本往往难以准确传达大小、形状或相对位置等信息，除非模型具备稳健的空间或视觉理解能力。因此，当前出现了越来越多的研究致力于赋予 LLMs “三维能力”，使其能够根据自然语言提示进行 三维理解、推理，甚至生成三维表示 。这种集成方法为多个领域带来令人期待的应用前景，例如：能够基于三维上下文更好地理解语言指令的机器人、能够通过文本快速原型化三维空间布局的建筑师、能够根据叙事描述生成沉浸式环境的游戏设计师，以及更多尚未被想象到的创意应用。

研究动机 。尽管 LLMs 已被越来越多地应用于与三维相关的任务，并且 Ma 等 [2024b] 已对该领域进行了系统性综述，但该领域的快速发展在近期产生了大量新成果，亟需一份能够反映最新进展的综述，以捕捉最新的技术突破。将三维能力集成进 LLMs 仍面临诸多挑战，包括：

高质量三维数据集的稀缺 ，远不如文本语料丰富；
文本数据的序列性与三维空间数据的连续性之间的根本差异 ，这对模型架构提出了新的适配需求；
处理大规模三维数据的计算资源开销巨大 。

虽然早期将语言与三维融合的尝试已显示出一定潜力，但目前的方法在适用范围、可扩展性与泛化能力方面仍存在限制，且大多为 特定领域的解决方案 ，尚未具备类似文本 LLM 的广泛适应性。

本研究的贡献 可以总结为以下三点：

结构化分类体系 ：本研究区别于 Ma 等 [2024b] 的综述，提出了一个全新的视角，通过构建三类主要研究分支的结构化分类体系（见图 2），对当前成果进行重新组织，并前瞻性地分析了最新突破，突显了我们在方法论上的独特性与推动该领域发展的价值。
系统性综述 ：基于所提出的分类方法，我们对 LLMs 在空间推理任务中的最新研究进展进行了系统梳理与评估。
未来研究方向 ：我们总结了当前工作的主要局限性，并提出了若干具有前景的未来研究方向。

专知便捷查看，访问下面网址或 点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/1e3a78d6049a46bebf9fe5c486ae001c

点击“ 阅读原文 ”，查看下载本文