24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-Language Navigation with Embodied Intelligence: A Survey”。
作为人工智能领域的长期愿景,
具身智能
的核心目标是提升智体与环境的感知、理解和交互能力。
视觉-语言导航(VLN)
作为实现具身智能的重要研究路径,致力于探索智体如何利用自然语言与人进行有效沟通,接收并理解指令,并最终依靠视觉信息实现精准导航。VLN集人工智能、自然语言处理、计算机视觉和机器人技术于一体,该领域面临技术挑战,但在人机交互等应用方面具有广阔的前景。但由于VLN从语言理解到动作执行的过程复杂,面临着视觉信息与语言指令的对齐问题、提升泛化能力等诸多挑战。本文系统回顾VLN的研究进展,并详细阐述具有具身智能的VLN研究方向。在详细总结其体系架构、基于方法的研究以及常用基准数据集的基础上,全面分析当前研究面临的问题与挑战,探索该领域未来的发展方向。
自 1956 年约翰·麦卡锡 (John McCarthy) 创造人工智能 (AI) 一词以来,该领域经历从符号主义到联结主义的多个阶段[1]。在过去的几十年里,深度学习技术的快速发展,例如卷积神经网络 (CNN) 和循环神经网络 (RNN) 的兴起,尤其是生成式预训练 Transformer (GPT) 等大型语言模型的进步,推动了计算机视觉和自然语言处理领域人工智能的重大突破。
在人工智能的发展轨迹中,汉斯·莫拉维克 (Hans Moravec) 提出的“莫拉维克悖论”强调高级认知和基本感官任务之间的对比表现[2]。这一启示促使研究人员逐步探索人工智能理解和与物理世界互动的能力,即
具身智能
。体现智能旨在将人工智能系统与真实或模拟环境相结合,使它们能够以类似人类的方式与这些环境交互并在其中执行任务[3]。
视觉语言导航(VLN)
[12–14] 是具身智能领域的一个重要研究方向,它将人工智能、自然语言处理、计算机视觉和机器人技术融为一体。它的目的是通过理解自然语言指令和解释视觉信息,使智体能够在虚拟和现实环境中导航[15–17]。这种方法不仅为更自然、更高效的人机交互铺平道路,也符合人类对人工智能未来发展的期望。如图所示,VLN 智体通常将视觉信息和语言指令作为输入,输出包括导航动作和目标识别,从而促进在复杂环境中的有效导航[18, 19]。计算机视觉和自然语言处理领域的进步推动 VLN 的发展,特别是在目标分类[20]、目标检测[21]、语义分割[22]和大规模预训练语言模型[23, 24]方面的进步,为 VLN 的发展奠定了坚实的基础,增强了智体在复杂环境中运行的能力。
尽管取得重大技术进步,但通过 VLN 实现具身智能仍然存在挑战。这些挑战包括有效地整合多模态信息,解决训练数据有限和泛化能力不足的问题。
VLN 的研究源于计算机视觉与自然语言处理的深度融合,其核心目标是实现具身智能。作为人工智能领域的前沿课题,众多研究者不断探索将视觉感知与语言理解更有效地结合起来,以增强智体的导航能力。VLN 已逐渐从理论探索转向实际应用,并在各种场景中展现出巨大的潜力。如下两图所示,VLN 发展时间线和 VLN 知识图谱,可以直观地概述该领域的研究进展,有助于更清楚地了解 VLN 的发展趋势和未来的应用前景。
尽管在具身智能和 VLN 领域取得了重大进展,但仍存在一些挑战。第一个挑战涉及多模态融合和理解,要求智体使用视觉和语言信息有效地整合和解释复杂的指令和动态场景。第二个挑战与算法的泛化能力和计算效率有关,算法必须在优化计算资源的使用的同时,在各种环境和任务中保持有效。最后,数据集和模拟环境的局限性是限制算法应用的主要因素。
现有的模拟场景通常使用
导航图 (Nav-graphs)
表示,并带有多个假设,这些假设会影响它们在现实场景中的有效性。在这些模拟环境中,VLN 智体通常通过深度学习解析视觉和语言信息,并使用强化学习做出行动决策。虽然这种方法在模拟环境中是有效的,但在转移到现实场景时会面临差异。在动作执行方面,模拟环境中的智体运动是离散的,类似于瞬间的隐形传态,而真实场景要求智体连续、渐进地移动,涉及更复杂的感知和控制能力。如图所示,Matterport 3D 提供的导航地图可以重现空间结构,但可能会忽略真实场景中的动态变化,如光照和移动障碍物。此外,真实场景中的智体需要整合各种复杂的动作并处理众多不确定性,这增加了应用的难度。强化学习方法虽然提高了在模拟环境中的学习能力,但它们在现实世界中可能带来高成本和安全风险。总体而言,VLN 智体在从模拟场景过渡到真实场景时面临的挑战,凸显了需要进一步改进和调整当前方法以适应实际应用。
VLN 数据集为研究人员开展实验和训练提供了基础,并通过标准化的基准测试确保对解决方案进行有效比较和公平评估。VLN 任务涵盖各种数据类型,包括语言指令、交互式对话、多模态识别和导航路径。目前已经开发多个数据集,涵盖室内导航[12, 58]、室外导航[13]和涉及物理机器人动作的场景。例如,Thomason [12] 推出的 CVDN 数据集模拟了家庭环境,其中智体可以使用最短路径规划和对话历史推断未知场景中的导航动作。Qi [58]推出的 REVERIE 数据集提供了包括自然语言描述和见过目标的复杂机器人任务。Chen [14] 推出的 TOUCHDOWN 数据集侧重于指令遵循和空间推理,包含成对的导航指令以及场景的动作和空间描述。
现有数据集的分类通常基于环境类型、指令复杂性和智体自主性。但更详细的分析发现,这些共同的特征主要集中在信息处理交互的类型和导航任务的性质上。因此,本研究根据信息处理交互的类型和任务特征对现有的数据集进行分类。信息处理交互分为单向信息处理、双向静态交互和动态交互对话;任务特征包括细粒度导航、粗粒度导航以及导航与任务的结合。如表所示:
根据 VLN 智体的核心特征和技术方法,VLN 智体可分为四类:基于表示学习、基于决策和策略学习、面向任务和数据驱动。这种分类反映了 VLN 智体在处理多模态信息、执行复杂推理、解决数据稀缺性和适应环境变化方面的独特策略。每类智体都为 VLN 任务的特定方面提供了解决方案,展示了执行复杂视觉和语言任务的多样性。