24年2月微软研究论文"Essential Role of Causality in Foundation World Models for Embodied AI"。
基础模型的最新进展,特别是在大型多模态模型和会话智体方面,激发了人们对具有普遍能力的具身智体潜力兴趣。这样的智体需要在许多不同现实世界环境中执行新任务的能力。然而,目前的基础模型无法准确地模拟与现实世界的物理交互,因此不足以实现具身人工智能。
因果关系
的研究有助于构建真实世界模型,这对于准确预测可能的交互结果至关重要。本文重点讨论具身智体的生成建立基础世界模型的前景,并对其中因果关系的意义提出了一个观点:整合因果的思考对于促进与世界的有意义物理互动至关重要。
当代的基础模型以大型(视觉)语言模型为主(Achiam 2023;Bubeck 2022;Chen 2021),基于相关统计,没有明确捕捉潜在的动力学、组成结构或因果层次。由于缺乏真实的世界模型,它们不适合在具身人工智能中使用,这需要精确或长期的行动规划、对新环境的高效和安全的探索,或快速适应反馈和其他智体的行动。
因果关系的核心目的是了解行动的后果,从而进行互动规划。哲学和认知科学将理解因果概念视为人类学习如何与世界互动的基础,有时也是最终目标(Gibson1978;Gopnik2007;Adams&Aizawa,2021),也是儿童发展的关键(Piaget,1965;Gibson,1988)。这与具身人工智能研究中的可表达性(affordances)概念一致(Kjellstroåm,2011;Koppula,2013;Koppula&Saxena,2013;Ardón,2020;Ahn,2022),该概念涉及可以应用的动作类型及其产生的后果。重要的是,即使有可用的真实或模拟环境的帮助,体验可能仍然过于粗糙,无法处理虚假的关系(Herd&Miles,2019;Lavin,2021)。因此,包括人类在内的智体世界模型应该具有因果意识(Anonymous,2024b),并能够有效地结合来自演示和交互的数据(即称为真实性veridicality的属性)。因此,因果关系提供了工具和见解,这些工具和见解是构建
基础真实世界模型(FVWMs)
的关键部分,将为未来的具身智体提供动力。
从现实世界的机器人到虚拟和混合现实设备,硬件和系统的创新步伐正在以前所未有的速度前进,尽管在实现通用任务的成熟之前还有一段漫长的路要走。在过去十年中,人形机器人,例如Optimus、Phoenix(Sanctuary,2024)、Digit(Agility,2024),还有四足机器人,如Spot (BostonDynamics, 2024), Go2 (Unitree, 2024) ,已经长足发展。对于虚拟混合现实体验,Meta的Oculus越来越受欢迎,苹果的Vision Pro正在实现商业飞跃,提供新的互动体验,为虚拟智体创造机会。
此外,最近还发明了用于机器人的新型传感器。电子皮肤可以捕捉触摸的感觉(Sanderson,2021),以实现灵巧的机器人(Lambeta,2020;Sun,2022),而钙钛矿(perovskite)视网膜形态传感器(Trujillo Herrera & Labram,2020)模拟人类视网膜,并对光照的变化而非恒定信号做出反应。这些进步提供了感知世界的不同方式。这使得能够考虑更具挑战性的操作,例如涉及可变形体而不是刚性体的操作(Yin,2021)。
与此同时,人工智能计算能力的发展正在以前所未有的速度加速。计算能力的激增主要是由硬件创新驱动的,如更强大的GPU和专门的人工智能处理器(Dally,2021;Saravanan&Kouzani,2023),为基础模型提供了计算基础。这些发展使人工智能系统能够比以往任何时候都更快、更有效地处理和分析大量数据,从而扩展了各个领域的潜力范围。
语言和视觉基础模型驱动的范式转变显著增强了AI理解和感知环境的能力(Bubeck 2023;Achiam 2021;Yuan,2021;Liu,2023年;Chen,2024)。这些系统表现出越来越强的能力来泛化高层规划和决策任务,通常是以零样本的方式。这导致研究范式从单一目标任务和数据集的专门模型转向跨任务和多个数据集的基础模型。增强的泛化能力是构建具身AI所需基础真实世界模型的关键,为曾经局限于想象领域的应用打开了大门。
具身AI领域的数据量不断增加,这对有效训练基础世界模型至关重要,这增加了这项冒险的及时性。机器人仿真环境和演示数据集变得更加多样化,包括不同类型的任务和场景,如OpenX具身(Open X-Implement Collaboration,2023)、Isaac gym(Makoviychuk,2021;Ma,2022)和CloudGripper(Zahid&Pokorny,2023)。此外,物理机器人和传感器的成熟也有助于生成多样化的多模态数据。这些真实世界的数据集代表了环境的不同方面。此外,像YouTube这样的来源以视频或一般人类行为形式提供了丰富的信息。
世界模型对具身人工智能的未来来说提供希望。一个理想的世界模型是促进整个流水线,跨越各种任务和平台。为了实现这一点,一个理想的特性是能够使用多模态输入,在环境、领域和任务中进行泛化(即作为基础)。这需要模型忠实地理解和模拟世界动态,即
真实性
。它不仅需要总结所提供的内容,还需要以一种能够采取可行动的
干预
措施方式真正理解世界。
如图所示:基础世界模型旨在理解世界内的关联、反事实和交互,帮助任何具身人工智能智体在不同的环境和平台上执行任务。
将以上两个关键方面相结合,产生了FVWMs的概念,或者简称为基础世界模型(FWM):
一个(或一组)真实的多模态模型,可以:
-
(表征)从概念上理解给定系统中不同抽象级的组件、结构和交互动力学(Olsen&Tylén,2023);
-
(真实性)对这种系统的基本规律进行量化建模,从而能够准确预测干预/行动可能的反事实后果;
-
(基础的)能够在世界上遇到的不同系统或领域中推广前两个工作(表征和真实性)。
从历史上看,因果关系研究被划分为不同的任务。例如,
因果发现
旨在从数据集中恢复变量之间的因果关系(Glymour,2019;Spirtes,2000),而
因果推理
则涉及量化干预措施的影响。因果机器学习的出现扩展了这些视野,引入了端到端因果推理(Geffner,2022)等方法,以及因果
表征学习
(Schoëlkopf,2021)和因果
强化学习
(Zeng,2023)的进步。有两个主要框架来描述因果关系:潜在结果PO(Rubin,2005;Hernán&Robins,2010;Imbens&Rubin,2015))和结构方程模型(SEMs)(Pearl,2009b;Peters,2017)。