专栏名称: 自动驾驶之心

自动驾驶开发者社区，关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！

理解视觉or预测未来？到底什么是World Models？

自动驾驶之心 · 公众号 · · 2025-02-17 07:30

正文

作者 | 蔡道清编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/19498199387

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

>> 点击进入→ 自动驾驶之心 『世界模型』 技术交流群

本文只做学术分享，如有侵权，联系删文

paper link ：https://arxiv.org/pdf/2411.14499v1

一 Motivation

本文对世界模型进行了系统分类，强调了两个主要功能：（1） 构建内部表示来理解世界的机制 ，（2） 预测未来状态以模拟和指导决策 。本文首先调研了这两个方向的最新工作进展，然后，探讨了世界模型在关键领域的应用，包括自动驾驶、机器人和社会模拟；最后，概述了关键挑战，并为潜在的未来研究方向提供了见解。

其实，世界模型的定义还是一个正在争论的话题，本文是从目前World models的工作中，world models的功能的角度划分： 理解世界 和 预测未来 。“ 理解世界 ”侧重于学习并内化世界知识以支持后续决策的模型，而“ 预测未来 ”强调从 视觉感知 增强物理世界中的预测和模拟能力。

二背景

2018年世界模型的概念首次在人工智能领域引入[1]，David Ha等人追溯了世界模型概念的起源，回到1971年建立的“心理模型”的心理原理，提出人类将外部世界抽象为简单的元素及其相互关系来感知它。这一原则表明，当从深度、内部的角度来看，我们对世界的描述通常涉及构建一个足够且不需要详细描述的抽象表示。基于这个概念框架，Ha 引入了一个受人类认知系统启发的代理模型，如上图World Models所示。在这个开创性的模型中，代理接收来自现实世界环境的反馈，然后将其转换为一系列训练模型的输入。该模型擅长模拟外部环境中特定动作后的潜在结果。 本质上，它创建了一个潜在未来世界演变的心理模拟，并根据这些状态的预测结果做出决策。赭红方法和基于模型的强化学习很类似。

2022年，Yann LeCun提出Joint Embedding Predictive Architecture (JEPA)，模拟人脑结构的框架。这个框架包括一个处理感官数据的感知模块，然后是一个评估这些信息的认知模块，有效地体现世界模型。该模型允许大脑评估动作并确定最适合实际应用的响应。LeCun的框架结合了“快“”慢”双系统概念。系统 1 涉及直观、本能的反应：没有世界模型做出的快速决策，例如直觉地躲避迎面而来的人。相比之下，系统 2 采用深思熟虑、计算的推理，它考虑了世界的未来状态。在这个框架中，世界模型对于理解和表示外部世界至关重要。它使用潜在变量建模世界状态，这些变量捕捉关键信息，同时过滤冗余信息。这种方法允许世界的高效、简约的表示，促进未来场景的最佳决策和规划。

模型捕获世界知识的能力对于它们在广泛的现实世界任务中的有效性能至关重要。2023年兴起的大语言模型（LLMs）展示出了在世界认知方面的潜力，这些模型捕获了直观的知识，包括空间和时间理解，能够对现实场景进行预测。此外，LLM 能够通过认知图对外部世界进行建模，有研究揭示了嵌入在其中的类似大脑的结构。这些模型甚至可以根据先前的经验预测未来的事件，从而提高它们在现实世界环境中的实用性和适用性。

上面提到的世界模型是对外部世界的隐式理解，2024年2月，OpenAI发布的Sora模型则是一个视频生成模型，被认为是世界模拟器。Sora输入真实世界的视觉数据并输出预测未来世界演化的视频帧。值得注意的是，它展示了卓越的建模能力，例如在相机运动和旋转期间保持 3D 视频模拟的一致性。它还可以产生物理上合理的结果，例如在汉堡上留下位标记；模拟数字环境，例如在 Minecraft 游戏中渲染第一人称视图。这些能力表明，Sora不仅模仿了真实世界场景中的外观，还模拟出了其动态特性，专注于真实建模动态世界变化，而不仅仅是表示静态世界状态。

不管是聚焦在外部世界的内在表示，还是模拟世界的运行法则，这些方法都揭示了世界模型的本质目的是理解世界的动态特性，并且预测未来的场景。

三外部世界的隐式表示

Decision-making里的世界模型

在决策任务中，理解环境是为优化策略生成奠定基础的主要任务。因此，决策中的世界模型应该包括对环境的全面理解。它使我们能够在不影响真实环境的情况下采取假设的动作，从而促进低试错成本。关于如何学习和利用世界模型的研究最初是在model-based RL 领域提出的。此外，LLM 和 MLLM 的最新进展也为世界模型构建提供了全面的主干模型，使用语言作为更一般的表示，基于语言的世界模型可以适应更通用的任务。在决策任务中利用世界模型的两种方案如图所示：

World model in model-based RL

在决策中，世界模型的概念主要是指基于模型的 RL (MBRL) 中的环境模型。决策问题通常被表述为马尔可夫决策过程 (MDP)，用元组（S,A,M,R, ）表示，其中S,A, 表示状态空间、动作空间和折扣因子。这里的世界模型由状态转换动力学M和奖励函数R组成。由于奖励函数在大多数情况下是定义的，MBRL 的关键任务是学习和利用转移动态（transition dynamics），进一步支持策略优化。

世界模型的学习 ：为了学习准确的世界模型，最直接的方法是在每个one-step transitions上计算均方误差，

这里的M* 是收集的轨迹数据中的实际转移动态，是学习的参数。除了直接利用确定性转换模型外，Chua等人还使用概率转换模型进一步对任意不确定性进行建模。目标是最小化转换模型之间的 KL 散度：

在这两种情况下，世界模型学习转换为 监督学习任务 。学习标签是源自真实交互环境的轨迹，也称为模拟数据。

对于更复杂的场景，状态空间是高维的，表征学习就变得很重要。Ha and Schmidhuber采用自动编码器结构通过潜在状态重建图像；Hafner等人提出对于视觉任务学习视觉编码和隐式的动态特性；Samsami等人提出了一个Recall-to-Imaging框架，进一步提升模型学习过程中的记忆能力；最近的另一个趋势是在不同的任务之间进行统一的模型学习，使用transformer结构，将MDP表示为next-token-prediction范式。

用世界模型生成policy ：使用理想的优化后的世界模型，生成相应策略最直接的方法是 模型预测控制 ( MPC )。MPC在给定模型的情况下规划动作序列，如下所示：

Nagabandi等人采用一种简单的蒙特卡罗方法对动作序列进行采样；Chua等人提出了一种新的概率算法，该算法集成了轨迹采样；生成世界模型策略的另一种流行方法是蒙特卡洛树搜索 (MCTS)，通过维护一个搜索树，其中每个节点代表由预定义value function评估的状态，将选择动作，使代理可以处理具有更高值的状态。AlphaGo 和 AlphaGo Zero是代表应用。Moerland等人扩展MCTS来解决连续动作空间中的决策问题。Oh等人提出了一种value预测网络，该网络将MCTS应用于学习的模型，以根据价值和奖励预测来搜索动作。

World model with language backbone

LLMs和MLLMs展示了在决策任务中的巨大潜力。LLMs作为世界模型，主要有两种用法：直接预测动作序列和模块化的使用。直接预测动作比较好理解，就是利用大模型的通识能力，微调大模型，直接输出动作序列；模块化的使用指的是将基于LLM的世界模型作为模块与其他有效的规划算法相结合，可以进一步提高决策质量。Xiang等人在世界模型中部署了一个具身代理，VirtualHome的模拟器，其中相应的具身知识注入到llm中。为了更好地规划和完成特定的目标，他们提出了一种目标条件规划模式，使用蒙特卡罗树搜索 (MCTS) 来搜索真正的任务目标。林等人引入了一个代理 Dynalang，它学习多模态世界模型来预测未来的文本和图像表示，并基于想象的模型输出采取行动。策略学习阶段利用纯粹基于先前生成的多模态表示的 actor-critic 算法。Liu等人进一步将llm的推理转化为贝叶斯自适应马尔可夫决策过程(MDPs)的学习和规划。LLM就像世界模型一样，在MDPs的actor-critic更新中以in-context的方式执行。RAFA框架在多个复杂的推理任务和环境(如ALFWorld)中显示出显著的性能提升。

模型学习的世界知识

这里主要针对分析的是LLM中的世界知识 。区别于常识和 一般知识 ，本文从世界模型的角度关注大型语言模型中的世界知识。基于对象和空间范围，大型语言模型中的世界知识可以分为三个部分：1） 全球物理世界的知识 ；2） 局部物理世界的知识 ；3） 人类社会的知识 。

全球物理世界的知识

Gurnee等人提出了第一个证据，即大型语言模型真正获取世界的时空知识，而不仅仅是收集表面统计数据。他们在LLama2中发现了不同的“ 空间神经元 ”和“ 时间神经元 ”，这表明该模型在多个尺度上学习空间和时间的线性表示。Manvi等人开发了关于文本地址的有效prompts，以提取关于地理空间的直观真实世界知识，并成功地提高了模型在 各种下游地理空间预测任务中的性能。虽然大型语言模型确实获得了现实世界的一些隐含知识，但这些知识的质量仍然值得怀疑 ，冯等人发现嵌入在大型语言模型中的城市知识通常是粗略和不准确的。为了解决这个问题，他们提出了一个有效的框架来改进大型语言模型中特定城市的城市知识的获取。从这些工作中，我们可以看到，尽管大型语言模型已经证明了捕获现实世界知识的能力，但很明显，需要进一步的努力来增强这些知识，以实现更广泛和更可靠的实际应用。

局部物理世界的知识

与全球物理世界的知识不同，局部物理世界代表了人类日常生活和大多数现实世界任务的主要环境。因此，理解和建模局部物理世界是构建综合世界模型的另一个关键主题。我们首先介绍认知地图的概念，它说明了人类大脑如何对外部世界进行建模。虽然最初是为解释人类学习过程而开发的概念，但研究人员已经在大型语言模型中发现了类似的结构，并利用这些见解来提高人工模型在学习和理解物理世界方面的效率和性能。

理解视觉or预测未来？到底什么是World Models？

正文

(adsbygoogle = window.adsbygoogle || []).push({}); 一 Motivation

二 背景

三 外部世界的隐式表示