文章链接:
https://arxiv.org/pdf/2405.03520
项目链接:
https://github.com/GigaAI-research/General-World-Models-Survey
通用世界模型
通过预测未来来增进对世界的理解,是实现通用人工智能(AGI)的一个基本途径,极佳科技(GigaAI)最新发布了一篇关于世界模型的调研报告,让我们一起来学习下。
这篇调查报告探讨了世界模型领域的最新进展,其中引人关注的"Sora模型"以其出色的模拟能力而备受瞩目,展现了对物理定律的初步理解。这里深入探讨了世界模型在视频生成方面的生成方法学前沿,这些模型是合成高度逼真视觉内容的关键构建。详细剖析了自动驾驶世界模型领域的迅速发展,着重描绘了它们在重塑交通和城市流动性方面不可或缺的作用。此外,还深入研究了部署在自主Agent中的世界模型所固有的复杂性,阐明了它们在促成动态环境中智能互动方面的重要意义。最后,探讨了世界模型面临的挑战和局限,并讨论了它们潜在的未来发展方向。希望这份调查能成为研究界的基础性参考,并激发持续创新。
介绍
在追求通用人工智能(AGI)的过程中,通用世界模型的发展被视为一个基本途径。通用世界模型通过生成过程来理解世界。值得注意的是,Sora模型的引入引起了极大关注。其出色的模拟能力不仅表明了对物理定律的初步理解,还突显了世界模型中具有前景的进展。站在人工智能创新的前沿,深入探讨世界模型的领域至关重要,揭示它们的复杂性,评估它们当前的发展阶段,并思考它们未来可能的发展轨迹。
世界模型通过预测未来来增进对世界的理解。这种预测能力对于视频生成、自动驾驶以及自主Agent的发展具有巨大的潜力,这代表了世界模型发展的三个主流方向。如下图1所示,视频生成世界模型涵盖了生成和编辑视频以理解和模拟世界,这对媒体制作和艺术表达非常有价值。
自动驾驶世界模型借助视频生成技术,创建驾驶场景,并从驾驶视频中学习驾驶元素和策略。这种知识有助于直接生成驾驶动作或训练驾驶策略网络,从而实现端到端的自动驾驶。同样,Agent世界模型利用视频生成在动态环境中建立智能交互。与驾驶模型不同,它们构建适用于各种情境的策略网络,无论是虚拟的(例如游戏或模拟环境中的程序)还是实体的(例如机器人)。
在全面建模的基础上,视频生成方法通过视觉合成揭示了物理定律。最初,生成模型的重点主要放在图像生成和编辑上,为合成动态视觉序列的更复杂进展奠定了基础。随着时间的推移,生成模型不仅发展了对图像的静态属性的捕捉,而且还能够无缝地串联序列帧。这些模型已经初步了解了物理和运动,这代表了通用世界模型的早期和有限形式。
值得注意的是,在这种进化的最前沿是Sora模型。通过利用生成技术的力量,Sora展示了生成复杂视觉叙事的深厚能力,这些叙事符合物理世界的基本原理。生成模型与世界建模之间的关系是共生的,彼此相互启发和丰富。生成模型可以在受控环境中构建大量数据,从而减轻了对大量真实世界数据收集的需求,特别有利于训练在现实世界应用中至关重要的AI系统。
此外,生成模型的有效性关键取决于世界模型提供的理解深度。正是由世界模型提供的对底层环境动态的全面理解,使得生成模型能够在遵循严格的物理约束条件的同时产生视觉上引人注目的高质量信号,从而增强其在各个领域中的逼真度和实用性。
世界模型理解环境的能力不仅提升了视频生成的质量,还有助于实际驾驶场景的应用。通过运用预测技术来理解驾驶环境,世界模型正在改变交通和城市流动性,通过预测未来的驾驶情景来增强安全性和效率。针对建立环境动态模型的世界方法在自动驾驶中至关重要,因为对未来的准确预测对安全操控至关重要。然而,为自动驾驶构建世界模型存在独特挑战,主要是由于真实驾驶场景中固有的样本复杂性。早期方法尝试通过减少搜索空间和明确解释视觉动态来解决这些挑战。尽管取得了进展,但一个关键的限制在于主要集中于模拟环境。
近期的进展表明,自动驾驶世界模型正在利用生成模型来解决搜索空间更大的真实场景。GAIA-1采用Transformer来预测下一个视觉token,有效地构建了驾驶世界模型。这种方法能够根据各种提示(如天气条件、场景、交通参与者和车辆行为)预测多种潜在的未来。
类似地,像DriveDreamer和Panacea这样的方法利用预先训练的扩散模型从真实驾驶视频中学习驾驶世界模型。这些技术利用驾驶场景中固有的结构化信息来可控地生成高质量的驾驶视频,甚至可以增强驾驶感知任务的训练。基于DriveDreamer的DriveDreamer2进一步集成了大语言模型,以提高驾驶世界模型和用户交互的性能。它能够通过自然语言输入生成可控制的驾驶场景视频,甚至包括突然的超车等罕见情景。
此外,Drive-WM展示了利用生成的驾驶场景视频直接训练端到端驾驶的可行性,显著改善了端到端驾驶性能。通过预测未来情景,这些模型赋予了车辆做出明智决策的能力,最终导致更安全、更高效的道路导航。此外,这种整合不仅提高了交通系统的安全性和效率,还为城市规划和设计开辟了新的可能性。
除了在驾驶场景中已建立的实用性之外,世界模型越来越成为自主Agent功能的一部分,在各种背景下促进智能交互。例如,在游戏Agent中,世界模型不仅增强了游戏体验,还推动了复杂游戏算法的发展。Dreamer系列通过其熟练使用世界模型来预测游戏环境中的未来状态充分说明了这一点。这种能力使得游戏Agent能够在想象中学习,明显减少了有效学习所需的交互量。
在机器人系统中,创新方法进一步凸显了世界模型的多功能性和潜力。例如,UniPi重新构想了机器人决策问题,将其视为一种文本到视频的任务。其以视频为政策的表达方式促进了在各种机器人操纵任务中的学习和泛化。类似地,UniSim通过生成建模引入了动态交互的仿真器,这些仿真器可以在没有先前暴露的情况下部署到真实世界场景中。RoboDreamer通过利用世界模型来提出涉及动作和对象组合的计划,从而解决新颖机器人执行环境中前所未有的任务。世界模型的多方面应用不仅限于游戏和机器人。LeCun提出的联合嵌入预测架构(JEPA)标志着与传统生成模型的显著分歧。JEPA学习将输入数据映射到预测输出的高级表示空间中,这使得模型能够集中学习更语义化的特征,增强了其跨各种模态的理解和预测能力。
综上所述,从上面的全面讨论可以明显看出,对世界模型的研究具有巨大的潜力,可以实现AGI,并在各个领域有广泛的应用。因此,世界模型值得学术界和工业界的重视,并需要在长时间内持续努力。与最近的关于世界模型的调查相比,我们的调查提供了更广泛的覆盖面。它不仅包括视频生成中的生成世界模型,还深入探讨了世界模型在决策系统(如自动驾驶和机器人)中的应用。我们希望这份调查可以为刚刚踏入这一领域的新手提供宝贵的见解,同时也能在社区中引发批判性思考和讨论。
这份调查的主要贡献可以总结如下:
对世界模型研究的最新进展进行了全面的考察,包括深刻的哲学视角和详细的讨论。
深入研究了围绕视频生成、自动驾驶和自主Agent的世界模型的文献,揭示了它们在媒体制作、艺术表达、端到端驾驶、游戏和机器人等方面的应用。
评估了世界模型现有的挑战和限制,并深入探讨了未来研究的前景,以引领和激发世界模型的进一步进展。
2 视频生成作为通用世界模型
视频生成任务旨在创建各种逼真的视频,要求模型理解并模拟物理世界中的机制,这与构建通用世界模型的目标一致。在本节中,首先在第2.1节介绍视频生成模型背后的技术。然后,在第2.2节,我们将介绍和审查近年出现的先进视频生成模型。最后,在第2.3节中,讨论了被认为是视频生成中最重大突破的 Sora 模型。
2.1 视频生成背后的技术
视频生成的概念包含几种不同的任务,根据条件的不同,例如类别、文本或图像。本次调查主要关注给定文本条件的情景,即所谓的文本到视频生成。在本节中,首先简要介绍了广泛用于生成模型中的视觉基础模型。然后,介绍了从文本条件中提取文本特征的文本编码器。最后,回顾了生成技术的演进。
2.1.1 视觉基础模型
视觉基础模型最初是为了解决传统的计算机视觉任务,例如图像分类而提出的,但它们也启发了生成模型的发展。根据架构,它们大致可以分为基于卷积的模型和基于Transformer的模型,这两种模型也可以扩展到视频数据。
基于卷积的模型
。过去几十年来,用于视觉任务的基于卷积的模型已经得到充分的探索。从 LeNet、AlexNet、VGGNet、InceptionNet、ResNet、DenseNet 等模型开始逐渐被提出来解决图像识别问题。这些模型被采用作为其他视觉任务的骨干模型。通常,U-Net 建立在骨干模型之上,用于图像分割任务。U-shape 架构使得模型可以利用来自骨干模型的低级和高级特征,从而显著提高像素级别的预测。由于像素级别预测的优势,U-shape 架构也被广泛应用于图像生成模型。
基于Transformer的模型
。Transformer 最初是为机器翻译任务提出的,并通过ViT应用于视觉识别。在 ViT 中,图像被分成小块,然后被投影到tokens 中,最后通过一系列多头自注意力和多层感知器块进行处理。它在捕捉图像中的长程依赖性方面的能力使其在图像识别中表现优异。之后,引入了蒸馏、窗口注意力和mask图像建模等方法来改进视觉Transformer的训练或推理效率。除了在图像识别中取得成功外,基于Transformer的模型在各种视觉任务中也表现出优越性,如目标检测、语义分割和图像生成。由于其良好的可扩展性,基于Transformer的模型已成为 Sora 的主要架构。
扩展到视频
述方法主要设计用于图像数据。研究人员进一步将这些方法扩展到解决视频领域的问题。基于卷积的模型通常引入三维卷积层来构建视频数据中的时空关系。基于Transformer的方法将多头自注意力从仅空间设计扩展到联合建模空间-时间关系。这些方法也启发了文本到视频生成模型的架构设计,例如[111], [238], [239].
2.1.2 文本编码器
文本编码器被采用来为图像或视频生成中的给定文本提示提取文本嵌入。现有的生成方法通常采用多模态模型的文本编码器,或直接使用语言模型进行嵌入提取。接下来,将简要介绍代表性的多模态模型和语言模型。
练的多模态模型
训练的多模态模型(如[121]、[122]、[169])在嵌入空间中对图像和文本的表示进行对齐。它通常由图像编码器和文本编码器组成,自然可以被调整以将文本信息注入生成模型中。CLIP是一个典型的预训练多模态模型,已经广泛应用于图像/视频生成模型中。它通过对比学习在大规模图像-文本对上进行了预训练,并在各种任务中展现出了优越的性能。然而,CLIP 是针对图像-文本对齐进行预训练的,而不是用于理解复杂的文本提示。当给定提示长而详细时,这个缺点可能会限制生成性能。
练的语言模型
训练的语言模型通常在大规模语料库上进行预训练,因此具有各种下游语言任务的可传递能力。BERT是对语言模型预训练的早期尝试,它设计了几个任务来推动模型从未token数据中学习。这一范式也启发了后续的工作,如 RoBERTa和 BART。随着模型规模的增加和训练数据集的扩大,预训练模型展现出了惊人的能力,通常被称为更大的语言模型(LLMs)。T5 和 Llama-2是两个广泛应用于生成任务中的LLMs,因为它们的出色性能和开放性。LLMs能够更好地理解长文本提示,因此有助于生成按照人类指令的内容。
2.1.3 生成技术
在这一部分, 回顾了近几十年生成技术的发展。
GAN。
在扩散方法取得成功之前, GAN在图像生成中一直是主流方法。GAN由生成器G和鉴别器D组成。生成器
被设计为从高斯分布中采样的噪声
生成输出
, 而鉴别器D则用于将输出分类为真实或虚假。
从GAN的最初定义开始, 生成器G和鉴别器D是以对抗的方式进行训练的。具体来说, 首先训练鉴别器D。将从数据分布
中采样的真实数据
和生成的输出
输入到鉴别器
中, 它学习改善对真实和虚假样本的鉴别能力。这可以表示为:
鉴别器D应该最大化损失
。在这个过程中, 生成器
中的参数被冻结。然后, 我们按照以下方式训练生成器
:
生成器
被训练来最小化损失
, 以使生成的样本能够接近真实数据。在此过程中, 鉴别器
的参数也不会被更新。下面的工作将GAN应用于与图像生成相关的各种任务, 例如风格转移、图像编辑和图像修补等。
扩散。
自从去噪扩散概率模型(DDPM)开始统治图像生成以来, 基于扩散的方法已经开始主导图像生成领域。DDPM从高斯分布
中学习了一个逆过程来生成图像。它包含两个过程: 扩散过程 (也称为正向过程)和去噪过程 (也称为逆过程) 。在扩散过程中, 在
个时间步中逐渐向图像中添加小的高斯噪声。给定来自数据分布的图像
, 可以通过所有先前扩散过程的累积分布得到
。
其中
和
分别表示扩散步骤和预定义的噪声计划。我们还可以通过以下方式得到
时间步的输出:
其中,
且
。因此, 有:
去噪过程是扩散过程的逆过程, 使我们能够从高斯噪声中获得图像。为了实现这一点, 一个去噪模型
学习通过一个简化的损失函数来预测在时间步
添加的噪声
, 该损失函数可以表示为:
然后,可以通过逐步去噪来进行:
其中,
。虽然DDPM的生成质量令人满意, 但其缓慢的生成速度阻碍了其更广泛的应用。以下工作尝试通过减少去噪步骤或加速去噪模型来解决这个问题。
自回归建模。
自回归建模已经在语言生成方法和图像生成任务中得到了探索。给定一个tokens 序列
, 第
个token
的概率仅依赖于tokens
。一个自回归模型
被训练以最大化当前tokens 的似然性, 可以表示为:
最近, LVM将训练数据量扩大到 4200 亿个tokens , 并将模型大小扩展到 30 亿个参数, 展示了对于一般性视觉推理以及生成的能力, 并指向了通往世界模型的潜在途径。
Masked建模。
Masked建模最初是为了语言模型和图像模型的自监督学习而设计的。给定一个tokens 序列
, 一些tokens 会被随机地掩盖。然后, 模型被迫预测被掩盖的tokens 并重建原始表示。注意到Masked建模对图像重建的能力, 一些研究, 如[125], [126] 直接从mask tokens 生成图像, 并发现它在视频生成任务中也有很好的泛化能力。考虑到其简单性和惊人的性能, 这也是未来生成技术的一个有前景的方向。
2.2 高级视频生成模型
在本节中,回顾了近年来提出的高级视频生成模型。根据给定的条件(例如,示例、类别、音频、文本、图像或视频),在生成期间,视频生成任务可以分为不同的类别。在这里,主要关注文本到视频方法,其中在生成期间提供了文本描述。这些模型旨在生成与给定文本语义对齐的视频,同时保持不同帧之间的一致性。基于其他条件的构思生成方法可以从文本到图像模型进行修改。
2.2.1 基于GAN的方法
除了图像生成的成功之外,基于GAN的模型也在视频生成方面取得了显著的性能。在这里,选择了三种代表性方法并进行简要回顾。从下图4 (a) 中可视化了基于GAN的方法的一般架构。
基于文本的时间GAN(TGANs-C)采用基于LSTM的文本编码器来提取文本嵌入。然后,将该嵌入与随机噪声向量结合,共同形成生成器的输入。生成器包含一系列时空卷积,用于生成帧序列。与第2.1.3节中用于图像生成的GAN模型不同,后者通常只有一个鉴别器,TGANs-C 分别设计了三个鉴别器,用于视频、帧和运动级别。由于这些鉴别器的存在,该模型能够生成与提供的文本一致且类似于真实视频素材的视频。
文本过滤器条件生成对抗网络(TFGAN)采用从文本编码器中提取的文本特征来生成不同帧的一系列滤波器。然后,将这些滤波器用作每帧生成的卷积滤波器。这种操作增强了给定文本与生成视频之间的语义关联。
StroyGAN的目标是基于多句段落生成一系列帧,其中每个句子负责一个帧。它采用故事编码器和上下文编码器来提取多句段落和当前帧的全局表示,分别。然后,将故事编码器和上下文编码器的输出组合并输入生成器以生成当前帧。它还采用两个鉴别器来确保与给定段落的帧级和视频级一致性。
2.2.2 基于扩散的方法
扩散模型在图像生成方面的发展也促进了视频生成方面的进展。我们选择了四种代表性方法,因为它们的有效性或效率。在上面图4 (b) 中总结了这些方法的框架。
Imagen Video提出了一个级联采样pipeline用于视频生成。从基本视频生成模型 开始,该模型生成分辨率和帧速率较低的视频,作者级联了空间和时间超分辨率模型,以逐步提高生成视频的分辨率和帧速率。
Stable video diffusion(SVD)基于Stable Diffusion,在空间卷积和注意力块之后插入了时间卷积和注意力层。为了提高生成性能,作者提出将训练分为三个阶段:在文本到图像任务上的预训练、在文本到视频任务上的预训练以及使用高质量数据进行文本到视频微调。这证明了对于视频扩散模型而言,数据筛选的重要性。
Latte是在视频生成中早期尝试应用基于Transformer的模型。该模型基于 DiT构建,并包含额外的块用于时空建模。为了确保生成的效率,作者探索了四种用于空间和时间建模的高效设计,这与第2.1.1节中提到的操作类似。Latte 的架构被认为类似于 Sora 的设计。
StreamingT2V将文本到视频生成分为三个步骤,从而可以生成长视频,甚至超过 1200 帧。首先,它采用预训练的文本到视频模型生成一个短视频,例如仅有 16 帧。然后,它通过短期和长期记忆机制扩展了视频扩散模型,以自回归地生成更多帧。最后,采用另一个高分辨率视频生成模型来增强生成的视频。
2.2.3 基于自回归建模的方法
自回归建模也是视频生成中常用的技术,如[88],[144],[220],[229],[237]。在前面图4 (c) 中展示了其架构。
VideoGPT是一种典型的基于自回归建模的方法。它首先训练一个 VQ-VAE将视频编码为潜在token。然后,利用了类似 GPT 的框架,并训练模型学习在潜在空间中预测下一个token。在推理过程中,从潜在空间中采样了一系列token,然后训练好的 VideoGPT 与 VQ-VAE 将其解码成生成的视频。
GODIVA也以类似的方式生成视频,但强调减少模型的计算复杂性。具体而言,提出用三个稀疏自注意力层替换原始的自注意层,这些层仅沿着潜在特征的时间、行和列维度进行计算。这种解耦操作的有效性也被第2.1节中提到的模型所验证。
CogVideo继承了预训练自回归模型 CogView2的知识,以减轻从头开始训练的负担。为了提高给定文本与生成视频之间的对齐性,作者提出了一个多帧率分层生成框架,该框架首先以自回归方式生成关键帧,然后通过双向注意力递归插值帧。
2.2.4 基于Masked建模的方法
Masked建模也是一种新兴的视频生成方法。与自回归建模不同,自回归建模存在顺序生成的缺点,而Masked建模方法可以并行解码视频。在前面图4 (d) 中展示了其架构。
MAGVIT通过一个3D-VQ分词器将视频编码为token,并利用mask token建模范式加速训练。具体而言,目标token在训练过程中被随机替换为条件token和mask token。然后,训练一个双向Transformer来细化条件token、预测mask token和重建目标token。为了提高生成质量,MAGVIT-v2被引入以改进视频分词器。作者设计了一种无查找量化方法来构建码书,并提出了一个联合图像-视频分词模型,使其能够同时处理图像和视频生成。此后,VideoPoet将MAGVIT-v2集成到一个大语言模型中,从各种条件信号生成视频。
类似地,WorldDreamer也训练模型基于未mask token来重建mask token。为了促进训练过程,他们设计了一个空间-时间分块Transformer,该Transformer在空间-时间窗口内进行注意力计算。它采用了交叉注意力层来将给定文本描述的信息注入模型。并行解码的优先级使其能够比基于扩散和基于自回归的方法实现更快的视频生成。
2.2.5 数据集和评估指标
训练文本到视频生成模型需要大规模的视频文本对。下表1展示了几个流行的数据集。这些数据集也可以用于训练多模态模型。根据Sora的技术报告,例如视频文本对齐和字幕丰富性等数据质量对生成性能至关重要。因此,我们希望能够开源更多大规模高质量的数据集,推动视频生成的繁荣甚至世界模型的发展。
用于评估视频生成性能的度量标准在不同的论文中有所不同。例如,Latte和 VideoGPT 通过 Fréchet 视频距离 (FVD)来衡量性能。CLIP 相似度 (CLIPSim)也是一种常见的评估方法。人类评估作为这些指标的补充,在现有工作中也被广泛采用。由于评估分数与随机种子密切相关,进行公平比较并不容易。此外,不同的方法可能采用不同的数据集来评估性能,这进一步加剧了这个问题。人类偏好注释可能是视频生成评估的一个潜在解决方案。最近,一些全面的基准 [97],[133],[134] 被提出用于公平比较。
2.3 迈向世界模型:Sora
Sora是由OpenAI开发的闭源文本到视频生成模型。除了能够生成一分钟高保真视频外,它还展示了一些模拟现实世界的能力。它通过视频生成模型指引了通往世界模型的道路。在本节中,我们简要介绍了Sora背后的技术。由于Sora是闭源的,这里的所有分析主要基于其技术报告,可能与其实际实现有所不同。
2.3.1 框架
Sora是一种基于扩散的视频生成模型。它由三部分组成:
压缩模型,将原始视频在时间和空间上压缩成潜在表示,并且将潜在表示映射回原始视频的非对称模型。
一个基于Transformer的扩散模型,类似于DiT,在潜在空间中进行训练。
一个语言模型,将人类指令编码成嵌入,并将其注入到生成模型中。
压缩模型。
压缩模型通常包含一个编码器和一个解码器。前者被用来将视频投影到低维潜在空间中, 而后者则将潜在表示映射回视频。根据技术报告 [21], 压缩模型基于VAE或VQ-VAE构建。由于解码器的架构通常与编码器对称, 因此在这个回顾中, 我们主要关注编码器的架构。
给定原始视频
, 编码器首先将其投影到一系列 token
中。根据第
2.1.1节中提到的视觉基础模型中采用的方法, 存在两个选项:仅进行空间压缩和空间 - 时间压缩。仅进行空间压缩只沿空间维度压缩视频。它提取每个帧的尺寸为
的图像块, 并采用
卷积层将其投影到
。在这种情况下, 有
。这种操作在 ViTs中被广泛采用。空间 - 时间压缩方法在空间和时间维度上压缩视频, 提供了更高的压缩率。具体来说, 它从视频中提取尺寸为
的空间 - 时间管道, 并采用
卷积层将其投影到嵌入
中。因此, 有
。这种操作类似于 ViViT 中的管道嵌入技术。
token化之后, 编码器可以通过Transformer块、卷积块或它们的组合进一步处理这些token, 并将它们投影到
中。在下图2 (a) 中展示了压缩模型的架构。
生成模型
。根据技术报告,生成模型是基于 DiT构建的。由于原始的 DiT 是为类到图像的生成而设计的,因此需要对其进行两项修改。首先,由于 DiT 中的自注意力块和 MLP 块是为了空间建模而设计的,因此应该添加额外的块来进行时间建模。这可以通过将原始自注意力扩展到空间和时间维度来实现。其次,条件从类更改为文本,并且应该添加注入文本信息的块。文本到图像的交叉注意力块是一个潜在的解决方案,其有效性在 [32] 中已经得到证实。基于此,潜在架构的一层可以被公式化为:
其中, STA 和 CA 分别表示空间-时间注意力和文本到图像交叉注意力块。
表示该层的输入。从语言模型 (如 T5) 或多模型 (如 CLIP) 派生的文本嵌入表示为
。为简洁起见,我们省略了时间步信息的注入, 这可以通过自适应层归一化块来实现。在下图 2 (b) 中展示了潜在的架构。最后, 生成模型被训练来预测添加到潜在表示
中的噪声。更多细节可以在第 2.1 .3 节中提到的扩散技术中找到。
2.3.2 训练数据
训练 Sora 的一个巨大挑战是收集大规模高质量的视频文本对。先前的研究 [16], [32] 已经证明,生成性能高度依赖于数据的质量。低质量的数据,例如,嘈杂的视频文本对或过于简单的视频描述,导致生成模型遵循低质量的指导。为了解决这个问题,Sora 采用了 DALL-E 3 中提出的重新描述技术。具体来说,训练一个视频描述器,使用高质量的视频文本对,其中文本与相应的视频良好对齐,并包含多样且描述性的信息。视频描述器可以是视频版本的多模态大语言模型,例如 GPT-4V, mPLUG或 InternVideo。然后,预训练的视频描述器被用来为 Sora 的训练数据生成高质量的描述。这个简单的方法有效地提高了数据质量。
在推理过程中,为了解决用户可能提供过于简单的提示的问题,Sora 采用了 GPT-4来重新编写提示,使其更加详细。这使得 Sora 能够生成高质量的视频。
2.3.3 迈向世界模型
根据 OpenAI 的声明,Sora 可以作为一个世界仿真器,因为它能够理解行为的结果。来自其技术报告的一个示例是,Sora 生成了一个视频,在视频中画家可以沿着画布留下新的笔触,这些笔触会随着时间的推移而持续存在。另一个示例是,一个人可以吃掉一个汉堡包并留下咬痕,这表明 Sora 能够预测吃东西的结果。这两个示例表明,Sora 能够理解世界并预测行为的结果。这种能力与世界模型的目标非常一致:通过预测未来来理解世界。因此,我们相信 Sora 背后的技术可以进一步激发对世界模型的探索。
首先,训练和推理策略提高了大型生成模型的性能和效率。例如,Sora 从具有本地宽高比的视频中学习,这显然提高了生成视频的构图和画面。这需要技术和工程优化,以实现高效的训练。生成 1 分钟长度的视频对推理服务器来说是一个巨大的挑战和负担,这仍然阻碍了 Sora 的公开发布。OpenAI 的解决方案可能对大型模型社区很有价值。在 Sora 中采用的更多潜在技术可以在 [136] 中找到。我们相信,Sora 在这方面的贡献也可以激发构建世界模型的工作。
其次,Sora 采用了基于 Transformer 的生成模型,具有广泛的参数和大规模的训练数据,导致了在视频生成方面出现了新的能力。这表明在视觉领域也存在着扩展规律,并指引了建立大规模视觉模型甚至世界模型的一个有希望的方向。
最后,Sora 再次强调了训练数据对于良好生成性能的重要性。虽然 OpenAI 没有披露 Sora 中使用的数据的来源和规模,但有人猜测在训练过程中可能引入了大量的游戏视频。这些游戏视频可能包含丰富的物理信息,有助于 Sora 理解物理世界。这表明,整合物理引擎可能是通向构建世界模型的一个潜在途径。
3.自动驾驶的世界模型
自动驾驶需要应对不确定性。理解自动驾驶中固有的不确定性对于做出安全决策至关重要,即使是一个小错误也可能带来灾难性后果。不确定性主要有两种形式:认识不确定性,源于知识或信息的不足;随机不确定性,根源于现实世界的固有随机性。为了确保安全驾驶,必须利用嵌入在世界模型中的过去经验有效地减轻随机和认知不确定性。
世界模型善于通过预测未来的变化来表示一个Agent在其环境中的时空知识。在自动驾驶中,有两种主要类型的世界模型旨在减少驾驶不确定性,即端到端驾驶的世界模型和神经驾驶仿真器的世界模型。
在模拟环境中,方法如 MILE 和 TrafficBots 并不区分认知和随机不确定性,并根据强化学习将它们纳入模型,增强了决策和未来预测的能力,从而为端到端自动驾驶铺平了道路。在真实环境中,特斯拉和 GAIA-1 等方法利用生成模型构建神经驾驶仿真器,产生 2D 或 3D 未来场景以增强预测能力,从而减少随机不确定性。此外,生成新样本可以减轻罕见情况(如边缘情况)的认知不确定性。下图5 描述了自动驾驶中这两种类型的世界模型。神经驾驶仿真器可以进一步细分为生成 2D 图像和模拟 3D 场景的两类。
3.1 端到端驾驶
在自动驾驶领域,世界模型的发展扮演着关键角色,因为它们致力于构建环境的动态表示。对未来的准确预测对于确保在各种情境下安全操控至关重要。然而,在自动驾驶中构建世界模型面临着独特的挑战,主要源自驾驶场景中复杂的样本复杂性。端到端自动驾驶方法通过最小化搜索空间并在 CARLA 仿真器上集成对视觉动态的明确解缠来应对这些挑战。下表2 展示了基于世界模型的现有端到端驾驶方法的比较。
Iso-Dream 引入了一种基于模型的强化学习(MBRL)框架,旨在通过强化学习有效地解缠和利用可控和不可控状态转换。此外,Iso-Dream 根据世界模型的分离潜在想象优化Agent的行为。具体来说,Iso-Dream 将不可控状态投影到未来以估计状态值,并将其与当前可控状态联系起来。Iso-Dream 提升了Agent的长期决策能力,例如在自动驾驶车辆积极规避潜在危险时,预测周围车辆的移动。
Iso-Dream通过将前视 2D 图像映射到控制信号来学习世界模型,这对于在 3D 空间进行自动驾驶并不合适。为了解决这个问题,MILE 将世界模型与 3D 空间中的模仿学习相结合,即BEV空间。MILE 使用 3D 几何作为归纳偏差,并从专家驾驶视频中创建潜在空间。训练使用城市驾驶的离线数据集进行,无需与场景进行在线交互。在性能方面,即使在全新的城镇和天气条件下操作,MILE 在 CARLA 上的驾驶得分仍然超过先前领先的方法,超过 31% 的较大幅度。此外,MILE 展示了其能力,可以仅基于通过想象过程生成的计划执行复杂的驾驶动作。
与 MILE 类似,SEM2 也在 3D 空间中构建了世界模型。SEM2 通过整合潜在过滤器的新方法来孤立关键的任务特定特征,然后利用这些特征重建语义mask。此外,它在训练过程中使用了多源采样器,将标准数据与各种边缘案例数据合并到一个批次中,有效确保了平衡的数据分布。具体来说,SEM2 将摄像头和激光雷达作为输入,将它们编码为具有确定性和随机变量的潜在状态。随后,初始潜在状态被用于重新生成观察。在此之后,潜在语义过滤器从潜在状态中孤立出与驾驶相关的特征,重建语义mask,并预测奖励。在 CARLA 仿真器上进行的大量实验展示了 SEM2 在样本效率和对输入排列变化的鲁棒性方面的熟练程度。
TrafficBots 是另一种基于世界模型的端到端驾驶方法,其重点放在预测给定情景中个体Agent的动作上。通过考虑每个Agent的目的地,TrafficBots 利用条件变分自动编码器(CVAE)赋予每个个体Agent独特的特征,从而能够从鸟瞰图的角度进行行动预测。TrafficBots 提供了更快的操作速度和可伸缩性,以处理更多的Agent。在 Waymo 数据集上进行的实验表明了 TrafficBots 模拟真实多Agent行为和在运动预测任务中取得的有希望的结果。
上述方法在 CARLA v1 中进行了实验,但从根本上面临 CARLA v2 中数据低效的挑战。CARLA v2 提供了一个更接近真实的测试平台。为了应对 CARLA v2 场景的复杂性,Think2Drive 是一种用于自动驾驶的基于模型的强化学习方法,鼓励规划器在学习的潜在空间内思考。该方法通过利用低维状态空间和张量的并行计算,显著提高了训练效率。仅仅经过 3 天的培训,利用单个 A6000 GPU,Think2Drive 就在 CARLA v2 仿真器上达到了专家级别的熟练程度。此外,Think2Drive 还引入了 CornerCase Repository,一个旨在评估不同场景下驾驶模型的新型基准。
尽管在使用强化学习进行端到端驾驶的世界模型方面取得了进展,但仍然存在一个重要的限制:其主要着重于模拟环境。接下来,将深入研究自动驾驶在现实场景中的世界模型研究。
3.2 神经驾驶仿真器
高质量的数据是训练深度学习模型的基石。虽然文本和图像数据可以低成本获取,但在自动驾驶领域获取数据面临挑战,这主要是由于时空复杂性和隐私问题等因素。特别是在解决直接影响实际驾驶安全的长尾目标时。世界模型对于理解和模拟复杂的物理世界至关重要。一些最近的努力将扩散模型引入到自动驾驶领域,构建世界模型作为神经仿真器,以生成所需的自动 2D 驾驶视频。此外,一些方法利用世界模型生成描述未来场景的 3D 占据网格或激光雷达点云。下表3 概述了基于世界模型的这些神经驾驶仿真器方法。
3.2.1 2D 场景生成
用于驾驶视频生成的世界模型需要解决两个关键挑战:一致性和可控性。一致性对于保持生成图像之间的时间和交叉视图一致性至关重要,而可控性确保生成图像与相应的注释对齐。基于世界模型的现有 2D 驾驶视频生成方法的比较如下表4 所示。
GAIA-1 是一种先进的生成式世界模型,旨在生成逼真的驾驶视频,可以精确控制自车动作和环境要素。GAIA-1 通过将视频、文本和动作输入作为tokens 序列来解决世界建模的挑战,并以无监督方式预测后续tokens 。其结构包括两个主要元素:世界模型和视频扩散解码器。世界模型拥有 65 亿参数,在 64 个 NVIDIA A100 上进行了为期 15 天的培训,而视频解码器则具有 26 亿参数,在相同的持续时间内使用 32 个 NVIDIA A100 进行了培训。世界模型仔细研究了场景中的元素和动态,而扩散解码器将潜在表示转换为具有复杂逼真性的高保真度视频。GAIA-1 的训练语料库包括从 2019 年到 2023 年在伦敦收集的 4700 小时的驾驶视频。值得注意的是,GAIA-1 能够理解 3D 几何并捕捉由路面不规则性引起的复杂交互。此外,GAIA-1 遵循了大语言模型(LLM)中观察到的类似的扩展规律。凭借其学到的表示和对场景元素的控制,GAIA-1 为增强体验智能打开了新的可能性。
虽然 GAIA-1 可以生成逼真的自动驾驶场景视频,但其可控性仅限于使用文本和动作作为视频生成的条件,而自动驾驶任务则要求遵守结构化的交通约束。DriveDreamer 擅长可控驾驶视频生成,与文本提示和结构化交通约束(包括 HD-Map 和 3D 箱数据)无缝对齐。DriveDreamer 的训练pipeline包括两个阶段:首先,DriveDreamer 使用交通结构信息作为中间条件进行训练,显著提高了采样效率。在随后的阶段,通过视频预测开发世界模型,其中驾驶动作被迭代地用于更新未来的交通结构条件。这使得 DriveDreamer 能够根据不同的驾驶策略预测驾驶环境的变化。通过对具有挑战性的 nuScenes 基准的大量实验,DriveDreamer 被证实能够实现精确和可控的视频生成,代表了现实世界交通情况的结构约束。
为进一步增强生成的多视角视频的一致性和可控性,DriveDreamer-2 被引入作为 DriveDreamer 框架的演进版本。DriveDreamer-2 集成了一个大语言模型(LLM),以增强视频生成的可控性。首先,DriveDreamer-2 集成了一个LLM接口,用于解释用户查询并将其转化为Agent轨迹。随后,它根据这些轨迹生成符合交通规定的高清地图。此外,DriveDreamer-2 提出了统一的多视角模型,以提高生成多视角视频的时间和空间一致性。与具有 LLM 的 DriveDreamer-2 不同,ADriver-I 则利用了多模态大语言模型(MLLMs)来增强生成驾驶场景视频的可控性。受 MLMM 中交替文档方法的启发,ADriver-I 引入了交替的视觉-动作对,以建立视觉特征及其相关控制信号的标准化格式。这些视觉-动作对被用作输入,并且 ADriver-I 以自回归方式预测当前帧的控制信号。ADriver-I 继续使用预测的下一帧,使其能够在合成环境中实现自动驾驶。通过在 nuScenes等数据集上进行大量实验对其性能进行了严格评估。
ADriver-I 仅限于生成单视角视频。为了生成像 DriveDreamer-2 一样的多视角视频,提出了 Panacea 和 DrivingDiffusion。Panacea 是专为全景和可控驾驶场景合成而设计的创新视频生成系统。它分为两个阶段:首先制作逼真的多视角驾驶场景图像,然后沿时间轴扩展这些图像以创建视频序列。对于全景视频生成,Panacea 引入了分解的 4D 注意力,增强了多视角和时间一致性。此外,Panacea 利用 ControlNet 来合并 BEV 序列。除了这些基本功能外,Panacea 还通过允许通过文本描述操纵全局场景属性,包括天气、时间和场景细节,提供了一个用户友好的界面来生成特定样本。DrivingDiffusion 也提出了一个多阶段方法来生成多视角视频。它涉及几个关键阶段:多视角单帧图像生成、跨多个摄像头生成共享单视角视频以及能够处理扩展视频生成的后处理。它还引入了局部提示以有效提高图像的质量。在生成过程之后,采用后处理来增强后续帧之间的一致性。此外,它利用了时间滑动窗口算法来延长视频的持续时间。
以上方法的目标是在给定特定条件下生成逼真的驾驶场景视频。Drive-WM更进一步利用预测的未来场景视频进行端到端规划应用,以增强驾驶安全性。Drive-WM 引入了多视角和时间建模来生成多视角帧。为了提高多视角一致性,Drive-WM 提出了对联合建模进行因式分解的方法,以在相邻视角的条件下预测中间视角,显著提高了视角之间的一致性。Drive-WM 还引入了一个简单而有效的统一条件接口,能够灵活利用各种条件,如图像、文本、3D 布局和动作,从而简化了条件生成。此外,通过利用多视角世界模型,Drive-WM 探索了端到端规划应用,以增强自动驾驶安全性。具体而言,在每个时间步骤,Drive-WM 利用世界模型为从规划器中采样的轨迹候选生成预测的未来场景。这些未来场景使用基于图像的奖励函数进行评估,并选择最佳轨迹来扩展规划树。在真实驾驶数据集上的测试验证了 Drive-WM 生成顶尖、连贯且可管理的多视角驾驶视频的能力,从而为真实世界的模拟和安全规划打开了新的可能性。
诸如边界框或高精地图之类的控制信号提供了驾驶场景的稀疏表示。WoVoGen通过引入 4D 世界体来增强基于扩散的生成模型。首先,WoVoGen 通过将参考场景与即将到来的车辆控制序列合并来构建 4D 世界体。然后,这个体指导多视角图像的生成。在这个 4D 结构中,每个体素通过融合多帧点云获得 LiDAR 语义标签,丰富了对环境的深度和复杂性理解。
SubjectDrive进一步研究了增加生成视频规模对自动驾驶感知模型性能的影响。通过他们的调查,他们已经证明了扩大生成数据产生对不断提升自动驾驶应用的效果。它指出了增强数据多样性对于有效扩展生成数据生产的至关重要性。因此,SubjectDrive 开发了一个创新模型,包括一个主体控制机制。
以上用于生成驾驶视频的方法主要是在相对较小的数据集上研究的,如 nuScenes。GAIA-1在一个包含 4,700 小时视频内容的数据集上进行了训练,但训练数据集不公开。最近,GenAD发布了用于自动驾驶的最大的多模态视频数据集 OpenDV-2K,其规模超过了广泛使用的 nuScenes 数据集 374 倍。OpenDV-2K 包含 2,059 小时的视频内容,配有文本注释,这些内容来自于 YouTube 的 1,747 小时和其他公共数据集收集的 312 小时的组合。GenAD 利用因果时间注意力和分离的空间注意机制有效捕捉了高度动态驾驶环境中的快速时空波动。这种架构使得 GenAD 能够在各种场景中进行零-shot 泛化。这种获得的理解进一步通过将其学到的知识应用于规划和仿真任务来得到证实。