专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
Java编程精选  ·  松下电器突然官宣解散!曾风靡全球 ·  3 天前  
Java编程精选  ·  Stream流式编程,让代码变优雅 ·  2 天前  
芋道源码  ·  关于DeepSeek的最新认知 ·  昨天  
芋道源码  ·  日常工作,MQ的8种常用使用场景 ·  2 天前  
芋道源码  ·  年后面试的兄弟们注意了。。。 ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

GEM:一种可泛化的多模态世界模型

自动驾驶之心  · 公众号  ·  · 2025-01-13 07:30

正文

作者 | 黄浴 编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/15975928529

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

>> 点击进入→ 自动驾驶之心 世界模型 技术交流群

本文只做学术分享,如有侵权,联系删文

24年12月来自瑞士EPFL、Bern大学、瑞士国家数据中心、苏黎世大学和ETH的论文“GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control”。

GEM 是一种可泛化的自我视觉多模态世界模型,它使用参考帧、稀疏特征、人体姿态和自我轨迹来预测未来帧。因此,模型可以精确控制目标动态、自我智体运动和人体姿态。GEM 生成 RGB 和深度成对的输出,实现更丰富的空间理解。引入自回归噪声调度,实现稳定的长期生成。数据集包含 4000 多个小时的多模态数据,涉及自动驾驶、以自我为中心的人类活动和无人机飞行等领域。伪标签用于获取深度图、自我轨迹和人体姿态。用一个全面的评估框架来评估可控性,包括一个新的目标操纵控制 (COM) 指标。实验表明,GEM 擅长生成多样化、可控的场景和长期的时序一致性。代码、模型和数据集完全开源:A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control

如图所示概述该世界模型的功能:GEM 支持一系列功能,包括目标操作(移动和插入目标)、动态自我轨迹调整、人体姿态变化以及对多模态输出(即图像和深度图)和多个领域(即无人机和人类自我中心活动)的适应性。所有图像均由 GEM 生成。

可控视频生成 。视频生成模型的最新进展使逼真的高质量视频渲染成为可能。一些开创性的模型利用大语言模型 (LLM) 进行文本-到-视频的生成 [42, 70]。自从扩散模型 [15, 51] 取得成功以来,基于扩散的视频生成已变得十分突出。方法可分为:文本-到-视频 [12, 20, 28, 29, 53, 60, 62] 或图像-到-视频 [4, 11, 80]。扩散模型可适应各种控制输入,如文本、边缘图和深度图 [78];它们还提供卓越的真实感 [4]。然而,通用视频生成模型并未经过训练以编码以自我为中心环境的复杂动态 [71],而且许多模型在生成过程中不提供详细的运动控制。

世界模型 。世界模型是大规模生成模型,可根据过去的观察推断动态并预测合理的未来 [33, 40, 74]。它们在许多任务中都很有价值,例如现实世界模拟 [74, 87]、强化学习 [2, 21, 24, 45, 66]、模型预测控制 [22, 23] 和表征学习 [25, 43]。

自动驾驶世界模型 。自动驾驶的世界模型使用传感器观测值(例如激光雷达生成的点云 [6, 76, 79, 85])来表示世界,有限的数据集通常会限制其规模或图像 [16, 30, 39, 41, 61, 65, 71, 84]。最近的视觉世界模型使用 LLM 作为骨干 [35, 67, 84],但这些模型严重依赖 LLM 的空间推理,而这仍然有限 [34, 47, 83]。这使得它们更适合高级场景控制,如天气或灯光调整,而不是精确的运动控制 [16]。相比之下,基于扩散的模型使用低级控制,如自我轨迹和地图 [16, 41, 61, 65, 71, 84],但主要侧重于自我中心控制,这限制了它们生成复杂场景的能力,例如控制场景中的任何其他运动。此外,改进多模态世界模型以进行空间度量理解的努力 [6] 依赖于有限的基于模拟的点云数据集,这些数据集很难推广到现实世界数据。

以自我为中心的人类活动世界模型 。最近的大规模自我中心视频数据集(例如 Ego4D [18] 和 Ego-Exo4D [19])具有先进的人类自我中心视觉。然而,对该领域综合世界模型的研究仍然有限。UniSim [74] 是这个方向的第一个方法,它使用基于动作标签的视频扩散模型。

如图所示,GEM 有两种输出模式——图像和深度——和三个控制信号:自我轨迹、DINOv2 特征和人体姿态。

将世界模型的训练视为视频生成。因此,采用当前 SotA 开源图像-到-视频模型的stable video diffusion (SVD) [4] 作为 GEM 的主干,并在以自我为中心的数据上对其进行微调。在 SVD 中,视频表示为大小为 H × W 的 N 个 RGB 帧序列。这些帧被独立编码到预训练的自动编码器潜空间中,从而产生一系列 N 个特征图,每个特征图有 4 个通道,高度 H ̃ = H/8 ,宽度 W ̃ = W/8 。将数据集中编码视频的分布表示为 p/data(x)。SVD 在Elucidated Dif fusion Model (EDM) 框架 [36] 内运行,其中训练网络 D/θ (x; σ, C) 对噪声样本 x 进行去噪,给定噪声水平 σ 和条件变量 C,其中可能包括文本或视频/图像嵌入。在 SVD 的情况下,C = {x/0} 仅包含序列中第一帧的嵌入,从而实现图像-到-视频的合成。

控制自我视觉生成

将模型的控制空间分解为三个主要部分:1)自我运动,2)目标级控制,3)人体姿态控制。第一个组件允许通过自我轨迹指定自我智体的运动。第二个组件有助于特定目标的控制,通过调整目标特征的位置,可以跨空间和时间编辑场景构图和动态。这还可以插入新目标。最后一个组件可以控制行人的姿态。

自我运动控制

为了控制自我运动,用自我轨迹 c/traj 扩展网络 D/θ(x;σ,C) 中的条件变量集,即 C = {x/0, c/traj}。自我轨迹是二维位置的度量序列,它量化自我智体投影到鸟瞰平面时的运动。受 Vista [16] 的启发,为了将 c/traj 集成到网络中,首先将轨迹嵌入到固定维平面上,并使用傅里叶嵌入对其进行编码 [54]。由于自我运动控制仅提供全局上下文,并不在图像空间中编码直接空间信息,通过 UNet 主干网交叉注意层中的附加 LoRA 模块 [31] 将它们融合来对 c/traj 上的网络进行条件调节(见上图)。

目标级控制

目标级控制的训练以无监督方式进行。在训练期间,从给定视频 x ∼ p/data(x) 中随机抽取 k 帧 {x/t1,...,x/tk}。然后,用 DINOv2 处理原始帧,并提取相应的密集特征图 {z/t1 , . . . , z/tk }。从每个特征图中,随机屏蔽除 m ∼ U[0,M] tokens 之外的所有tokens,其中 M 是实验中设置为 32 的超参。然后用零图填充屏蔽的特征图,匹配原始帧数。因此,得到 c/dino = {z^masked/t1,...,z^masked/tk}。通过采用这种随机方法,促进对场景的空间组成和时间动态的学习。

使用 DINOv2 特征进行目标级控制时,一个挑战是插入的token在空间和特征方面都与参考帧中已经存在的目标视觉特征相似。这在移动现有目标或插入新目标之间产生歧义。为了解决这个问题,用学习的身份嵌入来关联随时间变化的各个token。这种方法如图所示,涉及在不同时间步中将相同的身份嵌入添加到表示相同移动实体的控制token中。

更具体地说,像以前一样从 {z^masked/t1, . . . , z^masked/tk} 开始,并将各个学习的身份嵌入 ID/φ : {1, ...L} → R^d 添加到每个特征图中的非零token。这里 L 被选择为足够大,以确保来自同一特征图的不同token不会接收相同的身份嵌入。然后,对于每个特征图,采样一个目标时间 τ/i > t/i,并使用帧 x/ti 和 x/τi 之间的光流将 token 从 z^masked+ID/ti 转换为 z/τi,如上图所示。

在推理时,可以通过在参考帧和目标帧中使用相同的身份嵌入来消除生成的歧义,以引导模型移动底层目标,而不是在所需位置引入新目标。

与自我运动相反,目标级控制对场景构图的细粒度细节进行编码。这会影响条件技术的设计,因为现在需要结合空间信息。首先使用具有与去噪 UNet 输入块类似架构的网络处理稀疏 DINOv2 特征图序列。此网络为 ObjectNet。ObjectNet 旨在捕获和修复稀疏 DINOv2 特征图中的空间和时间信息。与其他研究 [81] 类似,编码的tokens直接添加到 UNet 输入块的输出中。从经验上看,这种目标级控制技术优于通过交叉注意层输入 DINOv2 tokens,就像对自我运动控制所做的那样。此外,ObjectNet 的使用充当过渡层,弥合 DINOv2 和 UNet 内部特征空间之间的域差距,并且优于将纯 DINOv2 特征图融合到去噪器中。

人体姿态控制

上述目标级控制对于运动部件较少的目标表现良好。然而,生成准确的人体表征仍然是模型面临的挑战。尽管如此,为了实现安全导航和人机交互,准确地建模人体至关重要。因此,用人体姿态分量扩展目标级控制,即 C = {x0 , c/traj , c/dino , c/pose }。为了根据提取的人体姿态去调节模型 D/θ,遵循先前生成人体运动的技术 [81];在空图像平面上画骨架,并将其传递给 CNN PoseNet,以嵌入空间信息。然后,将人体姿态特征图添加到网络特征 D/θ,方式类似于目标级控制。

稳定的长视频生成

对于扩散模型来说,生成超出训练范围的长视频是一项具有挑战性的任务 [10, 13, 68, 82]。一种简单的方法是生成具有重叠帧的连续短片。然而,这会导致时间不连续性和场景突变 [68]。受近期研究 [10, 68] 的启发,引入渐进式去噪和自回归采样,使用一个每帧噪声调度来强化连续帧之间的因果关系。

采样的目标是在长范围内对所有帧进行自回归去噪。为此,采用动态每帧噪声调度,如图所示。该调度分为三个阶段:初始化、自回归和终止。最初,该调度控制每帧的噪声水平,以便仅在启动第 i-1 帧去噪后才开始第 i 帧的去噪。这使得每个帧的去噪能够受益于其前几帧中一些更清晰的信息。一旦一帧完全去噪,它就会被保存并替换当前参考帧。此时,自回归阶段开始,在每个步骤中,一个完全去噪的帧被移除,一个新的噪声帧被附加。这个过程一直持续到只剩下 N 个帧需要去噪,标志着终止阶段的开始。在这个阶段,没有添加新帧;完全去噪的帧被保存。

为了支持使用建议的自定义噪声调度进行推理,采取以下方式修改训练噪声分布。首先采样一个随机噪声水平 log(σ) ∼ N (p/mean, p/std)。使用 SVD 的噪声-到-时间步长映射(step mapping),计算相应的去噪时间步长 t/intercept。接下来,采样一个随机移位 t/shift ∼ Beta(α, β),其中 α 和 β 的选择有利于较低的移位值。然后计算每帧时间步长为 t/intercept − ( i/N-1 − t/shift),其中 i ∈ {0,...,N − 1},确保噪声在帧轴上持续增加。为了增加可变性,在时间步长中添加小的随机噪声,随后将其转换回 σ 值。这种方法将基本信息保留在自回归组件的注意窗口内。

多模态生成

将深度作为额外的生成模态,利用其丰富的空间信息,事实证明,这可以增强场景感知、规划、目标定位等任务 [1, 63]。通过在 RGB 图像旁边生成深度,GEM 可以生成空间信息以及场景的结构上下文。为了对深度进行编码和解码,用与图像相同的 VAE,遵循 [32],这表明 SVD 的预训练 VAE 在深度图像上的重建误差可以忽略不计。在输入处连接两种模态,并向去噪网络引入输出卷积投影层 (P/depth) 来预测深度噪声。D/θ 同时对两个输入进行去噪,确保两种模态之间的一致性。因此,最终的去噪器是 D/θ (x, x/depth; σ, {x/0 , c/traj , c/dino , c/pose})。

训练策略

为了提高效率,将训练分为两个不同阶段,第一阶段侧重于学习新的控制信号,第二阶段强调高分辨率生成。从预训练的 SVD [4] 开始,最初使用所有添加的控制信号和模态在低分辨率视频 (320×576) 上对其进行微调。在第二阶段,训练以相同的方式继续,但分辨率更高(576×1024)。在两个阶段都应用数据过滤来提高多样性和质量。

结合表中所示的不同域各种开源数据集。用从 YouTube 收集的 3211 小时驾驶视频、1000 小时人类自我中心视频和 27.4 小时无人机镜头。

数据管理。为了实现对目标运动的精确控制,训练数据必须包括 (1) 多样化的交互和动态,(2) 细粒度的目标细节。通过删除低质量和低运动序列、将视频分割成 2.5 秒片段以及应用两种类型的过滤器来管理数据集:质量和多样性。质量过滤使用来自 LAION 数据集 [52] 的美学分数和 PIQE 指标 [59] 排除相机质量差或模糊度高的片段,类似于 [48]。多样性过滤通过光流评估运动多样性,类似于 [17, 48],并使用 DINO 特征编码 [44] 评估语义变化。排除剪辑内多样性低或剪辑间相似性高的剪辑,平衡运动和内容。







请到「今天看啥」查看全文


推荐文章
Java编程精选  ·  松下电器突然官宣解散!曾风靡全球
3 天前
Java编程精选  ·  Stream流式编程,让代码变优雅
2 天前
芋道源码  ·  关于DeepSeek的最新认知
昨天
芋道源码  ·  日常工作,MQ的8种常用使用场景
2 天前
芋道源码  ·  年后面试的兄弟们注意了。。。
2 天前
老杨地产逻辑  ·  房价争霸:2015看深圳,2016属合肥!
8 年前
搬砖怪谈  ·  【短篇惊悚】遇到老虎的采药人
8 年前
单向街书店  ·  你的生活需要 52 次艳遇
7 年前