25年1月来自智元机器人、上海AI实验室、香港中文大学、上海交大、复旦大学、香港科技大学和哈工大的论文“EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation”。
EnerVerse,是一个专为机器人操控任务而设计、具身未来空间生成的综合框架。EnerVerse 无缝集成卷积和双向注意机制,用于内部块空间建模,从而确保低层一致性和连续性。认识到视频数据中固有的冗余性,故提出一种稀疏内存上下文(sparse memory context)与逐块单向生成范式(chunkwise unidirectional generative paradigm)相结合的方法,以促进无限长序列的生成。为了进一步增强机器人能力,引入自由锚点视图 (FAV) 空间,它提供灵活的视角,可增强观察和分析能力。FAV 空间减轻运动建模的模糊性,消除密闭环境中的物理限制,并显著提高机器人在各种任务和设置中的泛化和适应性。为了解决获取多摄像头观测值所带来的高昂成本和劳动强度,提出一个数据引擎流水线,将生成模型与 4D Gaussian Splatting (4DGS) 相结合。该流程利用生成模型强大的泛化能力和 4DGS 提供的空间约束,能够迭代增强数据质量和多样性,从而产生数据飞轮效应,有效缩小模拟与现实之间的差距。最后,实验表明,具身未来空间(embodied future space)生成先验,显著增强策略预测能力,从而提高了整体性能,尤其是在远程机器人操控任务中。
如图所示EnerVerse 模型概述:由三个关键部分组成。首先,初始重建使用安装在机器人上的摄像头的观察图像来构建初始 3D 点云,并将锚点视图设置为适应环境并满足特定于任务的要求。其次,自由锚点视图(FAV)渲染器,从这些锚点视角生成渲染图像,以提供全面的场景表示。最后,逐块自回归生成采用多视图视频扩散,根据任务指令分块生成图像序列。当与策略头集成时,此模块可以生成机器人动作来执行给定的任务。
高容量基础模型在各种模态中都取得显著的成功,包括语言 (Wang 2024b)、图像 (Rombach 2022) 和视频 (Blattmann 2023)。这些模型在大型数据集上进行广泛的预训练,可以针对特定的下游任务进行微调。在机器人技术中,这些基础模型通过利用其预训练功能并适应特定于任务的应用程序,为解决复杂任务提供一个有前途的框架。
这种范式允许机器人根据不同的输入数据处理不同的任务。然而,基于实时观察规划未来行动仍然是机器人技术的一个核心挑战。与语言或视觉领域不同,机器人系统必须实时与物理世界交互,需要精确的动作规划和执行。
这种复杂性来自两个主要挑战:(1)
跨模态的显式对齐
:对齐任务指令、观察和动作空间本质上是复杂的。早期的工作(Goyal 2024); (Shridhar 2022) 使用预训练模型进行语言-视觉对齐,并使用复杂算法将其映射到动作。最近,基于 LLM 的方法 (Liang 2023);(Huang 2023, 2024) 已被引入,以使用预训练的视觉模型生成代码策略。尽管简化对齐,但这些方法受到普通语言的表示能力的限制,使其不适合复杂的任务。 (2)
数据稀缺
:缺乏大规模的任务-观察-动作数据集,阻碍映射关系的隐性学习。虽然已经引入大规模数据集 (O'Neill 2023);(Khazatsky 2024),但它们的多样性和质量仍然低于语言和视觉领域的数据集。一种方法 (Kim 2024) 试图通过将这些数据集与预训练的 LLM 知识相结合来解决这一限制,但它们需要大量数据,因此是资源密集型。
最近的研究 (Wen 2024); (Rigter 2024); (Cheang 2024); (Guo 2024) ,通过将视频生成与策略规划相结合,利用没有动作标签的大规模视频数据集,取得有希望的结果。然而,(Rigter 2024) 的许多方法只是将通用视频生成模型应用于具身任务,而忽略了机器人固有的独特要求。必须强调的是,视频生成并不等同于生成具身未来空间。机器人任务的特点是具有特定的需求,包括描述任务启动和完成的因果逻辑、实现精确结果的能力以及上下文记忆能力。此外,机器人在现实世界的三维环境中运行,而视频生成仅限于 2D 投影序列,无法充分捕捉具身未来空间的复杂性。因此,视频表示与三维空间动作之间的关系仍然不明确。
对于高信息密度的语言任务,利用单向注意的因果建模范式 (Vaswani 2017);(Achiam 2023) 表现出色。然而,对于以显著信息冗余为特征的视觉任务,确定最佳建模范式仍然是一个尚未解决的研究挑战。与语言任务相比,视觉生成任务通常受益于双向计算机制,例如双向注意和卷积,这些机制已被证明在各个领域都非常有效,包括图像生成 (Chi 2023);(Li 2024b);(Chang 2022)、一般视频生成 (Xing 2025);Ho(2022) 和 3D 生成 (Gao 2024b);(Wu 2024b)。
视频生成模型
。基于扩散的视频生成模型近年来取得重大进展 (Blattmann 2023);(Ho 2020);(Song 2020),特别是在文本到视频 (T2V) 生成领域。早期的 T2V 模型(Zhang 2023);(Chen 2023);(Ren 2024);(Zhang 2024) 利用文本到图像 (T2I) 模型建立的强先验,结合在视频数据上训练的时间模块来实现视频生成。例如,AnimateDiff (Guo 2023) 引入一个即插即用的运动模块,可以无缝集成到现有的个性化 T2I 扩散模型中,有效地为静态图像制作动画。同样,DynamicCrafter (Xing 2025) 将文本到视频扩散模型的运动先验调整到图像到视频 (I2V) 设置,通过调节输入静止图像上的噪声来生成动画剪辑。最近的进展 (Kong 2024); (Zheng 2024); (Bao 2024) 探索在去噪过程中用扩散Transformer架构取代传统的 U-Net,这一尝试受到扩散Transformer在图像生成中取得的最新成功的启发 (Peebles & Xie 2023a); (Liu 2024b); (Zhuo 2024)。此外,一些研究 (Gao 2024a) 通过结合因果机制扩展原始视频扩散范式,从而能够生成长序列视频。此外,其他研究 (Hu 2023); (Wang 2023); (Zhao 2024) 将视频生成模型扩展到世界建模领域,可以预测未来状态。
机器人视频预训练
。同时开展的工作 GR-2 (Cheang 2024) 引入一种多功能且可推广的机器人操作框架,该框架依赖于使用来自互联网的大量视频进行预训练。GR-2 针对使用机器人轨迹的视频生成和动作预测进行微调。LAPA (Ye 2024) 还利用互联网规模的视频从非机器人动作视频中学习预训练表示。它首先使用 VQ-VAE 学习图像帧之间的离散潜动作,然后预训练潜视觉-语言-动作 (VLA) 模型,以根据观察和任务描述预测这些潜动作。最后,在小规模机器人操作数据集上对 VLA 进行微调,以将潜动作映射到机器人动作。SEER (Tian 2024) 通过加入额外的逆动力学预训练来扩展 LAPA,以进一步提高性能。AVID (Rigter 2024) 利用 DynamicCrafter (Xing 2025) 作为其基础视频生成模型,并使用适配器将原始模型传输到机器人领域。VidMan (Wen 2024) 以 OpenSora(Zheng 2024) 为基础,利用视频扩散模型在动作生成之前的环境预测能力,但仍然局限于 2D 图像空间。
4D 重建和生成
。(Chen & Wang 2024) 使用 3D GS (Kerbl 2023) 和 NeRF(Mildenhall 2021) 等技术,从 2D 视频重建动态场景方面取得重大进展。先前的研究通过使用一组 4D 高斯 (Yang 2023) 来近似场景的底层时空 4D 体积来制定这项任务。(Wu 2024a) 提出通过联合优化正则空间中的高斯和变形场来对场景的几何和动态进行建模。 4D 生成领域的最新进展,主要集中在为生成多视角视频的扩散模型设计采样方案 (Li 2024a),主要针对单个动态目标的建模。DimensionX (Sun 2024) 使用多个 LoRA (Hu 2021),每个 LoRA 都是为特定的相机运动设计的,用于生成多视角视频,随后用于 4D 场景重建。同时,Cat4D (Wu 2024b) 使用单个多视角视频扩散模型生成多视角视频,然后将其用于将动态 3D 场景重建为变形的 3D 高斯。
EnerVerse 模型设计有多个专为未来空间生成量身定制的组件,并结合高斯 Splatting (GS) 数据工厂流水线。首先,采用与视频扩散模型集成的逐块自回归策略,通过分析可管理块中的前一个序列并利用视频扩散模型的功能来预测未来帧。其次,提出一种基于自由锚点视图(FAV)的 4D 生成方法,其中每个锚点的射线方向图作为先验知识提供,以促进目标新视图视频的有效生成。最后,实现一个由生成模型和 4DGS 组成的数据引擎流水线,它可以生成具有指定相机姿势的多样化新视图视频序列。然后利用这些生成的视频序列来驱使 Sim2Real 的自适应迁移。
下一个块扩散
如图所示,观察的潜序列表示为 o^1:K = [o^1/0, . . . , o^K/0 ],使用预训练的变分自动编码器 (VAE) 进行编码。其中,K 表示观察的帧数,H × W 表示下采样的空间分辨率,C 表示颜色通道数。类似地,渲染图像的潜表示为 r/0。预测的潜序列表示为 z^1:N/0 = [z^1/0,...,z^N/0]。目标是开发一个视频扩散模型,该模型根据条件概率分布 pθ(z^1:N/0 | c, o^1:K/0, r/0),根据观察的潜序列、渲染的潜序列和文本输入生成预测的潜序列。这里,c 表示文本条件,θ 是去噪网络的参数,表示为 εθ(z^1:N/t, c, o^1:K/0, r/0, t)。为了保持一致性,将观察的帧和渲染的帧都称为干净帧上下文。去噪网络经过训练,可以从含噪帧目标中预测真值噪声 ε,并以以下目标进行优化:
在实践中,根据 (Salimans & Ho 2022) 之前的工作,预测 v 。完成模型训练后,可以通过迭代去噪从随机噪声 z/T 中得出去噪数据 z/0。
在推理过程中,干净帧与含噪帧相结合,输入到扩散生成器中以产生 N 个含噪帧。然后将最近生成的帧用作下一次推理迭代的新干净帧。此迭代过程持续到检测预定义的序列结束 (EOS) 帧。由于扩散生成是在连续的潜表示帧上运行的,因此在推理过程中计算每个帧的生成结果及其与 EOS 的 L1 距离。应用预定义阈值来确定何时终止该过程。在实践中,这种基于阈值的检测 EOS 的方法已被证明是高度准确的。
上下文帧机制
。提出一种替代方法,即使用稀疏采样帧作为干净帧,而不是在训练期间使用连续帧作为块预测(chunk prediction)的干净帧上下文传统方法。对于通常包含大量冗余信息的视频数据,该方法可以丢弃大约 80% 的帧,同时仍保留足够的信息进行有效训练。此外,以高比率丢弃帧可以提高模型的鲁棒性,使其能够更好地处理分布不均 (OOD) 场景,特别是机器人学习领域中常见的协变漂移(covariant shift)问题。总体而言,从表示学习的角度来看,这种随机选择策略鼓励更全面地理解块预测,与依赖连续帧的方法相比,可能会带来更好的结果。
在推理过程中,从观察的或渲染的帧中获得干净帧,并使用滑动窗方法进行去噪。此方法可确保从观察帧到生成帧的无缝过渡,同时提高推理效率并减少 GPU 内存使用量。
4D 生成
单视图视频生成方法在解决遮挡方面面临巨大挑战,遮挡是机器人操作任务中常见且不可避免的问题 (Huang 2024)。以前的方法通常采用单一的自上而下视角,例如鸟瞰图 (BEV)。然而,由于 3D 环境中遮挡关系的复杂性,这种设置不足以完成操作任务。同样,固定的多锚点视图表示也受到环境的过度限制。例如,在厨房等狭窄而密闭的空间中,固定的摄像机位置可能在物理上不可行,预装的高架摄像机可能会与墙壁或其他障碍物相交。
相比之下,自由多视图视频生成提供了一种更实用、更灵活的替代方案。通过使生成模型能够专注于目标的物理属性(例如它们的形状和位置),这种方法增强目标级推理,这对于需要精确建模物理交互的操作任务尤其重要。另一种常见的观察设置涉及相对运动,例如安装在机器人手腕上的摄像机。然而,这种设置将环境动态与机器人自身的运动相结合,从而引入缺点,使策略学习变得复杂。
自由锚点视图视频生成流水线
。如上图所示,该方法的目标是直接生成多视图潜在值,表示为 z^1:N/0,V 表示视图数。在多摄像机或多视图设置中,每个摄像机固有地捕捉同一场景的不同视角。如果不明确考虑这些不同的视角,模型可能难以产生一致的输出。为了解决这个问题,通过沿通道维度附加射线方向图来增强初始图像 E/init 的嵌入。射线方向图对观察视图信息进行编码,包括内外摄像机参数。通过射线投射,生成过程变得具有视图-觉察能力,依赖摄像机参数调节模型。这使模型能够反映每个锚点视图的独特视角,同时捕获 3D 空间关系和遮挡属性——这对于操作任务至关重要。此外,将原有的二维空间注意机制扩展为三维跨视图注意机制,进一步增强模型的三维空间感知能力。此方法可确保不同视图之间的一致性和连贯性,同时保留场景中目标之间的几何关系。通过利用自由锚点视图表示,该流程可有效解决遮挡问题,增强空间推理能力,并无缝适应复杂的三维环境。
带 EnerVerse 和 4DGS 的现实世界数据飞轮
。在现实世界中获取经过精心标定的多摄像机观测数据既昂贵又耗费人力。因此,主要依赖来自模拟器的数据。然而,来自模拟环境或学术基准的视频数据,在应用于现实世界场景时往往会出现域差距。这些差距通常表现为视觉外观、尺度感知和度量精度方面的差异,从而阻碍了直接应用。为了应对这些挑战,提出一种数据生成引擎流水线,利用稀疏或孤立的观测来生成给定场景的多视角视图。通过利用高斯 Splatting 从这些多视角观测中进行 4D 重建,确保几何和光学一致性,从而提高不同视点之间的对齐和连贯性。
EnerVerse 模型是一种数据引擎,采用多阶段流程来增强视频生成和重建,如图所示。最初,用来自模拟器的数据训练一个基础模型 EnerVerse。然后,该模型被微调为 EnerVerse-D,以完整的离线观察序列为条件,其中从多个安装的摄像头捕获清晰、无噪音的视频。这些视频包括机械臂运动和场景动态,确保各个视图之间的运动一致性。随后,这些多视图视频用于通过高斯 splatting 构建 4D 高斯表示。完成 3D 场景重建后,从锚视图渲染内容以获得更高精度的观测值。渲染后的观测值经过去噪和几何一致性处理,使用 EnerVerse-D 进行迭代细化以生成伪真值。在使用数据引擎收集足够的现实世界多视图视频数据后,用这些数据进一步微调多视图视频生成器。这个迭代过程降低噪声,提高重建质量,并促进 Sim2Real 域自适应迁移,最终产生训练 4D 生成模型所必需的大规模高质量视频数据集。