意图驱动的 Ego-to-Exo 视频生成

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-08-29 00:10

正文

24年3月来自中科大和阿里的论文“Intention-driven Ego-to-Exo Video Generation”。

从自我-到-外部（Ego-to-Exo）的视频生成，是指根据以自我为中心的视频，生成相应的以外部为中心的视频，在AR/VR和具身人工智能方面有着很有价值的应用。受益于扩散模型技术的进步，视频生成取得了显著的进展。然而，现有的方法建立在相邻帧之间的时空一致性假设之上，而在从自我到外部的场景中，由于视角的剧烈变化，这一假设无法满足。为此，本文提出了一个意图驱动从自我到外部的视频生成框架（IDE），该框架利用由人体运动和动作描述组成的动作意图作为与视角无关的表示来指导视频生成，从而保持内容和运动的一致性。

具体而言，首先通过多视角立体匹配（MVSM）来估计以自我为中心的头部轨迹。然后，引入跨视图特征感知模块建立外部视图与自我视图之间的对应关系，指导轨迹变换模块从头部轨迹推断人体全身运动。同时，提出一个动作描述单元，将动作语义映射到与外部为中心图像一致的特征空间中。最后，推断的人体运动和高级动作描述共同指导扩散模型后向过程中外部为中心运动和交互内容（即相应的光流和遮挡图）的生成，最终将它们扭曲成相应的外部为中心视频。在相关数据集上，使用不同的外部-自我视频对，进行大量实验，证明了其在自我-到-外部视频生成中的有效性。

利用以自我为中心的视频生成相应的以外部为中心的视频（如图所示），使得模型能够从不同的角度理解和可视化同一场景（Grauman，2023；Wen，2021；Sigurdsson，2018）。由于提供了更全面的感知，它在AR/VR、具身智能和人机交互方面具有极好的研究价值（Li，2023；Rai，2021）。

在这两个视角之间，人类意图充当与视角无关的不变表示，作为将运动从自我中心视角转移到外部中心视角的桥梁，并缓解因不同视角而产生的内容和运动不一致。受此启发，考虑利用动作意图作为两种视角之间的中介表示，帮助生成与自我中心视频一致的外部中心视频。人类动作意图可以通过人体运动和动作描述来描述。如图（a）所示，人体运动提供关于场景中人体相对位置变化（即旋转和平移）的重要线索，而动作描述提供了指导场景内交互的高级信息（例如，用手触摸手柄完成打开动作）。人体运动很难直接获得。考虑到这一点，探索利用头部和人体运动之间的潜在联系，其中头部运动轨迹提供人体运动的大致方向和平移，从而能够间接推断出大致的人体运动。此外，考虑使用类别tokens作为连接两个视图的桥梁（如图（b）所示）。这种指导有助于模型从自我中心和外部中心的角度探索目标，建立两个视点之间的内容一致性，并促进头部运动轨迹转化为近似的人体运动。

框架如图所示，整个过程分为两个阶段：第一阶段训练一个潜在流自动编码器（Ni，2023），第二阶段训练条件扩散模型。第一阶段的网络由三个主要组件组成：一个图像编码器，用于将图像映射到潜在变量；一个光流估计模块，用于估计潜在流 f 和遮挡 m；一个解码器，用于将扭曲的潜在映射转换为最终输出 z ̃。

意图驱动的 Ego-to-Exo 视频生成

正文

请到「今天看啥」查看全文