专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
新闻广角  ·  胡歌,突传新消息! ·  昨天  
新闻广角  ·  “复仇”日本队!中国男篮晋级亚洲杯正赛 ·  3 天前  
51好读  ›  专栏  ›  GitHubStore

MIMO:AI换人

GitHubStore  · 公众号  ·  · 2024-09-27 08:43

正文

项目简介

AI换脸是替换视频中的人脸,MIMO直接实现了AI换人,并且保持原视频中人物的动作。看演示视频,人物是有闪烁和动作不准的情况。阿里的项目,依旧是有Github但未开源。



角色视频合成旨在在逼真的场景中生成可动画角色的逼真视频。作为计算机视觉和图形领域的一个基本问题,3D 作品通常需要多视图捕获来进行逐例训练,这严重限制了它们在短时间内建模任意角色的适用性。最近的 2D 方法通过预先训练的扩散模型打破了这一限制,但它们在姿势通用性和场景交互方面存在困难。为此,我们提出了 MIMO ,一种新颖的可推广模型,它不仅可以合成具有由 简单用户输入 提供的 可控属性 (即角色、运动和场景)的角色视频,而且还可以 同时实现对任意角色的高级可扩展性、通用性到新颖性3D 动作以及统一框架中交互式现实世界场景的适用性 。其核心思想是考虑到视频发生的固有 3D 性质,将 2D 视频编码为紧凑的空间代码。具体来说,我们使用单目深度估计器将 2D 帧像素提升为 3D,并根据 3D 深度将视频剪辑分解为分层的三个空间分量(即主要人物、底层场景和浮动遮挡)。这些成分进一步被编码为规范的身份代码、结构化运动代码和全场景代码,用作合成过程的控制信号。这种空间分解策略可以实现灵活的用户控制、空间运动表达以及场景交互的 3D 感知合成。实验结果证明了该方法的有效性和鲁棒性。

核心理念




允许用户提供多个输入(例如,角色的单个图像、运动的姿势序列以及场景的单个视频/图像)以分别提供期望的属性或直接驾驶视频作为输入。该模型可以将目标属性嵌入到潜在空间中构建目标代码,并通过空间感知分解将驾驶视频编码为空间代码,从而通过以特定顺序自由集成潜在代码来实现对合成的直观属性控制。

方法




拟议框架的概述。视频剪辑被分解为基于 3D 深度的分层中的三个空间分量(即,主要人物、底层场景和浮动遮挡)。通过规范外观传输和结构化身体代码,进一步分解人体成分的身份和运动属性,并编码为身份代码 C i d Cid 和运动代码 C m o Cmo 。场景和遮挡组件嵌入了共享 VAE 编码器,并重新组织为完整场景代码 C s o Cso 。这些潜在代码被插入到基于扩散的解码器中作为视频重建的条件。



项目链接

https://menyifang.github.io/projects/MIMO/index.html

扫码







请到「今天看啥」查看全文