阿里推出的这个MIMO必须了解一下↓
#ai##科技#
有点像VIGGLE 的增强版,可以通过单个图像创建可控制的角色视频!灵活控制2D 视频编码,生成3D动画视频。
MIMO:Controllable Character Video Synthesis with Spatial Decomposed Modeling(具有空间分解建模的可控角色视频合成)
论文:huggingface.co/papers/2409.16160
项目:menyifang.github.io/projects/MIMO/index.html
摘要:
角色视频合成旨在制作逼真的动画角色视频。作为计算机视觉和图形学界的一个基本问题,3D 作品通常需要多视角捕捉进行每次训练,这严重限制了它们在短时间内对任意角色进行建模的适用性。
最近的 2D 方法通过预训练的扩散模型突破了这一限制,但它们在姿势通用性和场景交互性方面却举步维艰。
为此,我们提出了 MIMO,这是一种新颖的框架,它不仅可以通过简单的用户输入合成具有可控属性(即角色、动作和场景)的角色视频,而且还可以在统一框架中同时实现对任意角色的高级可扩展性、对新颖 3D 运动的通用性以及对交互式现实世界场景的适用性。
核心思想是将 2D 视频编码为紧凑的空间码,同时考虑到视频发生固有的 3D 特性。具体来说,我们使用单目深度估计器将 2D 帧像素提升到 3D,并基于 3D 深度将视频片段分解为三个空间分量(即主人物、底层场景和浮动遮挡)。这些组件进一步编码为规范身份代码、结构化运动代码和完整场景代码,用作合成过程的控制信号。
空间分解建模的设计可实现灵活的用户控制、复杂的运动表达以及 3D 感知的场景交互合成。实验结果证明了所提方法的有效性和鲁棒性。
ChatGPT 黄建同学的微博视频
#ai##科技#
有点像VIGGLE 的增强版,可以通过单个图像创建可控制的角色视频!灵活控制2D 视频编码,生成3D动画视频。
MIMO:Controllable Character Video Synthesis with Spatial Decomposed Modeling(具有空间分解建模的可控角色视频合成)
论文:huggingface.co/papers/2409.16160
项目:menyifang.github.io/projects/MIMO/index.html
摘要:
角色视频合成旨在制作逼真的动画角色视频。作为计算机视觉和图形学界的一个基本问题,3D 作品通常需要多视角捕捉进行每次训练,这严重限制了它们在短时间内对任意角色进行建模的适用性。
最近的 2D 方法通过预训练的扩散模型突破了这一限制,但它们在姿势通用性和场景交互性方面却举步维艰。
为此,我们提出了 MIMO,这是一种新颖的框架,它不仅可以通过简单的用户输入合成具有可控属性(即角色、动作和场景)的角色视频,而且还可以在统一框架中同时实现对任意角色的高级可扩展性、对新颖 3D 运动的通用性以及对交互式现实世界场景的适用性。
核心思想是将 2D 视频编码为紧凑的空间码,同时考虑到视频发生固有的 3D 特性。具体来说,我们使用单目深度估计器将 2D 帧像素提升到 3D,并基于 3D 深度将视频片段分解为三个空间分量(即主人物、底层场景和浮动遮挡)。这些组件进一步编码为规范身份代码、结构化运动代码和完整场景代码,用作合成过程的控制信号。
空间分解建模的设计可实现灵活的用户控制、复杂的运动表达以及 3D 感知的场景交互合成。实验结果证明了所提方法的有效性和鲁棒性。
ChatGPT 黄建同学的微博视频