阿里推出的这个MIMO必须了解一下↓#ai##科技# 有点像VI-20240929091503_黄建同学的专栏文章_微信文章

阿里推出的这个MIMO必须了解一下↓#ai##科技# 有点像VI-20240929091503

黄建同学 · 微博 · AI · 2024-09-29 09:15

正文

2024-09-29 09:15
本条微博链接

阿里推出的这个MIMO必须了解一下↓
#ai##科技#

有点像VIGGLE 的增强版，可以通过单个图像创建可控制的角色视频！灵活控制2D 视频编码，生成3D动画视频。

MIMO：Controllable Character Video Synthesis with Spatial Decomposed Modeling（具有空间分解建模的可控角色视频合成）

论文：huggingface.co/papers/2409.16160
项目：menyifang.github.io/projects/MIMO/index.html

摘要：
角色视频合成旨在制作逼真的动画角色视频。作为计算机视觉和图形学界的一个基本问题，3D 作品通常需要多视角捕捉进行每次训练，这严重限制了它们在短时间内对任意角色进行建模的适用性。

最近的 2D 方法通过预训练的扩散模型突破了这一限制，但它们在姿势通用性和场景交互性方面却举步维艰。

为此，我们提出了 MIMO，这是一种新颖的框架，它不仅可以通过简单的用户输入合成具有可控属性（即角色、动作和场景）的角色视频，而且还可以在统一框架中同时实现对任意角色的高级可扩展性、对新颖 3D 运动的通用性以及对交互式现实世界场景的适用性。

核心思想是将 2D 视频编码为紧凑的空间码，同时考虑到视频发生固有的 3D 特性。具体来说，我们使用单目深度估计器将 2D 帧像素提升到 3D，并基于 3D 深度将视频片段分解为三个空间分量（即主人物、底层场景和浮动遮挡）。这些组件进一步编码为规范身份代码、结构化运动代码和完整场景代码，用作合成过程的控制信号。

空间分解建模的设计可实现灵活的用户控制、复杂的运动表达以及 3D 感知的场景交互合成。实验结果证明了所提方法的有效性和鲁棒性。

ChatGPT

黄建同学的微博视频