专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  【CUDA课程:为高性能计算(HPC)工作降 ... ·  23 小时前  
机器学习研究组订阅  ·  苹果反水:OpenAI的1500亿「史上最大 ... ·  昨天  
爱可可-爱生活  ·  【Mini-LLaVA:一款轻量级的多模态大 ... ·  4 天前  
爱可可-爱生活  ·  提出LLaMA-Omni模型架构,使用语音编 ... ·  1 周前  
51好读  ›  专栏  ›  黄建同学

阿里推出的这个MIMO必须了解一下↓#ai##科技# 有点像VI-20240929091503

黄建同学  · 微博  · AI  · 2024-09-29 09:15

正文

2024-09-29 09:15

阿里推出的这个MIMO必须了解一下↓
#ai##科技#

有点像VIGGLE 的增强版,可以通过单个图像创建可控制的角色视频!灵活控制2D 视频编码,生成3D动画视频。

MIMO:Controllable Character Video Synthesis with Spatial Decomposed Modeling(具有空间分解建模的可控角色视频合成)

论文:huggingface.co/papers/2409.16160
项目:menyifang.github.io/projects/MIMO/index.html

摘要:
角色视频合成旨在制作逼真的动画角色视频。作为计算机视觉和图形学界的一个基本问题,3D 作品通常需要多视角捕捉进行每次训练,这严重限制了它们在短时间内对任意角色进行建模的适用性。

最近的 2D 方法通过预训练的扩散模型突破了这一限制,但它们在姿势通用性和场景交互性方面却举步维艰。

为此,我们提出了 MIMO,这是一种新颖的框架,它不仅可以通过简单的用户输入合成具有可控属性(即角色、动作和场景)的角色视频,而且还可以在统一框架中同时实现对任意角色的高级可扩展性、对新颖 3D 运动的通用性以及对交互式现实世界场景的适用性。

核心思想是将 2D 视频编码为紧凑的空间码,同时考虑到视频发生固有的 3D 特性。具体来说,我们使用单目深度估计器将 2D 帧像素提升到 3D,并基于 3D 深度将视频片段分解为三个空间分量(即主人物、底层场景和浮动遮挡)。这些组件进一步编码为规范身份代码、结构化运动代码和完整场景代码,用作合成过程的控制信号。

空间分解建模的设计可实现灵活的用户控制、复杂的运动表达以及 3D 感知的场景交互合成。实验结果证明了所提方法的有效性和鲁棒性。

ChatGPT 黄建同学的微博视频