专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
军武次位面  ·  5支179元!Dior口红礼盒,显白、显气场 ... ·  2 天前  
解放军报  ·  新春走军营丨暗夜出击锻造胜战铁翼 ·  2 天前  
中国兵器工业集团  ·  北方公司北方国际巴基斯坦拉合尔橙线首列主题列 ... ·  5 天前  
51好读  ›  专栏  ›  我爱计算机视觉

助力高保真跳舞视频合成,华科等推出可控视频生成新框架 UniAnimate

我爱计算机视觉  · 公众号  ·  · 2024-06-04 13:01

正文




关注公众号,发现CV技术之美




本文分享论文 UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation ,助力高保真跳舞视频合成,华科等推出可控视频生成新框架 UniAnimate。

详细信息如下:

  • 论文地址:https://arxiv.org/abs/2406.01188
  • 项目主页:https://unianimate.github.io/

背景介绍

随着人类跳舞视频生成技术的发展,特别是扩散模型的演化,越来越多的研究着眼于如何基于扩散模型生成符合给定参考身份和目标姿态动作序列的高质量逼真视频,并推出了一系列方法如Disco、 MagicAnimate、 Animate Anyone、 Champ等。

虽然取得了令人印象深刻的结果,现有的技术仍存在两个限制:

  • 一是需要额外的参考模型(ReferenceNet)来将参考身份图像与主干视频分支进行表观对齐,而参考模型是主干3D-Unet模型去掉时序模块后的副本网络,大幅增加了优化负担和模型参数;
  • 二是生成的视频时间通常较短(例如24帧),限制了实际应用的可能性。

为了解决这些问题,来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了UniAnimate框架,以实现高效且长时间的人类视频生成。

直接先来看下生成效果:

  1. 基于合成图片进行跳舞视频生成:

  1. 基于真实图片进行跳舞视频生成:

  1. 基于粘土风格图片进行跳舞视频生成:

  1. 马斯克跳舞:

  1. 基于其他跨域图片进行跳舞视频生成:


  1. Yann LeCun跳舞:

获取更多高清视频示例和原始MP4视频请参考论文的项目主页:https://unianimate.github.io/。

方法简介

不同于之前的方法采用ControlNet-like的架构,需要额外的ReferenceNet来编码参考图像表观特征来进行表观对齐。

UniAnimate 框架首先将参考图像、姿势指导和噪声视频映射到特征空间中,然后利用 统一的视频扩散模型(Unified Video Diffusion Model)







请到「今天看啥」查看全文