Hallo3来了,复旦大学发布了Hallo3,利用扩散Transformer网络实现高度动态逼真的数字人头像视频
论文摘要:
现有的肖像动画方法面临着巨大的挑战,特别是在处理非正面视角、渲染肖像周围的动态物体以及生成沉浸式逼真背景方面。
在本文中,我们介绍了预训练的基于 Transformer 的视频生成模型的首次应用,该模型具有强大的泛化能力,并能为肖像动画生成高度动态、逼真的视频,有效地解决了这些挑战。采用新的视频主干模型使得以前基于 U-Net 的身份维护、音频调节和视频外推方法变得不再适用。
为了解决这一限制,我们设计了一个身份参考网络,该网络由因果 3D VAE 与一系列堆叠的 Transformer 层组合而成,可确保视频序列中的面部身份一致。此外,我们研究了各种语音音频调节和运动帧机制,以便生成由语音音频驱动的连续视频。
我们的方法通过基准数据集和新提出的野生数据集上的实验进行了验证,与以前的方法相比,它在生成以动态和沉浸式场景中的不同方向为特征的逼真肖像方面有显著的改进。
项目:fudan-generative-vision.github.io/hallo3
代码:github.com/fudan-generative-vision/hallo3
#ai创造营##ai视频#ChatGPT 黄建同学的微博视频
论文摘要:
现有的肖像动画方法面临着巨大的挑战,特别是在处理非正面视角、渲染肖像周围的动态物体以及生成沉浸式逼真背景方面。
在本文中,我们介绍了预训练的基于 Transformer 的视频生成模型的首次应用,该模型具有强大的泛化能力,并能为肖像动画生成高度动态、逼真的视频,有效地解决了这些挑战。采用新的视频主干模型使得以前基于 U-Net 的身份维护、音频调节和视频外推方法变得不再适用。
为了解决这一限制,我们设计了一个身份参考网络,该网络由因果 3D VAE 与一系列堆叠的 Transformer 层组合而成,可确保视频序列中的面部身份一致。此外,我们研究了各种语音音频调节和运动帧机制,以便生成由语音音频驱动的连续视频。
我们的方法通过基准数据集和新提出的野生数据集上的实验进行了验证,与以前的方法相比,它在生成以动态和沉浸式场景中的不同方向为特征的逼真肖像方面有显著的改进。
项目:fudan-generative-vision.github.io/hallo3
代码:github.com/fudan-generative-vision/hallo3
#ai创造营##ai视频#ChatGPT 黄建同学的微博视频