头条和浙大的这个Loopy牛!#ai##科技#
利用长期运动依赖性来训练音频驱动的肖像头像
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency
视频中的所有结果都使用第一帧作为参考图像,并且仅以音频为条件,无需空间条件作为模板。
提出了一种端到端的纯音频条件视频扩散模型,名为Loopy。具体来说,设计了一个剪辑间和剪辑内时间模块以及一个音频到潜在模块,使模型能够利用数据中的长期运动信息来学习自然运动模式并改善音频肖像运动相关性。此方法消除了现有方法中用于在推理过程中约束运动的手动指定空间运动模板的需要,从而在各种场景中提供更逼真和高质量的结果。
Loopy 支持各种视觉和音频风格。它可以仅从音频生成生动的运动细节,例如叹息等非语音动作、情绪驱动的眉毛和眼睛运动以及自然的头部运动。
还可以根据不同的音频输入,对同一参考图像生成运动自适应的合成结果,无论是快速、舒缓,还是逼真的歌唱表演。
项目:loopyavatar.github.io
论文:arxiv.org/pdf/2409.02634
ChatGPT 黄建同学的微博视频
利用长期运动依赖性来训练音频驱动的肖像头像
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency
视频中的所有结果都使用第一帧作为参考图像,并且仅以音频为条件,无需空间条件作为模板。
提出了一种端到端的纯音频条件视频扩散模型,名为Loopy。具体来说,设计了一个剪辑间和剪辑内时间模块以及一个音频到潜在模块,使模型能够利用数据中的长期运动信息来学习自然运动模式并改善音频肖像运动相关性。此方法消除了现有方法中用于在推理过程中约束运动的手动指定空间运动模板的需要,从而在各种场景中提供更逼真和高质量的结果。
Loopy 支持各种视觉和音频风格。它可以仅从音频生成生动的运动细节,例如叹息等非语音动作、情绪驱动的眉毛和眼睛运动以及自然的头部运动。
还可以根据不同的音频输入,对同一参考图像生成运动自适应的合成结果,无论是快速、舒缓,还是逼真的歌唱表演。
项目:loopyavatar.github.io
论文:arxiv.org/pdf/2409.02634
ChatGPT 黄建同学的微博视频