专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  该论文通过对LLM在简历摘要和检索任务中的公 ... ·  5 天前  
爱可可-爱生活  ·  这一跃迁体现在三个层面:1、认知维度的提升— ... ·  6 天前  
爱可可-爱生活  ·  【[40.9k星]大型语言模型(LLM)学习 ... ·  6 天前  
宝玉xp  ·  回复@WilsonK:aistudio这是给 ... ·  6 天前  
爱可可-爱生活  ·  「Gartner发布2025年十大科技趋势」 ... ·  6 天前  
51好读  ›  专栏  ›  黄建同学

头条和浙大的这个Loopy牛!#ai##科技# 利用长期运动依赖-20240906115904

黄建同学  · 微博  · AI  · 2024-09-06 11:59

正文

2024-09-06 11:59

头条和浙大的这个Loopy牛!#ai##科技#

利用长期运动依赖性来训练音频驱动的肖像头像
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

视频中的所有结果都使用第一帧作为参考图像,并且仅以音频为条件,无需空间条件作为模板。

提出了一种端到端的纯音频条件视频扩散模型,名为Loopy。具体来说,设计了一个剪辑间和剪辑内时间模块以及一个音频到潜在模块,使模型能够利用数据中的长期运动信息来学习自然运动模式并改善音频肖像运动相关性。此方法消除了现有方法中用于在推理过程中约束运动的手动指定空间运动模板的需要,从而在各种场景中提供更逼真和高质量的结果。

Loopy 支持各种视觉和音频风格。它可以仅从音频生成生动的运动细节,例如叹息等非语音动作、情绪驱动的眉毛和眼睛运动以及自然的头部运动。

还可以根据不同的音频输入,对同一参考图像生成运动自适应的合成结果,无论是快速、舒缓,还是逼真的歌唱表演。

项目:loopyavatar.github.io
论文:arxiv.org/pdf/2409.02634

ChatGPT 黄建同学的微博视频