MEMO:使用记忆引导扩散方法,基于音频生成富有表现力的说话肖像视频 #ai创造营##ai视频#
摘要:
视频扩散模型的最新进展为逼真的音频驱动的有声视频生成开辟了新的潜力。然而,在生成的有声视频中实现无缝的口型同步、保持长期身份一致性以及产生自然、与音频一致的表情仍然是重大挑战。
为了应对这些挑战,我们提出了记忆引导的EMO感知扩散 (MEMO),这是一种端到端的音频驱动肖像动画方法,用于生成身份一致且富有表现力的有声视频。
我们的方法围绕两个关键模块构建:
(1)记忆引导的时间模块,它通过开发记忆状态来存储来自更长过去上下文的信息,以通过线性注意来指导时间建模,从而增强长期身份一致性和运动平滑度;
(2)情绪感知音频模块,它用多模态注意取代传统的交叉注意以增强音频-视频交互,同时通过情绪自适应层规范从音频中检测情绪以细化面部表情。
大量的定量和定性结果表明,MEMO 可以在各种图像和音频类型中生成更逼真的说话视频,在整体质量、音频-嘴唇同步、身份一致性和表情-情感一致方面均优于最先进的方法。
项目:memoavatar.github.io/ 黄建同学的微博视频
摘要:
视频扩散模型的最新进展为逼真的音频驱动的有声视频生成开辟了新的潜力。然而,在生成的有声视频中实现无缝的口型同步、保持长期身份一致性以及产生自然、与音频一致的表情仍然是重大挑战。
为了应对这些挑战,我们提出了记忆引导的EMO感知扩散 (MEMO),这是一种端到端的音频驱动肖像动画方法,用于生成身份一致且富有表现力的有声视频。
我们的方法围绕两个关键模块构建:
(1)记忆引导的时间模块,它通过开发记忆状态来存储来自更长过去上下文的信息,以通过线性注意来指导时间建模,从而增强长期身份一致性和运动平滑度;
(2)情绪感知音频模块,它用多模态注意取代传统的交叉注意以增强音频-视频交互,同时通过情绪自适应层规范从音频中检测情绪以细化面部表情。
大量的定量和定性结果表明,MEMO 可以在各种图像和音频类型中生成更逼真的说话视频,在整体质量、音频-嘴唇同步、身份一致性和表情-情感一致方面均优于最先进的方法。
项目:memoavatar.github.io/ 黄建同学的微博视频