音频驱动的数字人视频,除了刚发的MEMO(
网页链接
),还有一个比较火🔥的是*头条*新发布的INFP:双人对话中音频驱动的交互式头部生成
鉴于双人对话中的双轨音频和任意角色的单个肖像图像,该框架可以动态合成具有逼真面部表情和有节奏的头部姿势运动的口头、非口头和交互式代理视频。此外,该框架轻量级但功能强大,使其在视频会议等即时通信场景中实用。INFP 表示该方法是交互式的、自然的、Flash和Person-generic 的。 #ai创造营# #chatgpt#
摘要:
想象一下与社交智能代理进行对话。它可以专心聆听您的话语并及时提供视觉和语言反馈。这种无缝交互使多轮对话顺畅自然地进行。
为了实现它,我们提出了 INFP,一种用于双人交互的新型音频驱动头部生成框架。与以前的头部生成工作不同,这些工作只关注单边通信,或需要手动角色分配和明确角色切换,我们的模型驱动代理肖像在输入双人音频的引导下动态地在说话和聆听状态之间交替。
具体而言,INFP 包括基于运动的头部模仿阶段和音频引导的运动生成阶段。
第一阶段学习将现实生活中的对话视频中的面部交流行为投射到低维运动潜在空间中,并使用运动潜在代码为静态图像制作动画。
第二阶段通过去噪学习从输入双人音频到运动潜在代码的映射,从而实现交互场景中的音频驱动头部生成。
为了促进这一研究方向,我们引入了 DyConv,这是一个从互联网收集的大规模丰富双人对话数据集。
大量实验和可视化证明了我们方法的卓越性能和有效性。
项目:grisoon.github.io/INFP/
鉴于双人对话中的双轨音频和任意角色的单个肖像图像,该框架可以动态合成具有逼真面部表情和有节奏的头部姿势运动的口头、非口头和交互式代理视频。此外,该框架轻量级但功能强大,使其在视频会议等即时通信场景中实用。INFP 表示该方法是交互式的、自然的、Flash和Person-generic 的。 #ai创造营# #chatgpt#
摘要:
想象一下与社交智能代理进行对话。它可以专心聆听您的话语并及时提供视觉和语言反馈。这种无缝交互使多轮对话顺畅自然地进行。
为了实现它,我们提出了 INFP,一种用于双人交互的新型音频驱动头部生成框架。与以前的头部生成工作不同,这些工作只关注单边通信,或需要手动角色分配和明确角色切换,我们的模型驱动代理肖像在输入双人音频的引导下动态地在说话和聆听状态之间交替。
具体而言,INFP 包括基于运动的头部模仿阶段和音频引导的运动生成阶段。
第一阶段学习将现实生活中的对话视频中的面部交流行为投射到低维运动潜在空间中,并使用运动潜在代码为静态图像制作动画。
第二阶段通过去噪学习从输入双人音频到运动潜在代码的映射,从而实现交互场景中的音频驱动头部生成。
为了促进这一研究方向,我们引入了 DyConv,这是一个从互联网收集的大规模丰富双人对话数据集。
大量实验和可视化证明了我们方法的卓越性能和有效性。
项目:grisoon.github.io/INFP/