专栏名称: 3D视觉之心
3D视觉与SLAM、点云相关内容分享
目录
相关文章推荐
高校人才网V  ·  烟台南山学院2025年诚聘海内外优秀人才 ·  2 天前  
高校人才网V  ·  吉林外国语大学2025年面向海内外招聘高层次 ... ·  2 天前  
高校人才网V  ·  中国证监会诚聘英才,坐标北京,待遇从优 ·  5 天前  
51好读  ›  专栏  ›  3D视觉之心

AV-Flow:从文本到音频-视觉交互的4D动态虚拟人像生成模型

3D视觉之心  · 公众号  ·  · 2025-03-15 10:23

正文

作者 | ADFeed

点击下方 卡片 ,关注“ 3D视觉之心 ”公众号

第一时间获取 3D视觉干货

>> 点击进入→ 3D视觉之心技术交流群

图片

AV-Flow: Transforming Text to Audio-Visual Human-like Interactions

介绍: https://aggelinacha.github.io/AV-Flow/
论文: https://arxiv.org/abs/2502.13133v1

AV-Flow 是一种创新的音频-视觉生成模型,由 Meta AI 联合石溪大学的研究人员开发,它能够仅通过文本输入生成逼真的4D动态虚拟人像。

该模型的特点在于它能够同时生成自然的语音、面部表情、头部动作和唇部同步,从而实现高度逼真的虚拟人像。AV-Flow 的另一特性是它支持双人对话场景,使虚拟人像能够主动倾听并响应用户的音频-视觉输入,这为实现富有同理心的交互提供了可能。

图片

AV-Flow 的核心技术是两个并行的扩散变换器,它们通过中间的高速公路连接进行通信,确保了语音和视觉模态之间的自然同步。模型通过流匹配进行训练,这使得它在推理速度和生成质量上都优于传统的扩散模型。此外,AV-Flow 还能够根据用户的音频和视频输入进行条件生成,这使得它在双人对话场景中能够生成更具交互性和同理心的虚拟人像。

技术解读

AV-Flow 是一种创新的音频-视觉生成技术,旨在通过文本输入直接生成逼真的4D动态虚拟人像,同时实现自然的语音、面部表情、头部动作和唇部同步。该技术的核心在于通过两个并行的扩散变换器实现音频和视觉模态的联合生成,并利用流匹配训练方法实现高效的推理和自然的模态同步,从而为自然的人机交互提供了一种全新的解决方案。

AV-Flow 的处理过程分为以下关键步骤:

  • 输入处理: 模型接收文本输入,并通过一个文本到对数几率(logits)的模块将其转换为适合模型处理的格式。这些对数几率作为输入,驱动音频和视觉生成。
  • 音频和视觉生成: 两个并行的扩散变换器分别负责音频和视觉内容的生成。音频变换器生成梅尔频谱图,随后通过预训练的解码器转换为语音信号;视觉变换器则生成面部表情、头部姿态和唇部动作等动态信息,并通过Codec Avatar解码器渲染为4D虚拟人像。
  • 模态同步: 通过中间的高速公路连接,音频和视觉变换器之间实现了信息交互,确保语音语调与面部表情和动作之间的自然同步。
  • 流匹配训练: 与传统的扩散模型相比,流匹配训练方法通过更简单的路径和直线轨迹实现更快的训练和推理速度,同时生成更自然的结果。
  • 双人对话支持: AV-Flow 还支持双人对话场景,能够根据用户的音频和视频输入生成响应,使虚拟人像能够主动倾听并做出富有同理心的反应。

其技术特点主要包括:

  • 联合生成: 音频和视觉内容同时生成,避免了传统级联方法中可能出现的延迟和误差累积。
  • 高效推理: 流匹配训练方法使得模型在推理速度上显著优于传统扩散模型。
  • 自然交互: 支持双人对话场景,能够根据用户输入生成自然的反应,提升了交互的自然性和同理心。

AV-Flow 提供了一种从文本到音频-视觉内容的高效生成解决方案,其生成的4D动态虚拟人像在自然性和交互性方面表现出色。这一技术在虚拟现实、增强现实、在线教育、虚拟客服等领域具有广泛的应用前景。通过实现自然的语音和面部表情同步,AV-Flow 为更自然的人机交互奠定了基础,有望推动虚拟人像技术在更多场景中的应用和普及。

论文速读

本文介绍了一种名为 AV-Flow 的新型音频-视觉生成模型,能够仅通过文本输入(例如来自大型语言模型的输出)生成逼真的4D动态虚拟人像,并实现自然的语音、面部表情、头部动作和唇部同步。此外,该模型还支持双人对话场景,使虚拟人像能够主动倾听并响应用户的音频-视觉输入,从而实现富有同理心的交互。

研究背景

随着大型语言模型(如ChatGPT)的发展,人机交互越来越多地依赖于自然语言。然而,当前的交互方式大多局限于文本或语音,缺乏人类交流中自然的语音和面部表情。为了弥补这一差距,本文提出了一种能够从文本生成音频和视觉内容的联合生成模型,使虚拟人像能够更自然地与人类用户进行交互。

研究方法

AV-Flow 的核心是两个并行的扩散变换器(Diffusion Transformers),一个用于音频生成,另一个用于视觉生成。两个变换器通过中间的高速公路连接(highway connections)进行通信,从而实现语音和视觉模态之间的同步。例如,语音语调与面部表情(如眉毛动作)之间的自然对应关系。模型通过流匹配(flow matching)进行训练,能够快速推理并生成自然的语音和4D视觉输出。

关键技术细节

  1. 输入表示 :模型使用从音频中提取的字符级对数几率(logits)作为输入,这些对数几率通过预训练的Wav2Vec2模型获得。在推理时,模型可以通过一个文本到对数几率的模块直接从文本生成输入。

  2. 音频生成







请到「今天看啥」查看全文