专栏名称: 映维网Nweon

映维网是一个始于2014年10月的增强现实（AR）、虚拟现实（VR）产业信息数据平台，专注于AR/VR产业发展及市场教育培养，致力于引导全球AR/VR产业发展，服务于全球各地的AR/VR创业者。

腾讯+上交大团队提出音频驱动的多情感3D面部动画生成方法

映维网Nweon · 公众号 · · 2025-01-11 21:56

正文

音频驱动的情感3D面部动画

（ 映维网Nweon 2025年01月09日 ）音频驱动的情感3D面部动画旨在生成具有同步嘴唇运动的情感表达Avatar。然而，之前的研究往往忽视了不同情绪对面部表情的影响。

针对这一不足，上海交通大学和腾讯团队提出了一种新颖的音频驱动方法EmoFace，并旨在用于创建具有生动情感动态的面部动画。

所述方法可以产生多种情绪的面部表情，并且能够产生随机而自然的眨眼和眼球运动，同时保持精确的嘴唇同步。独立的语音编码器和情绪编码器可以学习音频、情绪和相应面部控制器之间的关系，并最终映射到控制器值的序列中。

另外，团队介绍了致力于提高动画真实性的两种后处理技术，特别是在眨眼和眼球运动方面。

团队表示，所提出的方法可用于在虚拟现实环境中驱动Avatar。定量和定性实验，所述方法在驱动3D面部模型方面表现出优异的效果。

上海交通大学和腾讯团队指出，随着虚拟现实技术的不断发展，Avatar的创作需求日益增长。通过创造Avatar，我们可以将自己置身于虚拟世界中，并通过Avatar进行交流。这种方式带来了多个优势，包括更高级别的匿名性和隐私性。

然而，即便是最小的缺陷都会在Avatar中引发恐怖谷效应，从而大大降低接受度。传统而言，Avatar可以通过基于视觉的方法生成。但当用户戴上头显时，面部表情的捕获变得不太可行。

在这种情况下，使用音频输入作为生成Avatar是一种更合适的方法。一般来说，现有的音频驱动面部动画生成研究主要可以归纳为三类：

以往的研究大多集中在基于视频和图像的生成方法方面，很少有研究关注基于模型的生成方法。对于VR而言，使用基于模型的方法更为合适，因为目标角色是以3D模型的形式出现。

这项任务的主要挑战源于语音音频不仅仅包含口语文本的音素，而且包含与面部表情相关的线索。所以，说话人头不仅要与讲话同步，而且要通过表情传达说话人的情绪状态。

尽管业界在音频驱动的面部动画研究方面取得了显著的成功，但在多情绪生成领域的探索相对有限。另外，相当大比例的现有数据集主要基于英语记录，缺乏中文记录的数据集。

汉语和英语在语音方面存在非常大的差异，使用英语数据训练的模型来制作中文音频片段可能会导致面部动画不准确。同时，当前数据集以音频和视频对的形式出现，视频和rig控制器值之间复杂的映射关系驱动3D模型很难学习。

所以，现有的数据集不能直接用于模型训练。为了解决这个问题，团队提出了一个包含七种不同情绪的中文视听数据集。通过后处理，他们提取了视频中每一帧对应的控制器值。

除了构建数据集外，研究人员同时提出了一个针对数据集的基本人脸生成模型。模型可用于多种情绪下的人脸生成。它以音频剪辑和期望的情感作为输入，为每一帧生成相应的控制器值来驱动MetaHuman模型。

然而，考虑到每次记录的持续时间相对较短，数据集包含的眨眼和眼球运动实例很少。所以，学习眨眼、眼睛注视和说话之间的强大相关性变得具有挑战性，这可能会导致生成的说话人头出现不自然的细节。

为了解决这个问题，研究人员引入了独立的眨眼和眼睛注视控制模块。眨眼控制器从其他数据集中获取眨眼频率数据，并学习控制眨眼行为的随机规则。