将三维人脸表征集成到面部表情推理
(
映维网Nweon 2025年02月11日
)能够利用单个图像的面部几何图形重建3D人脸,使得虚拟现实等领域取得了重大进展。然而,纽约州立大学布法罗分校团队认为面部表情推理(FEI)社区并没有充分探索这种用3D特征表示人脸的能力。所以在一项研究中,团队旨在探讨将这种3D表征整合到FEI任务中的影响,特别是对面部表情分类和基于面部的价觉醒(VA)估计的影响。
为了实现这一点,研究人员首先评估了两种3D人脸表示(都基于3D变形模型FLAME)在FEI任务中的性能。他们进一步探索了两种融合架构,中间融合和后期融合,以用于将3D人脸表示与现有的2D推理框架集成在一起。
为了评估所提出的架构,他们提取了相应的3D表示,并在AffectNet和RAF-DB数据集进行了广泛的测试。实验结果表明,所述方法优于最先进的AffectNet VA估计和RAF-DB分类任务。另外,这个解决方案可以作为其他现有方法的补充,以提高一系列情感推理任务的性能。
面部表情在社交中发挥着重要作用,因为它可以洞察一个人对其他个人或事件的感受。在面部表情推理领域有两个主要任务:离散和连续面部表情推理。离散或分类推理旨在将面部表情分配到不同的情绪类别中,如愤怒,悲伤,喜悦/幸福,惊讶,恐惧,厌恶和蔑视等,而连续推理则将面部表情分配到连续的二维数值空间中。
由于数据标注的便捷性,离散分类得到了迅速的发展。然而,标签的高度抽象性使得跨文化共识很难达成。另外,专家们对情感类别的数量存在分歧。
连续的复杂情绪建模进一步量化了情绪并促进了研究,但难以准确注释并存在偏见。为了减轻这种情况,研究人员通常会尝试增加人类观察者的数量以减少偏见。尽管这两种类型的分析都有一定的数据限制,但将它们结合起来可以提供互补的好处。
因此,纽约州立大学布法罗分校团队认为模型的分析应该同时考虑两个角度。
最近,从静态的人本图像中重建三维网格在各种应用中取得了令人印象深刻的成就。特别是,使用面部几何从单眼图像重建3D人脸已证明在准确捕获极端,不对称和微妙的表情方面是有效的。从图像中回归参数作为轻量级的3D表示可以解开面部形状和表情的纠缠,并使用像FLAME这样的可变形模型来轻松生成3D面部几何形状。
所以,将相关技术整合到面部表情推断中是一个自然的发展。然而,关于相关参数的意义和影响以及它们如何增强FEI的研究有限。
在这项研究中,团队探索了两种最新的3D人脸回归模型EMOCA和SMIRK在FEI任务中的性能。数据融合是对来自多个数据源的数据和信息进行处理,以获得更好的决策信息的过程。研究人员解决了二维图像信息与三维视角参数回归的融合问题,并提出了重大的挑战和不确定性。一个主要问题是特征表示的异构性。来自不同模态的特征可能差异很大,需要有效的方法来无缝地集成这些不同的特征。
所以,他们提出了中间融合和后期融合两种架构,以研究不同融合方法对面部表情推理性能的影响。
在中间融合架构中,人脸图像同时由二维人脸分析模型和三维人脸回归模型处理。二维分析模型提取用于识别面部表情的高维特征,三维回归模型回归与面部结构相关的参数。接下来,将2D图像特征和转换后的3D特征连接(或组合)成一个综合特征集。然后将特征集输入到线性融合架构中,以利用2D和3D信息。同时,将融合的特征输入到分类层(CLS)中。CLS层处理相关特征来预测面部表情的各个方面。
在后期融合架构中,输入图像经过二维人脸分析模型处理。模型从图像中提取2D特征,并将2D特征输入到2D分类器中,而2D分类器根据不同数据集的要求输出结果。同时,输入图像经过3D人脸回归模型的处理。模型从图像中提取3D特征,然后将3D特征输入到预训练的分类器中并输出相应结果。这种架构最大限度地保留了它们各自的独立推理能力。在后期融合步骤中,将2D分类器和3D分类器的输出结合起来。在这里,他们使用简单的融合方法,如max, mean和weighted来整合二维和三维分析的信息,以产生更准确和鲁棒的情绪识别结果。