专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
中国电信  ·  这项行动,被央视点赞啦! ·  昨天  
中国电信  ·  突发山体滑坡!紧急驰援! ·  2 天前  
界面新闻  ·  工信部:三家电信运营商已全面接入DeepSe ... ·  3 天前  
51好读  ›  专栏  ›  我爱计算机视觉

NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型TopoFR

我爱计算机视觉  · 公众号  ·  · 2024-10-25 12:38

正文




关注公众号,发现CV技术之美




本篇论文已被NeurIPS 2024接收,论文第一作者但俊来自浙江大学&FaceChain社区,共一作者刘洋来自伦敦国王学院&FaceChain社区,通讯作者孙佰贵来自阿里巴巴&FaceChain社区,还有合作作者包括帝国理工学院邓健康,FaceChain社区谢昊宇、李思远,伦敦国王学院罗山。


一、前言

在数字人领域,形象的生成需要依赖于基础的表征学习。FaceChain 团队除了在数字人生成领域持续贡献之外,在基础的人脸表征学习领域也一直在进行深入研究。采用了新一代的 Transformer 人脸表征模型 TransFace 后,FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作,FaceChain-FACT。继 TransFace 之后,FaceChain 团队最近被机器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作, "TopoFR: A Closer Look at Topology Alignment on Face Recognition",让我们一睹为快。

  • 论文链接:https://arxiv.org/pdf/2410.10587
  • 开源代码:https://github.com/modelscope/facechain/tree/main/face_module/TopoFR

二、背景
1. 人脸识别
卷积神经网络在自动提取人脸特征并用于人脸识别任务上已经取得了巨大的成功。训练基于卷积神经网络的人脸识别模型的损失函数主要分为以下两种类型:(1)基于 Metric 的损失函数,例如 Triplet loss, Tuplet loss 以及 Center loss。(2) 基于 Margin 的损失函数,例如 ArcFace, CosFace, CurricularFace 与 AdaFace。
相比于基于 Metric 的损失函数, 基于 Margin 的损失函数能够鼓励模型执行更加高效的样本到类别的比较,因此能够促进人脸识别模型取得更好的识别精度。其中,ArcFace 成为业界训练人脸识别模型首选的损失函数。
2. 持续同调
下面介绍一下持续同调与我们方法相关的一些知识。
持续同调是一种计算拓扑学方法,它致力于捕捉 Vietoris-Rips 复形随着尺度参数 变化而进化的过程中所呈现的拓扑不变性特征,其主要用于分析复杂点云的潜在拓扑结构。近年来,持续同调技术在信号处理、视频分析、神经科学、疾病诊断以及表征学习策略评估等领域表现出了极大的优势。在机器学习领域,一些研究已经证明了在神经网络训练过程中融入样本的拓扑特征可以有效地提高模型的性能。
符号: 表示一个点云, 表示一个在 空间中的距离度量。矩阵 表示点云 中各点之间的成对距离矩阵。
Vietoris-Rips 复形:Vietoris-Rips 复形是从度量空间中一组点构建的特殊单纯复形,可用于近似表示底层空间的拓扑结构。对于 ,我们表示点云 在尺度 处所对应的 Vietoris-Rips 复形为 ,其包含了点云 中所有的单纯形(即子集),并且点云 中的每个成分满足一个距离约束:
此外 Vietoris-Rips 复形还满足一个嵌套关系: 。基于这个关系,我们能够随着尺度系数 的增加而追踪单纯复形的进化过程。值得注意的是 是等价的,因为构建 Vietoris-Rips 复形只需要距离信息。
同调群:同调群是一种代数结构,用于分析不同维度 下单纯复形的拓扑特征,例如连通分量 ( )、环 ( )、空洞 ( ) 和更高维特征 ( )。通过跟踪 Vietoris-Rips 复形的拓扑特征 随着尺度 增加而呈现的相应变化,可以深入了解底层空间的多尺度拓扑信息。
持续图 和持续配对:持续图 是笛卡尔平面 中点 的多重集合,其编码了关于拓扑特征寿命的信息。具体来说,它总结了每个拓扑特征的诞生时间b和消失时间d ,其中诞生时间b表示特征被创建的尺度,而消失时间d指的是特征被销毁的尺度。持续配对 包含与持久图 中标识的拓扑特征的诞生和消失相对应的单纯形 的索引

三、方法
1. 本文动机
现存的人脸识别工作主要关注于设计更高效的基于 Margin 的损失函数或者更复杂的网络架构,以此来帮助卷积神经网络更好地捕捉细腻度的人脸特征。
近年来,无监督学习和图神经网络的成功已经表明了数据结构在提升模型泛化能力中的重要性。大规模人脸识别数据集中天然地蕴含着丰富的数据结构信息,然而,在人脸识别任务中,目前还没有研究探索过如何挖掘并利用大规模数据集中所蕴含的结构信息来提升人脸识别模型在真实场景中的泛化性能。因此本文致力于将大规模人脸数据集中内在的结构信息注入进隐层空间中,以此来显著提升人脸识别模型在真实场景中的泛化性能。
我们使用持续同调技术调研了现存的基于卷积神经网络的人脸识别模型框架数据结构信息的变化趋势,如图 1 与图 2 所示,并得到了以下三个新颖观测结论:
(i)随着数据量的增大,输入空间的拓扑结构变得越来越复杂
(ii)随着数据量的增大,输入空间与隐层空间的拓扑结构差异越来越大
(iii)随着网络深度的增加,输入空间与隐层空间的拓扑结构差异越来越小,这也揭示了为什么越深的神经网络能够达到越高的人脸识别精度。
图 1:我们分别从 MS1MV2 数据集中抽样了 1000(a)、5000(b)、10000(c)和 100000(d)张人脸图像,并使用持续同调技术计算它们的持续图,其中 表示第j维同调。持续图是用来描述空间拓扑结构的数学工具,其中持久图中的第j维同调 代表空间中的第j维空洞。在拓扑理论中,如果空间中高维空洞的数量越多,那么底层空间的拓扑结构就更越复杂。如图 1 (a)-1 (d) 所示,随着人脸数据量的增加,输入空间的持久图中包含的高维空洞(如 )也越来越多。因此,这一实验现象清晰地表明了输入空间的拓扑结构也变得越来越复杂。
图 2: (a) 我们首先使用基于 ResNet-50 架构的 ArcFace 模型对 MS1MV2 训练集执行推断,以此来探究数据量与拓扑结构差异之间的关系。在推断时,batch-size 被分别设置为 256、1024 和 2048,并分别进行了 1000 次迭代。我们使用直方图来近似这些拓扑结构差异分布。
(b) 其次,我们使用具有不同 ResNet 架构的 ArcFace 模型在 MS1MV2 训练集上进行推断(batch-size=128)以此来研究网络深度与拓扑结构差异之间的关系。
(c) 此外,我们研究了训练过程中拓扑结构差异的变化趋势(批量大小 = 128),发现 i) 直接使用 PH 对齐拓扑结构会导致差异急剧减少至 0,这意味着隐层空间的拓扑结构遭遇了结构崩塌现象;ii) 而我们的 PTSA 策略促进了结构差异的平稳收敛,有效地将输入空间的结构信息注入进隐层空间。
(d) 直接使用 PH 对齐拓扑结构会导致模型在 IJB-C 测试集中出现显著差异。我们的 PTSA 策略有效缓解了这种过拟合问题,在 IJB-C 数据集上评估过程中展现出更小的拓扑结构差异。
基于以上的观测结论,我们可以推断出,在大规模识别数据集上训练人脸识别模型时,人脸数据的结构信息将被严重破坏,这无疑限制了人脸识别模型在真实应用场景中的泛化能力。
因此,本文研究的问题是,在人脸识别模型训练过程中,如何在隐层空间有效地保留输入空间的数据所蕴含的结构信息,以此提升人脸识别模型在真实场景中的泛化性能。
2. 具体策略
2.1 模型的整体架构
针对上述问题,本文从计算拓扑学角度出发,提出了基于拓扑结构对齐的人脸识别新框架 TopoFR,如下图 3 所示。
图 3:所提出的 TopoFR 模型整体架构示意图。 表示乘法操作。 表示对每个训练样本应用 RSP 的概率。
2.2 扰动引导的拓扑结构对齐策略 PTSA
我们发现,直接采用持续同调技术对齐人脸识别模型输入空间和隐层空间的拓扑结构,难以在隐层空间上本质保留输入空间的结构信息,进而容易导致模型的隐层空间遭遇结构崩塌现象。为了解决这个问题,我们提出了扰动引导的拓扑结构对齐策略 PTSA,其包含了两个机制:随机结构扰动 RSP 和 不变性结构对齐 ISA。
随机结构扰动 RSP
RSP 引入了一个多样性数据增强集合 ,其中包含了四个常见的数据增强运算:随机擦除 ,高斯模糊 ,灰度化 以及颜色增强 。对于每一个训练样本 ,RSP 会随机挑选一个数据增强 运算来对其进行扰动:
其次,扰动后的样本 将正式送入网络进行有监督训练,这极大地增加隐层特征空间的拓扑结构多样性。我们采用 ArcFace Loss 作为基础分类损失函数:
不变性结构对齐 ISA
在网络训练过程中,我们分别构建出原始输入空间 与扰动特征空间 的 Vietoris-Rips 复形 。并利用持续同调技术求解出其对应的持续图 和持续配对 。理想地,不管输入的人脸图像怎样被干扰,其编码在隐层空间中的位置应该保持不变。因此,我们提出对齐原始输入空间和扰动特征空间的拓扑结构,不变性结构对齐机制所对应的损失函数如下所示:
2.3 结构破坏性估计 SDE
在实际的人脸识别场景中,训练集通过会包含一些低质量的人脸图像,这也被称为困难样本。这些困难样本在隐层空间中很容易被编码到靠近决策边界附近的异常位置,严重破坏了隐层空间的拓扑结构,并会影响输入空间和隐层空间拓扑结构的对齐。
为了解决这个问题,我们提出了结构破坏性估计策略 SDE 来精准地识别出这些困难样本,并鼓励模型在训练阶段重点学习这些样本,逐渐引导起回归到合理的空间位置上。
预测不确定性
困难样本通常分布在决策边界附近,因此也有着较大的预测不确定性 (即分类器处的预测分布熵较大) ,这也是其容易被错误分类的原因。为精准地筛选出这些困难样本,我们提出利用高斯 - 均匀混合分布概率模型来建模这些样本的预测不确定性,其利用分类器处的预测熵作为概率分布的变量:
其中, 均匀分布 建模了困难样本,而高斯分布 建模了简单样本。因此,某个样本属于困难样本(即由于较大的预测不确定性)的后验概率可以被计算为:
当分类器的预测分布十分接近于均匀分布时,那么样本属于困难样本的概率将十分接近于 1。
结构破坏性分数 SDS
相比于正确分类样本,错误分类样本有着更大的困难性,并且对隐层空间的拓扑结构损害更大。受 Focal Loss 设计思想的启发,我们在衡量样本对空间结构破坏性大小时综合考虑了预测不确定性与预测精度,并设计出概率感知的打分机 来自适应地为每个样本计算结构破坏性分数 SDS:






请到「今天看啥」查看全文