专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

NeurIPS 2024 | FaceChain团队新作，开源拓扑对齐人脸表征模型TopoFR

我爱计算机视觉 · 公众号 · · 2024-10-25 12:38

正文

关注公众号，发现CV技术之美

本篇论文已被NeurIPS 2024接收，论文第一作者但俊来自浙江大学&FaceChain社区，共一作者刘洋来自伦敦国王学院&FaceChain社区，通讯作者孙佰贵来自阿里巴巴&FaceChain社区，还有合作作者包括帝国理工学院邓健康，FaceChain社区谢昊宇、李思远，伦敦国王学院罗山。

一、前言

在数字人领域，形象的生成需要依赖于基础的表征学习。FaceChain 团队除了在数字人生成领域持续贡献之外，在基础的人脸表征学习领域也一直在进行深入研究。采用了新一代的 Transformer 人脸表征模型 TransFace 后，FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作，FaceChain-FACT。继 TransFace 之后，FaceChain 团队最近被机器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作， "TopoFR: A Closer Look at Topology Alignment on Face Recognition"，让我们一睹为快。

论文链接：https://arxiv.org/pdf/2410.10587
开源代码：https://github.com/modelscope/facechain/tree/main/face_module/TopoFR

二、背景

1. 人脸识别

卷积神经网络在自动提取人脸特征并用于人脸识别任务上已经取得了巨大的成功。训练基于卷积神经网络的人脸识别模型的损失函数主要分为以下两种类型：（1）基于 Metric 的损失函数，例如 Triplet loss, Tuplet loss 以及 Center loss。(2) 基于 Margin 的损失函数，例如 ArcFace, CosFace, CurricularFace 与 AdaFace。

相比于基于 Metric 的损失函数，基于 Margin 的损失函数能够鼓励模型执行更加高效的样本到类别的比较，因此能够促进人脸识别模型取得更好的识别精度。其中，ArcFace 成为业界训练人脸识别模型首选的损失函数。

2. 持续同调

下面介绍一下持续同调与我们方法相关的一些知识。

持续同调是一种计算拓扑学方法，它致力于捕捉 Vietoris-Rips 复形随着尺度参数

变化而进化的过程中所呈现的拓扑不变性特征，其主要用于分析复杂点云的潜在拓扑结构。近年来，持续同调技术在信号处理、视频分析、神经科学、疾病诊断以及表征学习策略评估等领域表现出了极大的优势。在机器学习领域，一些研究已经证明了在神经网络训练过程中融入样本的拓扑特征可以有效地提高模型的性能。

符号：

表示一个点云，

表示一个在

空间中的距离度量。矩阵

表示点云

中各点之间的成对距离矩阵。

Vietoris-Rips 复形：Vietoris-Rips 复形是从度量空间中一组点构建的特殊单纯复形，可用于近似表示底层空间的拓扑结构。对于

，我们表示点云

在尺度

处所对应的 Vietoris-Rips 复形为

，其包含了点云

中所有的单纯形（即子集），并且点云

中的每个成分满足一个距离约束：

，

。

此外 Vietoris-Rips 复形还满足一个嵌套关系：

。基于这个关系，我们能够随着尺度系数

的增加而追踪单纯复形的进化过程。值得注意的是

和

是等价的，因为构建 Vietoris-Rips 复形只需要距离信息。

同调群：同调群是一种代数结构，用于分析不同维度

下单纯复形的拓扑特征，例如连通分量 (

)、环 (

)、空洞 (

) 和更高维特征 (

)。通过跟踪 Vietoris-Rips 复形的拓扑特征

随着尺度

增加而呈现的相应变化，可以深入了解底层空间的多尺度拓扑信息。

持续图和持续配对：持续图

是笛卡尔平面

中点

的多重集合，其编码了关于拓扑特征寿命的信息。具体来说，它总结了每个拓扑特征的诞生时间b和消失时间d ，其中诞生时间b表示特征被创建的尺度，而消失时间d指的是特征被销毁的尺度。持续配对

包含与持久图

中标识的拓扑特征的诞生和消失相对应的单纯形

的索引

。

三、方法

1. 本文动机

现存的人脸识别工作主要关注于设计更高效的基于 Margin 的损失函数或者更复杂的网络架构，以此来帮助卷积神经网络更好地捕捉细腻度的人脸特征。

近年来，无监督学习和图神经网络的成功已经表明了数据结构在提升模型泛化能力中的重要性。大规模人脸识别数据集中天然地蕴含着丰富的数据结构信息，然而，在人脸识别任务中，目前还没有研究探索过如何挖掘并利用大规模数据集中所蕴含的结构信息来提升人脸识别模型在真实场景中的泛化性能。因此本文致力于将大规模人脸数据集中内在的结构信息注入进隐层空间中，以此来显著提升人脸识别模型在真实场景中的泛化性能。

我们使用持续同调技术调研了现存的基于卷积神经网络的人脸识别模型框架数据结构信息的变化趋势，如图 1 与图 2 所示，并得到了以下三个新颖观测结论：

（i）随着数据量的增大，输入空间的拓扑结构变得越来越复杂

（ii）随着数据量的增大，输入空间与隐层空间的拓扑结构差异越来越大

（iii）随着网络深度的增加，输入空间与隐层空间的拓扑结构差异越来越小，这也揭示了为什么越深的神经网络能够达到越高的人脸识别精度。

图 1：我们分别从 MS1MV2 数据集中抽样了 1000（a）、5000（b）、10000（c）和 100000（d）张人脸图像，并使用持续同调技术计算它们的持续图，其中 表示第j维同调。持续图是用来描述空间拓扑结构的数学工具，其中持久图中的第j维同调代表空间中的第j维空洞。在拓扑理论中，如果空间中高维空洞的数量越多，那么底层空间的拓扑结构就更越复杂。如图 1 (a)-1 (d) 所示，随着人脸数据量的增加，输入空间的持久图中包含的高维空洞（如和）也越来越多。因此，这一实验现象清晰地表明了输入空间的拓扑结构也变得越来越复杂。

图 2：（a) 我们首先使用基于 ResNet-50 架构的 ArcFace 模型对 MS1MV2 训练集执行推断，以此来探究数据量与拓扑结构差异之间的关系。在推断时，batch-size 被分别设置为 256、1024 和 2048，并分别进行了 1000 次迭代。我们使用直方图来近似这些拓扑结构差异分布。

（b) 其次，我们使用具有不同 ResNet 架构的 ArcFace 模型在 MS1MV2 训练集上进行推断（batch-size=128）以此来研究网络深度与拓扑结构差异之间的关系。

（c) 此外，我们研究了训练过程中拓扑结构差异的变化趋势（批量大小 = 128），发现 i) 直接使用 PH 对齐拓扑结构会导致差异急剧减少至 0，这意味着隐层空间的拓扑结构遭遇了结构崩塌现象；ii) 而我们的 PTSA 策略促进了结构差异的平稳收敛，有效地将输入空间的结构信息注入进隐层空间。

（d) 直接使用 PH 对齐拓扑结构会导致模型在 IJB-C 测试集中出现显著差异。我们的 PTSA 策略有效缓解了这种过拟合问题，在 IJB-C 数据集上评估过程中展现出更小的拓扑结构差异。

基于以上的观测结论，我们可以推断出，在大规模识别数据集上训练人脸识别模型时，人脸数据的结构信息将被严重破坏，这无疑限制了人脸识别模型在真实应用场景中的泛化能力。

因此，本文研究的问题是，在人脸识别模型训练过程中，如何在隐层空间有效地保留输入空间的数据所蕴含的结构信息，以此提升人脸识别模型在真实场景中的泛化性能。

2. 具体策略

2.1 模型的整体架构

针对上述问题，本文从计算拓扑学角度出发，提出了基于拓扑结构对齐的人脸识别新框架 TopoFR，如下图 3 所示。