专栏名称: 小白学视觉

本公众号主要介绍机器视觉基础知识和新闻，以及在学习机器视觉时遇到的各种纠结和坑的心路历程。

TPAMI 2024 | 通过增强对比学习实现完全无监督的深度伪造视频检测

小白学视觉 · 公众号 · · 2024-07-22 13:08

正文

点击上方“ 计算机书童 ”，选择加" 星标 "或“ 置顶 ”

顶刊论文解读，第一时间分享

题目：Fully Unsupervised Deepfake Video Detection Via Enhanced Contrastive Learning

通过增强对比学习实现完全无监督的深度伪造视频检测

作者：Tong Qiao; Shichuang Xie; Yanli Chen; Florent Retraint; Xiangyang Luo

源码链接：https://github.com/bestalllen/Unsupervised_DF_Detection/

摘要

如今，网络上广泛流传着大量的深伪视频，严重损害了公众的可信度和社会安全。尽管最近涌现出越来越多的可靠检测器来抵抗这种新兴的篡改技术，但仍有一些具有挑战性的问题需要解决，以至于大多数监督机制框架下的深伪视频检测器需要大量具有准确标签的样本进行训练。当具有真实标签的训练样本量不足或训练数据被对手恶意毒化时，监督分类器可能不能可靠地进行检测。为了解决这个棘手的问题，有人提议设计一个完全无监督的深伪检测器。特别是，在整个训练或测试过程中，我们不知道任何关于样本真实标签的信息。首先，我们新颖地设计了一个伪标签生成器来标记训练样本，其中使用传统的手工特征来表征这两种类型的样本。其次，将带有伪标签的训练样本输入到改进的对比学习器中，在对比损失的指导下，进一步提取鉴别特征，并通过迭代不断精化。最后，根据视频的帧间相关性，完成了真假视频的最终二值分类。大量的实验结果验证了我们提出的无监督深伪检测器在包括FF++、Celeb-DF、DFD、DFDC和UADFV的基准数据集上的有效性。此外，我们提出的性能良好的检测器优于当前的无监督方法，并且与基线监督方法相当。更重要的是，当标签数据被恶意对手毒化或训练数据不足时，本文提出的无监督深伪检测器具有很强的优越性。

关键词

对比学习，数据扩充，深伪检测，伪标签。

Ⅰ 引言

随着深度学习技术的飞速发展，在人工智能和计算机视觉领域取得了前所未有的成功。然而，随之而来的是，越来越多的新型多媒体伪造范式不断涌现，这些伪造技术在社交网络平台上的滥用导致了严重的政治威胁和社会问题。无疑，Deepfake，通常被定义为由深度学习技术合成的伪造多媒体，最近已经成为最流行的视频伪造方式之一[1]。通过收集一些源面部图像和目标人物的视频片段，深度学习技术可以轻松完成伪造面部合成的任务。

在过去，传统的手工制作操纵技术，如重采样[2]、拼接[3]、复制移动[4]等，通常需要专业的篡改工具，同时恶意攻击者可能具有一些反取证背景，经常进行后处理操作，以完美隐藏篡改痕迹。然而，目前，各种主要针对面部伪造的篡改算法已经被设计出来，如“Deepfake”(DF)[5]、“FaceSwap”(FS)[5]、“Face2Face”(F2F)[6]和“NeuralTextures”(NT)[7]（见图1示例）。此外，一些新的现代伪造工具安装在智能手机上，如FaceApp[8]和ZAO[9]，大大简化了面部篡改的程序。基本上，与以前的伪造方式不同，新的自动端到端伪造方法确实在逼真度和效率方面逐渐取代了其前身。

为了应对这一挑战，许多可靠的Deepfake检测器已经被设计出来。具体来说，许多检测器专注于合成面部图像的痕迹，其中手工制作特征提取的建立受到传统图像取证的启发，如主成分分析（PCA）[10]、局部二值模式（LBP）[11]、图像质量[12]或纹理痕迹[13]。同时，生物特征也有助于区分真实和Deepfake视频，如眨眼频率[14]、头部姿势[15]、心率比[16]。最近，大多数研究者更加关注深度神经网络（DNN）。各种特征提取网络和表示学习方法的设计确实为检测精度的显著提高带来了贡献[17]、[18]、[19]、[20]、[21]、[22]、[23]。然而，大多数当前的检测器都是在有监督机制的框架下建立的，这需要大量具有准确标签的样本进行训练。当具有准确标签的训练样本数量不足或训练样本被恶意对手错误标记时，有监督分类器可能就无法可靠地进行Deepfake检测。此外，大多数训练有素的高效检测器可能缺乏泛化能力，导致在处理未知的Deepfake视频时性能下降[24]。

为了解决上述问题，据我们所知，[25]的作者首先提出了建立Deepfake检测的无监督框架，这确实为这一研究领域开辟了新的途径。特别是，受到源相机识别研究[26]的启发，[25]的核心思想是真实视频中的面部区域是由数字成像设备如数码相机或智能手机捕获的，而Deepfake视频中的合成面部区域则来自计算机软件；两种视频的不同来源通过不同的噪声模式得到了完美的表征。此外，依赖于两种非常有效的噪声模式，即光响应非均匀性（PRNU）[27]和噪声指纹[28]，依次有效地进行了两轮聚类，包括第一轮多类分类和第二轮二元分类。然而，检测精度和泛化性能需要进一步提高。此外，另一篇文献[29]也尝试研究了Deepfake视频无监督检测的可能性。依靠对比学习框架，上游训练的特征提取器实际上是无监督的，而下游的分类器仍然需要用已知的真实标记数据进行训练。因此，在不了解任何关于训练样本的先验信息的情况下，[29]提出的方法很难实现完全无监督的检测。

然而，两项开创性研究[25]、[29]确实激励我们在这一背景下继续解决最具挑战性的场景之一，即完全无监督检测。值得注意的是，我们设计了一个完全无监督的Deepfake检测器；在特征提取或分类的整个过程中，人们没有任何关于样本真实正确标签的信息。为了清晰和简洁，在本文中，我们提出的无监督检测机制的主要贡献包括：

提出了一种新的无监督Deepfake检测方法；无论是在训练还是测试过程中，特征提取器和二元分类器都无法获取数据的真实标签。
设计了一个伪标签生成器，采用传统的手工制作特征来表征两种类型的样本，以便为两个原始聚类分配伪标签（0或1）。来自同一聚类的样本应被分配相同的伪标签，无论真实或伪造。
提出了设计增强对比学习器，其中伪标签数据的区分特征通过迭代不断细化，对比损失的指导下。此外，还提出了精心设计的数据增强方案，进一步提高了区分特征提取的性能。
广泛的实验结果实证验证了我们提出的无监督方法在基准数据集上的有效性和优越性。一方面，与之前的无监督检测器相比，我们的方法显示出更高的检测精度；另一方面，与基线监督检测器相比，我们的无监督检测器与它们不相上下。更重要的是，面对恶意对手污染标记数据或训练数据不足的问题时，我们的无监督检测器展现了其强大的优势。

本文的其余部分组织如下。首先，第二节回顾了先前的方法，第三节主要描述了我们提出的无监督检测Deepfake的通用框架。接下来，第四节主要阐述了建立伪标签生成器的具体程序。接下来，在第五节中提出了建立增强对比学习器，以及精心设计的数据增强方案。然后在第六节设计了二元分类器。第七节展示了广泛的实验结果并进行了分析。最后，让我们在第八节中得出结论。

Ⅲ 预备知识

在本节中，我们打算概述所提出的检测器的总体方案。总体而言，我们主要提出增强对比学习来解决无监督Deepfake视频检测的问题。为简单明了起见，如图2所示，总体方案通常包括三个主要阶段。

在第一阶段，即上游任务，我们打算建立一个伪标签生成器，负责标记询问的原始样本，无论其类型如何。特别是，通过采用简单但有效的特征提取器，直接使用传统的手工制作特征进行粗略聚类。最后，依靠原始聚类的预测分类，伪标签生成器为询问的原始样本分配二进制标签，每个聚类具有相同的标签。应该指出，在整个过程，我们不知道询问原始样本的真实标签。因此，我们定义伪标签生成器的标签为“伪标签”。
在第二阶段，即下游任务，我们利用带有伪标签的数据来训练增强对比学习器，这可以帮助我们将第一阶段的原始特征转换为这一阶段的区分特征。应该指出，在增强对比学习期间，让我们最大化具有相同伪标签的样本之间的相似度，同时最小化具有不同伪标签的样本之间的相似度。同时，为了进一步完善伪标签，我们倾向于保留更接近中心的置信样本，这些样本更可能用于每一轮迭代。最后，通过各种数据增强方式，所提出的增强对比学习器在伪标签信息的指导下，有效地接受对比损失的训练。
在第三阶段，即二元分类和认证，我们打算完成测试任务，区分真实和伪造视频；在第二阶段训练的增强对比学习器的编码器网络作为特征提取器，以提取所有询问数据的区分特征。接下来，不失一般性，使用Kmeans算法对提取的表示进行二元聚类，准确分配预测标签。在每个聚类内，我们打算计算每个视频样本的帧间相关性，其中具有较小平均相关性的聚类作为真实视频，较大的聚类作为Deepfake视频。

应该指出，在第一阶段到第三阶段的训练之前，真实和伪造样本都没有手动标记。同时，在Deepfake视频检测的整个过程中，我们无法获取任何关于询问数据的信息。幸运的是，在所提出的检测架构的框架下，主要依靠所提出的增强对比学习算法结合精心设计的伪标签生成器，可以成功完成无监督Deepfake检测任务。在接下来的章节中，我们将具体阐述所提出的无监督Deepfake检测器。

Ⅳ 伪标签生成器的建立

在下游任务中，我们提出的增强对比学习实际上需要真实和虚假样本，尽管在训练阶段我们完全不知道真实标签。因此，我们打算为训练数据分配伪标签。然而，我们不能随机分配标签，这对学习过程没有帮助。我们的假设是，基于足够多基本正确的样本进行学习过程是成功的。换句话说，需要将伪标签分配给具有一定聚类纯度的样本。为此，我们打算对训练样本进行初步聚类，然后将两个原始聚类分配给伪标签。此外，分配的伪标签仅用于区分两种类型的聚类，由于在我们的无监督框架中我们对数据没有任何先验信息，我们无法识别哪个聚类是真实的或虚假的。

A. 原始聚类

在本节中，我们的任务是以一定程度的纯度对两种数据进行初步聚类。事实上，在无监督聚类中，使用度量纯度来评估聚类性能。由于后续增强对比学习的要求，我们必须保证原始聚类的纯度。为此，我们打算提取可以有效地表征两种查询视频之间差异的代表性特征。直接地说，我们最初采用了深度聚类的策略，它最初是为通过预训练的DNN模型主要通过多次聚类各种类型的图像而设计的。深度聚类的核心思想是将原始高维数据映射到低维特征空间。然后通过组合损失函数对预训练的表示进行微调，使它们在迭代过程中更具区分性。

然而，在我们对真实和虚假视频的二元聚类任务中，这种策略是不可行的。一方面，预训练模型不适用于我们特定的无监督任务；另一方面，两种类型的视频在视觉上非常相似，很难区分。否则，接下来的迭代和优化将无效。在这种情况下，我们需要提取用于聚类的区分特征，这些特征可能隐藏在浅层而不是深层。基本上，无论真实或虚假视频，来自两种视频的面部属性几乎一致，属于同一类别，导致类似的高级特征。为了解决Deepfake检测问题，让我们提取在语义级别上的特征，而不是像传统图像分类任务那样在理解级别上。为此，我们求助于传统的手工制作特征提取。与先进的深度聚类相比，手工制作特征可能适合我们提出的原始聚类。如图3所示，手工制作特征具有更高的纯度，意味着更好的伪标签分配；相反，DNN特征具有较低的纯度表现更差。

毫不损失一般性地说，许多手工制作的特征已经被提出来处理真实和Deepfake视频之间的区别，特别是在Deepfake检测的早期时代。事实上，在当前的研究中，手工制作的特征逐渐被DNN模型的端到端提取特征所取代，这可以在有监督机制中显著提高检测率。然而，在我们提出的无监督框架中，手工制作的特征，如视觉伪影特征（VAF）[45]，足以完成原始聚类任务。这里，应该注意，在原始聚类中，简单但有效的特征提取，可以满足伪标签分配的要求，是我们的选择。接下来，我们打算采用经典的Kmeans算法进行二元聚类。

具体来说，在这个阶段，我们主要利用眼睛和嘴巴区域来表征由Deepfake引起的差异，如图4和图5所示。可以观察到，虚假样本的VAF与真实样本的视觉差异。我们打算采用[45]中的算法分别从眼睛和嘴巴区域提取视觉伪影特征。首先，依靠面部标志，有效地裁剪面部区域。应该注意的是，所有面部区域都被重新调整到相同的大小，并且根据相应的标志成功地分割了眼睛和嘴巴区域。值得注意的是，被分割的区域，即眼睛和嘴巴，通过纹理能量方法用于特征提取。具体来说，视觉伪影特征是通过16个固定的5×5卷积核提取的。最后，通过聚合两个区域的所有特征向量，我们可以获得用于原始聚类融合的手工制作特征。特别是，我们打算采用简单但有效的Kmeans算法将所有样本分类为两个聚类，每个聚类被分配一个伪标签，称为“0”或“1”。在这里，我们无法清楚地区分哪个聚类包含真实或虚假样本。

B. 伪标签生成

接下来，让我们为这两个聚类分配伪标签。实际上，我们无法保证每个聚类都被完美地分配了正确的标签。这就是为什么我们将这个阶段的标签定义为“伪标签”，而不是真正的标签。然而，值得注意的是，即使真实标签完全未知，第二阶段的训练也不会受到完全影响。这是因为这个阶段的唯一目标是聚类两种类型；不需要明确确定哪个聚类是真实的或虚假的。在第三阶段，即“二元分类和认证”（见第VI节详情），这个棘手的问题可以有效地通过依赖视频查询帧间的相关性来解决。之后，带有伪标签的样本被输入到我们提出的增强对比学习模型中，以进一步细化区分特征。

此外，我们希望强调伪标签生成器的重要性。伪标签生成器的建立是为第二阶段的增强对比学习服务的。事实上，在传统的分类任务中，普通的对比学习方案[46]试图在不同对象中寻找代表性特征，例如飞机、猫、狗等，其中区分边界非常显著。然而，在我们具有挑战性的无监督Deepfake检测中，真实和虚假面部之间的区分边界表现得非常模糊。因此，仅依赖对比学习方案，很难区分真实和虚假样本之间的特征（见图6(a)示例），意味着聚类失败；通过采用我们提出的伪标签生成器，非常有希望的结果可以有效地帮助我们在后续步骤中进一步细化特征（见图6(b)示例）。换句话说，普通的对比学习方案不能直接表征由Deepfake引起的歧视。因此，我们新颖地提出在第一阶段采用伪标签生成方案，使得预处理数据带有伪标签可以进一步增强对比学习的性能。即使在第一阶段有不准确标签的查询数据占一定比例，第二阶段对比学习的强大的功能，可以有效地细化更具区分性的特征，满足第三阶段二元分类和认证的要求。

Ⅴ 增强对比学习

在本节中，我们的目标是通过所提出的增强对比学习进一步细化粗糙特征。据我们所知，[46]中的方案是最有效的对比学习策略之一。然而，在我们的Deepfake检测中，仅依赖于普通的对比学习框架[46]，我们无法直接细化第一阶段的粗糙特征（具体分析见附录A，可在线获取）。为了解决这个问题，我们提出将第一阶段带有伪标签的数据输入我们设计的增强对比学习器，其中引入了精心设计的数据增强方案、针对Deepfake检测定制的高效对比方法，以及置信样本选择策略。

A. 数据增强

在普通的对比学习中，增强方式通常设计用于图像分类或目标检测，这不能直接应用于处理Deepfake检测问题。一般来说，二元分类的主要任务是处理特征空间中更接近的歧视边界问题。增强方式的选择倾向于更多样化，从而带来更具区分性的特征。

此外，数据增强的操作在处理特征描述问题时确实发挥着重要作用。实际上，对比学习需要比监督学习更强的数据增强[46]。换句话说，无监督学习从数据增强中受益比监督学习更多。基于上述讨论，我们需要在本节中仔细且实证地解决数据增强的重要性。

具体来说，在这个阶段，我们采用五种数据增强方式：擦除、裁剪、翻转、灰度和颜色抖动，如图7所示。具体过程如下：

擦除：面部图像的局部区域被随机擦除，其中像素强度等于零。
裁剪：面部图像的部分被随机裁剪，然后裁剪区域被重新调整到原始大小。
翻转：原始面部图像水平翻转。
灰度：面部彩色图像转换为灰度图像。
颜色抖动：面部图像的属性，指亮度、对比度、饱和度和色调，被随机改变。

例如，对于批量大小为N的输入图像，我们随机选择两种不同的增强方式以获得2N张图像。然后，增强后的图像被输入到编码器网络以获得高维的2N个表示向量。最后，所有表示向量被输入到投影层以输出低维特征。

B. 增强对比学习器

对比学习的核心思想是通过在嵌入空间中比较真实样本与虚假样本来学习样本的表示，其中来自同一属性的样本之间的距离被最小化，来自不同属性的样本之间的距离被最大化。主要难点在于如何构建带有属性信息的样本。特别是，我们使用第一阶段的伪标签为我们提出的增强对比学习提供属性信息。为清楚起见，如图8所示，我们展示了对比学习框架中用伪标签构建样本的主要操作。在一批数据中，我们最小化具有相同伪标签的样本之间的距离，同时最大化具有不同伪标签的样本之间的距离。更多细节在损失函数设计中有详细阐述。接下来，让我们扩展在这种情境下提出的增强对比学习的特定过程。

编码器网络 ：具体来说，让我们将编码器网络表示为，以从数据增强图像中提取表示。然后，通过编码器网络的卷积和池化操作，可以获得高维表示向量。接下来，表示特征被输入到投影头，其中向量维度被降低。该网络是由深度可分离卷积模块和残差连接组成的线性堆叠，使我们能够完全解耦特征图中的跨通道相关性和空间相关性的映射。
投影头 ：高维特征带来高昂的计算成本，特别是在训练阶段损失计算过程中。因此，我们提出引入投影头模块。投影头，即一个多层感知器表示为，包括一个具有2048个神经元的线性层，一个ReLU层，以及一个具有128个神经元的线性层，所有层都是堆叠的。特别是，投影头将高维表示映射到低维特征，表示为。特征用于在归一化后计算对比损失（见公式3）。值得注意的是，在第三阶段，即测试阶段，我们直接采用训练好的编码器网络中提取的高维表示，以保留丰富的区分性。因此，这个投影头在第三阶段将被丢弃。
置信样本选择 ：为了进一步提高每个聚类的纯度，我们新颖地提出选择置信样本来训练编码器网络，这是通过余弦距离评估的。具体来说，每个聚类的表示向量被赋予伪标签。例如，表示从编码器网络提取的带有“伪标签0”的；表示从编码器网络提取的带有“伪标签1”的。值得注意的是，所有表示被分为两个聚类，其中和的总和是。接下来，对于所有带有伪标签0的向量集合，余弦距离通过以下公式直接计算：

其中表示L2范数计算，总共获得个余弦距离。然后让我们按降序排列形成一个队列，其中置信样本是基于队列中前个余弦距离选择的。对于带有伪标签1的聚类，对个选定的置信样本执行相同的操作。在下一轮训练中，总共个样本被输入到编码器网络，公式为：
损失函数 ：我们提出为我们提出的无监督检测框架建立损失函数。具体来说，总损失由两个子损失组成，分别来自带有伪标签0的聚类和带有伪标签1的聚类。直接来说，增强对比学习的总损失函数制定为：

其中表示来自带有伪标签0的聚类的子损失函数，计算如下：

其中定义为点积操作，表示图8中的相似性。表示温度值。类似地，来自带有伪标签1的聚类的另一个子损失函数制定为：

实际上，当第一阶段每个聚类的纯度不是很令人满意时，那可能会导致第三阶段的二元分类和认证出现问题。因此，在第二阶段，为了细化区分特征，我们利用增强对比学习的优势，可以使每个聚类的样本在嵌入空间中更密集地分布。这有效地减轻了来自嘈杂伪标签的影响。此外，我们选择置信样本来增强我们提出的对比学习的强大功能。为了清楚起见，我们提出在图9中展示增强对比学习器在第二阶段不同时期的性能可视化。随着迭代次数的增加，每个聚类的纯度得到了进一步优化，意味着提取的特征更具区分性，服务于第三阶段的任务。

Ⅵ 二元分类与认证

在本节中，我们将建立一个简单但非常有效的二元分类器和认证器，以完成区分真实和伪造视频的任务。实际上，当成功提取了区分特征后，我们并不能提供分类结果，因为在分类的整个过程中我们无法提供特征的真实标签。然后，我们打算基于帧间相关性来区分两种聚类视频。如图10所示，在真实视频片段中，帧间表现非常自然，没有被操纵的痕迹；相比之下，在伪造视频片段中，可以很容易地捕捉到明显的伪影。然后，帧间相关性可以被用来认证不同类型视频的帧。

在第二阶段训练的编码器网络，被用来在第三阶段提取区分特征，Kmeans算法也被采用来对两种类型的视频进行聚类。值得注意的是，我们采用直接从训练好的编码器网络中提取的高维表示，同时丢弃了投影头模块，以保留丰富的区分性。在二元分类之后，我们进行了认证程序。具体来说，对于一个具有L帧的视频片段，

表示从第l帧提取的特征向量，其中K表示特征向量的维度。这里，我们打算通过斯皮尔曼相关性来计算帧间相关性，公式化为：

其中帧l的相关性值主要是通过评估相邻帧向量之间的差异来评估的，即和。接下来，我们需要计算所有帧相关性的平均值：