专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
51好读  ›  专栏  ›  小白学视觉

TPAMI 2024 | 学生损失:走向不准确监督中的概率假设

小白学视觉  · 公众号  ·  · 2024-07-09 10:05

正文

点击上方 小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达
题目:Student Loss: Towards the Probability Assumption in Inaccurate Supervision

学生损失:走向不准确监督中的概率假设

作者:S. Zhang; J. -Q. Li; H. Fujita; Y. -W. Li; D. -B. Wang; T. -T. Zhu; M. -L. Zhang; C. -Y. Liu


摘要

在数据集中常常会遇到噪声标签,但学习它们是具有挑战性的。尽管在噪声类别中干净和被误标的样本之间存在自然差异,但该领域的大多数技术仍然不加区分地收集它们,这导致它们的性能部分是鲁棒的。在本文中,我们从经验和理论上揭示了通过假设具有相同标签的深层特征遵循学生分布,可以提高学习的鲁棒性,从而提出了一种更直观的方法,称为学生损失。通过嵌入学生分布并利用其曲线的陡峭性,我们的方法自然具有数据选择性,可以提供额外的强度来抵抗误标样本。这种能力使得干净的样本在中心紧密聚集,而误标的样本分散开来,即使它们共享相同的标签。此外,我们采用度量学习策略,开发了一个大间距学生(LT)损失以提高能力。需要注意的是,我们的方法是第一个在特征表示中采用先验概率假设以减少误标样本贡献的工作。这一策略可以增强各种损失,使其加入学生损失家族,即使它们已经是鲁棒损失。实验表明,我们的方法在不准确监督中更加有效。增强的LT损失在大多数情况下显著优于各种最先进的方法。在某些情况下甚至可以获得超过50%的巨大改进。

关键词

  • 深度学习

  • 噪声标签学习

  • 鲁棒损失函数

I. 引言

最近在监督深度神经网络(DNNs)方面的发展大大提高了最先进(SOTA)模型在各种应用中的性能。这些成功高度依赖于经过仔细标注的大规模数据集的出现。然而,为训练提供精确注释的标注是耗时且容易出错的 [1]。因此,在实际深度学习任务中,不准确的监督,特别是带有噪声标签的学习,是一个关键问题 [2]。为了应对这一问题,已经依次提出了许多方法,包括:

  1. 鲁棒架构 [3]-[10],在其中设计了一些新的DNN结构以限制误标样本。

  2. 鲁棒正则化 [11]-[16],在其中收敛过程中需要满足一些额外的约束。

  3. 样本选择 [17]-[25],在其中尽可能多地选择干净的样本进行训练。

  4. 鲁棒损失设计 [26]-[43],在其中提出了一些新的鲁棒损失函数以应对噪声标签学习。

与可能受到不精确噪声估计或复杂训练过程影响的替代技术相比,应用鲁棒损失更简单有效,因此也是本文的主要重点。

一般来说,判别性损失通过聚集具有相同标签的样本来促进,这可以通过在某些度量(如余弦角距离、马氏距离等)上评估样本相似性来实现。然而,这种思维在不准确监督中很大程度上是有效的但不完全。这是因为传统的判别性损失通常只有一种强度,来自于带标签样本的监督分类信息,尽管出现了一些误标样本。



为了克服不准确监督中损失的缺陷,研究人员做了许多尝试:Ghosh等人 [26] 比较了分类交叉熵(CCE)与平均绝对误差(MAE)损失,得出MAE由于其数据平等特性更具抗噪声性。这一结果促使Zhang等人 [27] 提出了广义交叉熵(GCE),可以看作是CCE和MAE的结合。此外,Kim等人 [28] 提出了噪声标签的负学习(NLNL)策略,该策略引入了一个三阶段的管道来过滤噪声数据。Wang等人 [29] 提出了对称交叉熵(SCE),这是一种结合了CCE和反向交叉熵(RCE)的鲁棒变体。广泛地,Ma等人 [30] 将当前的损失分类为“主动”或“被动”,并提出了主动被动损失(APL)。该技术结合了导致过拟合的主动损失(如CCE)和导致欠拟合的被动损失(如MAE)以实现最佳性能。最近,Kim等人 [32] 报告了联合负正学习(JNPL),声称可以被视为NLNL的改进方法。Englesson等人 [33] 实践了Jensen-Shannon散度(JS)损失及其广义版本,通过Jensen-Shannon散度训练样本。Zhou等人 [34] 说明了不仅对称损失,而且非对称损失也可以提高带有噪声标签的学习鲁棒性,并提出了一类新的非对称损失函数(ALF)。他们随后扩展了这项工作,说明ALFs可以用于回归任务 [35]。

由于标签存在噪声,这些SOTA方法实际上尝试找到一种减少监督分类强度的方法,以确保干净样本能够正确分类。尽管做了许多努力,其中大多数仍然是部分鲁棒的。事实上,相同标签的干净和误标样本之间的自然差异是产生另一种抗性强度的理想材料。它们触发我们通过带有先验假设的无监督区分来实现这种减少。具体来说,通过将相同标签下的深层特征视为长尾学生分布,在本文中,我们提出了一种更直观和有效的方法,称为学生损失。由于学生分布的曲线在特定区域内非常陡峭,边缘概率(图1中的P1和P2)被保留。它产生了额外的强度,自适应地将误标样本推出决策边界。结果,我们的方法具有天然的数据选择能力,可以应用于应对由标签错误引起的不一致性。此外,我们引入了一个超参数以鼓励更宽的类间距离,并进一步提出了大间距学生(LT)损失。按照我们的方法,类内干净样本可以在中心紧密聚集,而误标样本在边缘散开,实现无监督的干净/误标样本分区。需要注意的是,我们的学生损失是第一个在隐藏空间引入先验概率分布假设以提高不准确监督性能的研究。此外,各种损失,甚至SOTA鲁棒损失,都可以通过我们的方法进一步增强。我们的主要贡献可以总结如下:

  • 我们提供了对深层特征概率分布的洞察,不仅在经验上,而且在理论上指出,通过假设相同标签的样本遵循学生分布,可以提高带有噪声标签的学习鲁棒性。

  • 基于这一观点,我们提出了学生损失。通过嵌入学生分布,它具有数据选择性,使类内干净样本集中而误标样本分散,即使它们的标签是相同的。此外,我们采用了一些度量学习策略,开发了其大间距版本。

  • 各种损失可以通过我们的方法增强。在基准和真实世界数据集上的实验表明,LT损失在不准确监督中可以实现比SOTA方法更好的性能。

III. 学生损失

A. 预备知识

我们考虑一个 类分类任务。一般来说,分类器旨在寻找一个映射函数 从样本到某个类 的标签。它通常被认为是以softmax层结束的DNN,以生成后验概率。如此,令 表示标记类,后验概率可以表示为
, 其中 表示训练集中的第 个样本。具体来说,如果我们只讨论倒数第二层表示空间, 生成一个线性变换表示为
, 其中 分别表示与类 对应的权重和偏差。然后,如果我们使用CCE进行训练,损失 可以表示为
, 其中指示函数 如果 等于 则为1;否则为0。 ### B. 鲁棒学生损失 一般来说,令 表示样本 出现的概率,它可以表示为
, 其中 是类 处的特定概率密度函数的值。 是分布函数的参数, 是随机变量 的微小增量。 表示类 的先验概率。之后,后验概率 可以表示为
。 为了获得更宽容的表示,我们采用长尾学生分布 来展示深层特征。在这一行下, 可以生成为
, 其中 分别表示类 的自由度、均值和协方差矩阵。它们是因为学生分布假设而引入的三个可训练参数。 表示特征维数, 表示类 的深层特征之间的马氏距离。 是伽马函数,可以表示为
。 根据 [44], 可以在整个复平面上定义。由于学生分布中的 的输入( 是正数,因此它是连续且可导的 [44]。因此, 能够在训练期间进行前向推理和反向传播,尽管包含积分。此外,我们将(6)和(7)重写如下:1)我们使 位于 范数球上,以消除范数的影响。2)我们引入一个超参数 以限制自由度的下限,并确保曲线边缘的概率不会过大。在本文中,将其设置为0.1。3)我们消除常数 并用 代替 以确保极高维输入的计算修正。4)我们假设 是单位矩阵 (马氏距离退化为欧几里得距离),先验概率
。 根据上述分布嵌入策略,我们提出了我们的学生损失 。总体上,它包括两个部分:
。 第一个术语 表示判别损失。可以进一步采用各种损失作为 。第二个术语 表示中心损失 [45],可以表示为
。 由于 ,学生损失可以检测到误标样本。 表示一个加权超参数。 换句话说,我们的策略是通用的。许多流行的损失,甚至是最先进的鲁棒损失,可以通过我们的方法加强,加入学生损失家族。例如,基于CCE的学生损失 可以表示为
。 此外,从度量学习的角度来看,可以通过增加类间距离来增强深度模型的泛化能力 [46], [47]。类似于 [48],引入一个额外的超参数 以约束 。因此, 可以生成为
。 我们用 替换 ,进一步开发其大间距版本。 此外,由于类概率分布函数被重新设计,我们尝试给出一个决策函数用于推理。因此,假设测试集中的一个样本 出现,它可以通过以下映射分类

C. 理论说明

在这一部分中,我们尝试从梯度的角度解释我们的方法的效果。令 表示训练集中的一个误标样本,我们使用CCE来训练一个神经网络 的分类器。根据 [49],其梯度 可以表示为
, 其中 分别表示 的预测和标签。 表示 中的可训练参数。可以看出,在不准确监督中, 是一个重要项。标签正确时,它表示一个小值,但标签错误时表示一个大值。因此,伴随收敛过程,误标样本提供了比干净样本大得多的梯度,导致性能不佳。 根据上述分析,设计这一比例项是带有噪声标签学习的关键。因此,如果我们假设深层特征遵循高斯分布 ,类概率函数 可以表示为
可以进一步生成为 表示分布嵌入前的投影。梯度 可以表示为:
。 我们观察到 在某种程度上受到限制,因为误标样本 产生了大 并使 变为小值。实际上,这一策略被广泛认可并称为高斯混合(GM)损失,已被证明在干净样本中表现出色 [48]。然而,GM损失在带有噪声标签学习中存在瓶颈。如公式(20)所示,虽然比例项相对较小,但它对于各种标签噪声是非自适应的。这一缺陷使得GM损失在带有标签噪声的学习中表现仍然不令人满意,特别是在难以学习的任务或被高标签噪声率干扰时(详见第III-D节)。 受到GM损失 [48] 的启发,我们发现这一矛盾可以通过假设深层特征遵循学生分布来完美解决。根据第III-B节, 可以进一步生成为 。梯度 可以生成为
同样, 也受到学生分布中的 限制,使 变小。此外, 这一项生成了一个自适应比例。通过调整 可以动态调整梯度,提供更宽容的收敛。
显然,这一命题从梯度加权的角度理论上证明了我们方法的有效性。它也与我们引入学生分布长尾以容纳误标样本的动机一致。

D.讨论

为什么选择学生分布? 通常记录表明,判别损失函数鼓励自然相似样本的聚集,同时分散不相似的样本。通常,传统损失通过学习分类模板(权重向量)并直接最大化样本和模板之间的余弦角距离来实现这一目的。由于分类信息只能通过标签传递,误标样本产生类内不一致性,最终导致图1所示的混乱集群。与以往的方法相比,我们从概率分布的角度重新思考不准确的监督,并定义一个噪声类别的深层特征遵循学生分布。通过这一假设,分布中的先验巨大差异可以容忍这一不一致。换句话说,学生分布的长尾特性可以生成额外的强度以“吸收”大多数误标样本,使不同类别即使标签相同也可识别。因此,嵌入学生分布可以在不准确的监督任务中取得出色的性能。
为什么要附加 我们设计 通过嵌入学生分布来抵抗标签噪声。至于公式中的 ,考虑了两个影响:1)类似于 [48],它作为一个似然正则化项以限制离群点和类中心 之间的距离。由于其影响可以通过超参数 调整,误标样本不会受到影响。实际上,适当地将中心损失引入我们的学生损失可以加速收敛并略微提高性能(详见第IV-E节)。2)更重要的是,由于误标样本更接近其自然类别的中心,干净样本和误标样本的 是极其不同的,这可以用来识别甚至修正错误标签(详见第IV-A节)。因此, 在我们的策略中也是必不可少的。
为什么使用欧几里得距离? 在我们的策略中,我们将特征 和均值 标准化,使它们位于 范数球上。从计算开销的角度来看,余弦角距离似乎更适合我们的学生损失。然而,我们仍然选择欧几里得距离来衡量相似性。考虑了两个原因:1)如(6),(7),(8)所示,欧几里得距离(当协方差矩阵为单位矩阵时的马氏距离)本身出现在学生分布的公式中。这意味着计算欧几里得距离是不可避免的。换句话说,尽管我们使用余弦角距离来衡量差异,但为了实现学生分布嵌入,我们仍然需要计算不同角度之间的欧几里得距离。这增加了计算开销。如果我们直接将学生分布中的欧几里得距离度量改为余弦角距离,在统计上可能有风险。使用常见且已验证的学生分布公式来实施我们的策略是更安全的。2)欧几里得距离和余弦角距离在变化上是一致的。换句话说,在 范数球上它们有一一对应关系。它们的效果是等效的。因此,我们相信使用欧几里得距离是一个折衷但适当的选择,尽管特征已经标准化。这个折衷不会影响学生损失在带有噪声标签学习中的有效性。我们希望在未来进一步探索将余弦角距离引入学生分布嵌入以实现更简单的计算方式。
GM损失与LT损失: GM损失 [48] 和LT损失都从概率的角度考虑特征表示,我们的LT损失在某些方面借鉴了GM损失的思想。然而,需要强调三点:1)在 [48] 中,作者为了获得更好的最优解进行了公式转换,并产生了最终的GM损失。因此,尽管当 时学生分布变为高斯分布 [50], [51], [52],GM损失 [48] 和我们的LT损失在不同领域是不同的技术。GM损失是一种用于带有干净标签学习的出色方法,而LT损失则用于带有噪声标签学习。2)在第III-C节中,我们从梯度加权的角度理论上揭示了GM损失可以限制 项,但在带有噪声标签学习中仍然较弱。这里,我们提供了一些实验证据以进一步支持这一点。如图2(c)和(e)所示,如果实施GM损失,当 时可以观察到其鲁棒性。误标样本分布在相同标签的干净样本周围。但当 时,这种鲁棒性消失了。然而,如图2(d)和(f)所示,使用相同设置,我们的LT损失始终具有数据选择性。3)如表I所示,尽管通过调整协方差矩阵改变了高斯分布的陡峭性,但在带有标签噪声的情况下,GM损失的表现不及我们的LT损失。值得注意的是,高斯分布仅通过调整协方差矩阵改变其陡峭性。这限制了具有相同标签的所有样本(不仅是干净的,还有误标的)在均值周围的三倍方差范围内分散(见图2(a))。调整协方差矩阵也改变了干净样本的紧密性,导致集群内部的混乱,特别是在难以学习或高噪声任务中。相反,由于引入了自由度,学生函数可以在边缘保持一些概率,同时保持中心的紧密性 [50], [51], [52](见图2(b)),使其具有数据选择性。因此,LT损失在带有噪声标签学习中优于GM损失。
非对称损失与LT损失: 正如上文所述,设计ALFs [34], [35] 也可以被视为抗噪声标签的通用方法。这里,我们尝试具体说明与LT损失的区别。据记录,ALFs是为了满足贝叶斯最优条件而构建的。在 [34], [35] 中,作者希望找到一种简单而优雅的方法来减少风险,从而导致一个与无噪声情况下分类错误概率相同的分类器。遵循这一考虑,几种常用的损失被转化为更非对称的。与此不同,我们不关注损失函数结构是否非对称,而是直接假设类概率分布为学生分布。由于在尾部的可训练先验概率,学生损失收获了另一种强度以自适应地克服误标样本的不正确监督。我们通过将GCE作为基础方法来比较这两种通用策略的改进。正如表I所示,这两种通用策略的改进总和接近。在某些数据集(如我们的实验中的CIFAR10)中,我们的方法可能更优越。
LT损失的推广: 通常,鲁棒损失设计指的是生成一种特定的损失以解决带有噪声标签学习中的问题。与它们不同,我们对特征表示做出假设,直接采用先验分布构建损失函数。这一策略使许多以前对标签噪声敏感的损失变得鲁棒。换句话说,我们在本文中不仅提出了一种鲁棒损失,更重要的是,我们提出了一种使常见损失鲁棒的范式。在我们的实验中,我们证明了我们的方法可以增强许多损失,甚至是鲁棒损失,以抑制标签噪声(详见第IV-B节)。这一推广被视为我们方法先进性的一个证据。

IV. 实验

在这一部分中,我们首先通过使用CCE和LT-CCE作为示例讨论我们的LT损失的各种经验理解,并将我们的方法在带有噪声标签下的表现与其他最先进方法进行比较。然后,进一步进行一些消融研究。我们的实验由六个数据集支持,包括MNIST [53],CIFAR-10 [54],CIFAR-100 [54] 以及三个真实世界数据集ANIMAL-10N [43],WebVision-50 [55] 和ImageNet ILSVRC12的验证集 [56]。

噪声设置

我们分析对称和非对称噪声。对称噪声通过以概率 均匀地将真实标签转换为随机标签生成,非对称噪声通过以概率 使用规则将真实标签转换为给定标签生成。在我们的实验中,我们按照 [27], [29], [30] 生成非对称噪声,其中2 → 7,3 → 8,5 ↔ 6 和7 → 1 转换用于MNIST,TRUCK → AUTOMOBILE,BIRD → AIRPLANE,DEER → HORSE,CAT ↔ DOG 转换用于CIFAR-10。至于CIFAR100,我们首先将100个类分为20个超级类,每个超级类包含5个子类,然后将同一超级类内的每个类按循环方式转换为下一个类。对于经验解释,选择对称噪声 进行测试。对于鲁棒性评估,选择对称噪声 和非对称噪声 进行测试。需要注意的是,我们不需要在测试集中进行相同的设置。带有噪声标签学习的目的是在训练集中包含大量噪声数据标签时尽可能提高准确性。测试集应高质量且错误率低以证明这一点。

A. 经验理解

实验设置

我们建立了一个包含两个卷积层和两个全连接层的玩具模型,并在MNIST上判断一些经验理解。实验分为两部分。首先,我们探索LT损失在倒数第二层中的特征表示。为了更好的可视化,倒数第二层输出的维度设置为2。然后,进一步评估训练期间的收敛和LT损失中 的效果。因此,倒数第二层输出的维度设置为128。对于我们的LT损失, 下设置为0.3和0.05,而在 下分别设置为0.1和0.01。所有网络使用Adam优化器进行训练,学习率为0.001,权重衰减为 ,批量大小为128,并采用余弦学习率退火。总共设置了50个周期。选择各种对称噪声情况下的情况进行说明。

更宽容和可区分的表示

在倒数第二层中的训练集特征表示已经显示出来。可以看出,不同类别的输出特征根据各自的投影角度分散。使用CCE时,在 下,集群是可分离和清晰的,但随着 的增加,不同集群的区域似乎更加不平衡,导致在 下遗漏一些类别。相反,使用LT-CCE训练的表示显然更宽容和可区分,允许在极端噪声率下发展出一个完整且更可接受的表示。
为了更好地说明,我们以噪声类别“1”为例,展示误标样本在集群中的分布。使用CCE训练后,误标样本在 下明显与干净样本重叠,而在 下重叠更多。然而,使用LT-CCE训练时,几乎所有干净样本聚集紧密,而误标样本分散开来,并且在所有测试的噪声率下几乎没有重叠。这些结果充分揭示了我们策略的有效性。
实际上,由于引入学生分布在特征表示中的先验假设以抵抗噪声标签的混乱,LT-CCE可以比原始CCE产生更宽容和更清晰的集群,这在不准确监督中提高性能至关重要。

训练期间更合适的收敛

训练/测试集在训练期间的准确率曲线显示CCE存在严重的过拟合问题。尽管在所有测试的噪声率下训练集的准确率可以达到高水平(接近100%),但测试集的准确率在收敛过程中逐渐下降。这一现象在大多数文献中也有所提及 [26], [27], [28], [29] 并被视为不准确监督中的主要挑战之一。至于我们的策略,我们观察到尽管LT-CCE在训练集中的准确率低于CCE,但在所有测试情况下可以在测试集中达到高水平。此外,训练准确率几乎与噪声集群中的干净样本比例






请到「今天看啥」查看全文