本文介绍了一种新的基于Outlier Exposure(OE)的学习方法,称为Wasserstein Distribution-agnostic Outlier Exposure(W-DOE),用于提高模型的分布外检测能力。W-DOE旨在通过合成与原始辅助分布外数据不同的新样本,来扩大训练中分布外数据的覆盖范围,以减轻真实场景中分布外检测性能损失的问题。文章还介绍了方法的关键技术点及理论分析,并通过实验结果验证了W-DOE的有效性。
该方法通过模型扰动隐式地导致数据转换,将现有数据转换为分布层面非常不同的数据,从而让模型从这些隐式转换后数据中学习。
该框架通过以辅助分布外数据为中心的Wasserstein球来定义扩展后分布外数据的覆盖范围,并引入了一种最坏情况下的学习方案,通过对模型分布外数据性能的遗憾值进行定义,以优化总体性能。
在开放世界环境中,分类模型需要识别与分布内数据语义不同的分布外数据,引发了近年来对于分布外检测的广泛研究。Outlier Exposure(OE)作为一种有效的学习方案,使模型能够从额外的辅助分布外数据中进行学习,显著提升模型的分布外检测能力。然而,辅助分布外数据通常无法覆盖真实的分布外场景,因此导致真实场景中分布外检测的性能损失。为此,我们提出了一种改进OE的新学习方法,称为
Wasserstein Distribution-agnostic Outlier Exposure
(W-DOE),其理论可靠且实验性能优异。
其核心思想在于,通过扩大训练时分布外数据的覆盖范围,以此保证模型在部署时会更少遇到未见过的分布外情形
。在W-DOE的具体实现中,我们设计一种基于隐式数据合成的新方法,有效获取更多的分布外数据以扩大训练期间分布外情形的覆盖范围。此外,我们提出了一个通用的学习框架,搜索最有利于模型的分布外合成数据,有效确保总体的分布外检测性能。
论文题目:
W-DOE: Wasserstein Distribution-agnostic Outlier Exposure
论文链接:
https://www.computer.org/csdl/journal/tp/5555/01/10844561/23zUi92f3os
一、背景和动机
深度学习在开放世界中经常会遇到分布外数据,这些数据在标签空间上与分布内训练样本显著不同。由于模型无法对其做出正确响应,因此需要避免进行标签预测。这个问题引发了最近对分布外检测的广泛关注,模型需要识别由分布外数据引起的异常,同时对分布内数据进行准确预测。其中Outlier Exposure(OE)被验证是一种有效的方法,其通过将辅助的分布外数据纳入模型训练来增强总体的分布外检测能力。尽管 OE 方法效果显著,其仍存在很多局限性。其中一个重要挑战源于我们无法预知在开放世界中会遇到哪些类型的分布外数据。结果是,辅助的分布外数据可能与真实情况不同,导致训练和测试之间存在分布外数据分布的显著差异。这种差异通常会对实际场景中的分布外检测性能产生严重的负面影响。
图1:通过如图 (b) 所示扩大辅助分布外数据的覆盖范围,与原始的 数据分布(如图 (a))相比,训练时使用的分布外数据与真实分布外数据之间的差异显著缩小。
二、方法
为了解决这个问题,我们提出了一种新的基于OE的学习方法,称为Wasserstein Distribution-agnostic Outlier Exposure(W-DOE)。我们的方法旨在通过合成与原始辅助分布外数据不同的新样本,来扩大训练中分布外数据的覆盖范围。通过对应的模型训练,我们可以有效缩小分布外数据的差异,从而减轻其负面影响。要实现我们的W-DOE,需要回答两个关键问题:(a)如何合成分布外数据,以及(b)如何保证在扩展的数据分布上整体性能。
针对第一个问题,我们提出了一种简单有效的数据合成方法,称为隐式数据合成。该方法基于我们新的发现:模型扰动会隐式地导致数据转换,可以有效地将现有数据转换为分布层面非常不同的数据。因此,通过在模型扰动后的更新过程中,让模型从这些隐式转换后数据中学习。隐式数据合成实现简单,对于生成与原始数据有差异的合成数据非常灵活。如下我们给出一个非形式化的基本论证:如果我们只考虑模型的第 K 层,令 z 为输入, W 为第 K 层的参数, A 为对 W 的参数扰动, a 为激活函数, $f(z;W)=a(Wz)$ 为 K 层的输出。如果 W 以 W(I+A) 的形式进行扰动,那么我们可以证明 $f(z;W(I+A))=f((I+A)z;W)$ 。上述关系将模型扰动与特征变换联系起来,在下文中,我们会将该结论泛化到对整个模型扰动的形式。
针对第二个问题,我们提出了一种新的的学习框架,保证模型可以高效学习通过隐式数据合成的额外分布外数据。其中,我们通过以辅助分布外数据为中心的Wasserstein球来定义扩展后分布外数据的覆盖范围。
图2: Wasserstein球的相关定义。
据此,我们在分布外覆盖范围内引入了一种
最坏情况下的学习方案
,其通过对模型分布外数据性能的遗憾值进行定义。
图3: 最差遗憾值的相关定义。
据此,通过在Wasserstein球中找寻性能最差的数据分布上进行训练,我们可以对总体性能的上界进行约束,其学习目标如下:
图4: W-DOE的学习目标。
如上学习目标可以与隐式数据合成有效结合,带来了W-DOE的简洁实现,在实践中极大改进了OE。从理论上,我们还证明了W-DOE可以减轻分布外数据差异,扩大分布外数据的覆盖范围,从而保证更好的分布外检测性能,并获得比OE更紧的泛化界。
三、理论分析
我们的理论分析主要分为两部分:一方面,我们证明隐式数据生成在多样化数据方面的有效性;另一方面,我们证明W-DOE的学习目标可以有效处理分布外数据差异带来的负面影响。
图5: 隐式数据生成的有效性验证
其表明,对于整体模型的参数扰动,其等价于对原始数据在输入空间上的分布变换。此外,当模型自身层数足够多且激活函数非线性,其隐含的数据变换函数也会更强。
另一方面,对于W-DOE的学习目标,我们给出如下泛化误差界。
图6: W-DOE学习目标的有效性验证
上述定理中不等式右侧的第一项起到了关键作用,因为相较于原本的OE而言,其会在开放环境中导致更紧的界限。因此,这验证了我们的 W-DOE 在面对分布外数据差异时能够带来性能的提升。
我们还在一系列具有代表性的分布外检测设置下进行了实验评估。
我们首先进行了模拟实验,可视化了分布外分布差异对于不同方法的分布外检测性能的影响。可见,对于OE而言,随着分布外数据差异的增大,分布外检测的判别边界误差也在变大。作为对比,W-DOE通过最坏情况下的数据搜索,其确保了模型在训练期间未见过的分布外情况下也有较好性能。这和我们的理论分析结果是一致的。
图7: 模拟实验下W-DOE和OE的性能对比
此外,我们在 CIFAR 基准数据集上进行了各类设定的真实实验(标准设定和困难设定),其中AUROC指标越高越好、FPR95指标越低越好。可见, W-DOE 相较于同期先进方法有普遍的优越性。
图8: CIFAR基准数据集下的标准实验结果比较
图9: CIFAR基准数据集下的困难实验结果比较
五、总结
我们提出了一个名为 W-DOE 的通用学习框架,可以有效缓解分布外数据的差异对其真实性能的负面影响。总体而言,W-DOE 在分布外检测中的强大性能主要归功于两个因素。首先,我们基于模型扰动和输入变换之间的联系,提出了用于数据合成的隐式数据生成。合成数据相较于原始数据更为多样化,使模型能够从未见过的数据中学习。其次,我们提出了在寻找最坏情况遗憾值时的极小极大优化方案,比基于风险的搜索方法能够取得更好的结果。我们提出的学习方案在开放世界中实现了可证明的分布外性能。此外,W-DOE 中提出的技术,例如给予遗憾的最差性能搜索和隐式数据生成,可能在分布外检测之外的领域也有所贡献,我们将探讨它们在分布外泛化、对抗训练和鲁棒优化中的应用场景。
llustration From IconScout By IconScout Store
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
www.techbeat.net
)
。
社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
[email protected]
或添加
工作人员微信(
yellowsubbj
)
投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“
投稿
”二字,获得投稿说明。