关注“
FightingCV
”公众号
回复“
AI
”即可获得超100G人工智能的
教程
数据增强(DA)被广泛用于提高深度模型的泛化性能。然而,大多数现有的DA方法在整个训练过程中使用具有随机大小的增强操作。虽然这促进了多样性,但也不可避免地引入了增强数据中的不可控变异性,这可能导致与目标模型不断发展的训练状态不匹配。理论和实证研究都表明,这种不匹配增加了欠拟合和
过拟合
的风险。
为了解决这些局限性,作者提出了
AdaAugment
,这是一种创新且无需调优的
自适应
增强方法,它利用强化学习根据目标网络的实时反馈动态调整单个训练样本的增强大小。具体来说,AdaAugment具有一个双模型架构,包括一个策略网络和一个目标网络,它们联合优化以有效适应增强大小。
策略网络优化增强数据内的变异性,而目标网络利用自适应增强的样本进行训练。在基准数据集和深度架构上的广泛实验表明,AdaAugment在有效性方面一致地优于其他最先进的DA方法,同时保持了卓越的效率。
1 Introduction
数据增强(DA)是减轻深度神经网络训练过程中过拟合的一种关键且非常有效的技术,这导致了更一般化和可靠的模型。然而,需要注意的是,现有的DA方法主要依赖于在训练过程中使用完全随机或人为设计的增强幅度,这可能导致次优的训练场景,并需要人类专家在给定新数据集时对超参数进行更多的调整工程。
例如,基于信息删除的DA方法随机擦除图像中的一些子区域以创建增强样本,导致随机的增强强度。
此外,自动DA方法通常在为目标模型训练优化增强策略之前,针对每个特定数据集涉及显著的计算开销。这些增强的幅度在训练过程中是预先确定的,没有进行任何适应。
因此,这些方法可能无法捕捉到每个数据集的独特特征以及网络训练的演变状态。
实际上,使用增强幅度引入了固有的随机性,这可以增加数据多样性,但也给增强数据带来了不可控的变异性。这种数据变异性中的随机性可能与深度模型的演变训练状态并不最佳对齐,从而对训练过程引入严重副作用。例如,在训练的初期阶段,模型通常表现出较弱的泛化能力,大量的数据变异性可能导致噪声和分布偏移,可能引发欠拟合现象。
相比之下,在训练的后期阶段,有限的数据变异性可能增加过拟合的风险。因此,当前DA方法在这一点上的不匹配增加了模型欠拟合和过拟合的风险,这最终可能对模型的泛化性能产生不利影响。
为了应对这些挑战,采用基于目标模型实时反馈的自适应调节增强数据变化至关重要。
如图1所示,作者比较了传统数据增强(DA)与自适应DA机制。与依靠随机或预定义增强幅度的传统方法不同,自适应DA方法根据目标网络的实时反馈动态调整DA操作的幅度。值得注意的是,自适应DA专注于优化增强强度,而不是操作本身的具体细节。这种自适应策略有效地应对了上述挑战,从而充分发挥了DA的潜力,并增强了深度模型的泛化能力。
实现自适应DA的一个直接方法是创建一个正式度量,指示每个训练样本的实时学习状态。然后可以使用这个度量来确定适当的增强强度水平。然而,理论分析已经确定,确定学习算法的过拟合或欠拟合风险是不可判定的。因此,制定训练样本的学习状态的明确度量仍然是一个艰巨的挑战。
为了解决上述限制和挑战,在本研究中,作者提出了AdaAugment,一种创新且无需调整的自适应数据增强方法。AdaAugment利用强化学习算法自适应地为每个训练样本确定具体的增强幅度,而不依赖于任何手工制作的度量。
AdaAugment的核心是一个双模型架构:策略网络和目标网络。策略网络根据目标网络在训练期间的实时反馈,学习确定每个训练样本增强操作幅度的策略。目标网络同时利用这些自适应增强的样本进行训练。
这两个网络共同优化,无需单独重新训练目标网络,从而提高了作者方法的实际可行性。学到的策略调整增强数据内的变异性,以与目标模型的学习状态保持一致,从而优化引入到增强数据中的变异性。具体来说,在策略网络的训练中,作者通过分别从完全增强和非增强数据中导出损失来估计欠拟合和过拟合的风险。
然后将这两个损失与由AdaAugment自适应增强的数据导出的损失进行比较,作为奖励信号。在各种基准数据集上的大量实验结果表明,AdaAugment与现有最先进(SOTA)的DA方法相比具有优越的性能。
此外,对AdaAugment的复杂性分析证实,它仅引入了极少的参数和计算开销,突显了其高效性。因此,AdaAugment在有效性和效率之间取得了令人满意的平衡,在不引入过多计算复杂性的情况下实现了高性能。例如,在Tiny-ImageNet上训练时,AdaAugment可以在不进行任何架构修改或增加额外正则化的情况下,比其他SOTA DA方法实现超过1%的改进。
总之,作者强调以下贡献:
作者提出了AdaAugment,这是一种创新且无需调优的自适应数据增强(DA)方法,它利用强化学习技术根据目标网络提供的实时反馈,动态地为每个训练样本调整增强幅度。
AdaAugment具有双重模型架构,它同时优化策略网络和目标网络。这有助于同时制定策略,有效提高任务性能。据作者所知,这是首次识别出自适应DA机制可以动态地提高模型的泛化能力。
在多个基准数据集和深度网络上进行的广泛实验表明,AdaAugment优于现有的最先进(SOTA)DA方法。重要的是,AdaAugment在实现这种卓越性能的同时,只增加了最小的额外训练开销,从而确保了具有竞争力的效率。
2 Related Work
Data Augmentation
数据增强在提高深度神经网络泛化能力方面发挥了关键作用。通常,这些方法主要依赖于具有随机或预定义大小的增强手段,以向训练数据中引入多样性。
在这些方法中,Cutout是最广泛使用的技术之一,它随机地在训练图像中 Mask 一个或多个正方形区域。Random Erasing(Zhong等人,2020)随机选择图像内的一个矩形区域,并用随机值擦除其像素。同样,Hide-and-Seek(HaS)随机隐藏训练图像中的
Patch
,提高了深度模型的目标定位准确性和泛化能力。GridMask在输入图像中采用结构化的丢弃区域。由于这些方法可能容易向增强数据中引入噪声和模糊性,因此提出了AdvMask来识别图像中的分类判别信息,并结构性地删除包含增强关键点的某些子区域。同时,Mixup混合两张或更多图像的随机信息来合成增强数据。然而,这些数据增强(DA)方法主要关注数据转换,往往忽视了模型的训练状态。这种疏忽使得难以通过在线调整增强强度相应地减轻实际过拟合和欠拟合风险。
自动DA方法,如AutoAugment,Fast-AutoAugment 和 RandAugment,利用强化学习或网格搜索在离线方式上搜索现有策略,以找到针对不同图像数据集的最优DA操作组合。
同样,Adversarial AutoAugment(Zhang等人,2019)利用固定的增强空间,并奖励准确度最低的策略,使得策略分布在整个训练过程中逐渐转向更强烈的增强。同时,TrivialAugment(Muller和Hutter,2021)采用这些自动DA方法获得的相同增强空间,在训练期间对每幅图像只应用单一增强操作。
MetaAugment(Rajendran等人,2020)利用静态增强空间,其增强策略网络输出增强数据损失的权重。然而,这些方法中使用的增强策略幅度是固定的或在在线训练期间随机抽取的,导致数据转换程度不可控。SelectAugment(Lin等人,2023)采用分层强化学习来获取在线策略,以确定增强数据的比例以及是否应对每个单独样本进行增强。但是,由于应用于每个样本的具体增强转换是AutoAugment、Mixup或CutMix,所以使用的DA强度仍然是不可控的。KeepAugment 提出在增强过程中检测并保留图像的显著区域。
(Lee等人,2020)的工作通过利用影响函数进行影响建模来学习可微分的DA转换。(Xu和Zhao,2022)的工作随机确定批 Level 数据的DA操作类型和幅度,并沿目标网络损失的梯度方向更新DA的参数。(Zhang等人,2023)的工作为对比学习提出了AdDA,允许网络调整增强组合,实现更可泛化的表示。Adaaug(Cheung和Yeung,2021)通过可微工作流学习类依赖的,可能是实例依赖的增强。TeachAugment(Suzuki,2022)转换数据,使其对目标模型具有对抗性。
然而,先前的自适应DA方法通常以固定幅度抽样增强策略,主要旨在减轻过拟合风险。最近,(Yang等人,2024)的工作使用相似性和多样性度量评估了DA的有效性,揭示了它们在不同数据集上的重要性变化,表明自适应调整增强强度以达到最佳平衡的优越性。
因此,与现有的DA方法相比,AdaAugment在训练过程中估计了欠拟合和过拟合风险,并在线训练中自适应地调整增强幅度以降低这两种风险。
Reinforcement Learning
强化学习(RL)是通过在交互式环境中尝试和错误地学习一系列动作,以最大化预期奖励,它广泛应用于自动驾驶(Kiran等人,2022)和推荐系统(Lin等人,2023)等领域。在RL算法领域,有两种基本类别:价值优化和策略优化方法。价值优化方法主要围绕最优价值函数的估计展开,随后这成为推导最优策略的基础(Byeon,2023)。相反,策略优化方法在不估计价值函数的情况下估计最优行为策略。此外,广泛采用的强化学习中的演员-评论家框架结合了基于价值和基于策略的RL方法的优点(Shakya等人,2023)。
这个框架包括两个组件:演员,负责学习策略函数;评论家,负责通过估计价值函数来评估演员选择的行为。这种双重机制确保了更稳定和高效的学习,例如优势演员-评论家(
A2C
)。
3 AdaAugment
概述AdaAugment的主要目标是通过对DA(数据增强)强度在训练过程中的自适应调整,来减轻欠拟合和过拟合的风险。这种自适应调整可以形式化为基于每个样本的决定性问题,从而无需手动制定度量标准。图2展示了AdaAugment的双重模型框架:在训练目标网络的同时,引入了一个策略网络,以动态优化增强过程中DA操作的幅度。这个双重模型框架联合优化两个网络,无需单独重新训练目标网络,并根据目标网络的训练进度实现增强强度的实时调整。具体来说,策略网络在当前训练周期的样本 Level 上优化这些幅度。
然后,在下一个周期,数据增强过程使用这些相应的幅度对训练样本应用增强操作。这些自适应增强的样本随后被用于优化目标网络的训练。
预备知识一个强化学习任务可以被形式化为一个
马尔可夫决策过程
(MDP),它包括以下组成部分:状态空间
,动作空间
,转换函数
表示通过采取行动从一个状态转换到另一个状态的概率,奖励函数
,折扣因子
,以及时间步
。给定一个状态
,强化学习智能体根据策略
确定一个动作
。有了这些元素,强化学习任务的目标是在给定的
MDP
框架内找到一个最优策略,记作
,以最大化预期的累积奖励。同时,假设训练数据集
包括
个训练样本,每个样本的形式为
。这里,
表示原始数据,
是一个
维的由0和1组成的向量,指示
的真实标签,其中
是总类数。作者定义增强操作为
,其中
来自增强空间
,
对应于
的幅度。与之前的工作相比,作者的方法在增强空间
中自适应地确定幅度,而不是在训练前分配一个预定义的值。
状态设计由于强化学习(RL)的目标是动态地确定每个样本的适当幅度,状态
应考虑三个因素:与每个样本相关的固有难度、模型的当前训练状态(例如,特征提取能力),以及与前两个因素相关的增强操作强度。这种对状态变量的多方面考虑对于有效的强化学习至关重要。值得注意的是,特征图在这个过程中扮演了至关重要的角色,它通过提供来自模型的反馈(Huang et al., 2023; Zhang et al., 2021),封装了样本的固有难度和模型的实时特征提取能力。
为了说明这一点,如图2所示,AdaAugment中的状态向量
编码了非增强样本
和自适应增强样本
的特征图,分别表示为
和
。这里,
捕捉了样本
相对于当前目标网络训练状态的固有难度。同时,
编码了应用于
的增强操作强度,相对于实时目标网络状态和样本固有的难度。通过利用这些信息,AdaAugment有效地将数据变异性与目标网络的不断发展训练状态对齐。
图2:所提出的AdaAugment的一般框架。
动作设计策略决定了增强数据的增强幅度
。尽管在训练期间每个小批量的组成具有随机性,但幅度
是基于每个样本操作的,对应于每个训练样本。为了简单起见,作者将当前小批量数据的幅度表示为
,其中
的维度等于批量大小,并且每个
严格限制在区间
内。当
时,不应用增强;而当
时,表示相应增强操作的最大幅度。这样,接近0的幅度会产生与原始样本更相似的样本,而接近1的幅度会产生更多样化的数据。可以通过以下方式获得自适应增强样本
:
其中
是一个随机增强操作,
是根据动作策略确定的。
因此,等式(1)使作者能够优化增强数据的相似度-多样性偏好。更重要的是,这种对相似度-多样性偏好的调整反映了AdaAugment在减轻过拟合和欠拟合风险方面的有效性。
奖励函数考虑一个目标分类模型
,由参数
决定,一个输入样本
,
表示网络的输出。令
表示交叉熵损失,
表示原始样本
的损失项。作者提出的方法旨在通过根据目标模型的反馈控制数据增强操作的幅度来减轻过拟合和欠拟合的风险。为此,作者根据作者的增强策略定义了三个损失项。首先,
表示具有最大幅度(即
)的样本
的损失。其次,
表示非增强样本的损失,即
。最后,根据方程(1),自适应增强数据的损失表示为
,增强幅度由演员网络确定。受到课程学习(Soviany等人,2022年)的启发,作者制定以下奖励函数:
其中
是一个调整因子,它在训练过程中从1逐渐减少到0。
策略学习策略旨在确定增强操作的实例级幅度。对于策略学习,作者使用了广泛使用的A2C算法(Mnih等人,2016年),该算法包括一个演员网络
和一个评论家网络
,如图2所示。演员网络学习策略,即给定特定状态的动作的概率分布,
。同时,评论家网络的目的是估计与特定状态相关联的价值,表示为
。
为了更新演员和评论家网络,作者重新制定了针对作者特定问题场景的损失函数。具体来说,用于更新
的损失函数定义为:
同时,用于更新
的损失函数定义为:
算法1提供了对AdaAugment的详细算法程序,以全面了解其工作原理。
理论分析在数据增强领域,增强幅度大致与增强样本的损失值成比例,即
。因此,以下不等式大约成立:
,这表明
和
分别可以作为与增强样本相关的潜在过拟合和欠拟合风险的指示器。同时,这些损失值会随着训练的进行而不断演变。
关于方程(2)中的奖励函数,在训练初期阶段,
这一项非常重要。因此,策略网络倾向于使用相对适度的增强幅度,以最大化
和
之间的差异。这样,更相似的增强样本可以鼓励模型捕捉更广泛的特征或模式,从而在早期训练阶段加速快速收敛(Liu和Mirzasoleiman,2022;Hou等人,2023年)。随着训练的深入,焦点转向
,促使策略网络应用更大的增强幅度,试图增加
和