点击下方
“
PaperEveryday
”,每天获得顶刊论文解读
论文信息
题目:D3T: Distinctive Dual-Domain Teacher Zigzagging Across RGB-Thermal Gap for Domain-Adaptive Object Detection
D3T: 跨RGB-热红外域的显著双域教师框架用于域自适应目标检测
作者:Dinh Phat Do, Taehoon Kim, Jaemin Na, Jiwon Kim, Keonho Lee, Kyunghwan Cho, and Wonjun Hwang
源码:https://github.com/EdwardDo69/D3T
论文创新点
-
显著双域教师框架(D3T)
:作者提出了一个新颖的D3T框架,利用两个
独立的教师模型
,分别专注于RGB和热红外域,以更有效地学习域特定信息。
-
曲折学习方法
:作者引入了一种
曲折学习方法
,通过在训练过程中逐步增加热红外域的训练频率,减少RGB域的训练频率,实现了从RGB到热红外域的
平滑过渡
。
-
动态权重更新策略
:在D3T框架中,作者采用了
动态权重更新策略
,通过
指数移动平均(EMA)
将学生模型的权重更新到相应的教师模型。
-
伪标签整合策略
:作者提出了一种
伪标签整合策略
,在训练过程中逐步引入伪标签,以增强学生模型的学习能力。
摘要
域自适应目标检测通常涉及将知识从一个可见域转移到另一个可见域。然而,从可见域到热红外域的适应研究有限,因为可见域和热红外域之间的域差距比预期的要大,传统的域自适应方法在这种情况下无法成功促进学习。为了克服这一挑战,作者提出了一个显著双域教师(D3T)框架,该框架为每个域采用不同的训练范式。具体来说,作者将源域和目标域的训练集分开,用于构建双教师模型,并将指数移动平均(EMA)应用于学生模型,分别更新每个域的教师模型。该框架进一步结合了双教师之间的曲折学习方法,在训练过程中促进从可见域到热红外域的逐步过渡。作者通过新设计的实验协议,使用著名的热红外数据集(如FLIR和KAIST)验证了该方法的优越性。
3 提出的方法
在推进跨不同成像域的目标检测能力的过程中,作者深入研究了均值教师(MT)框架[37],并将其扩展为基于双教师模型的框架。
单教师MT框架
MT框架代表了域自适应的一种范式,特别是在目标检测任务的背景下[9, 10, 26]。该方法从源域的带标签数据中学习知识,并将其适应到无标签的目标域。此外,它采用了教师-学生相互学习方法,如[29]中所介绍的,以提高检测精度。
概述
MT框架的核心思想是一个由教师模型和学生模型组成的模型架构,两个检测器具有相同的架构。教师模型在源域的带标签数据上进行预训练,为目标域数据生成伪标签,目标域数据缺乏标签。学生模型通过使用这些伪标签进行优化,其权重更新到单个教师模型。教师模型可以被视为在不同时间步长的学生模型的集成,从而提高了准确性并生成了更高质量的伪标签。
训练方法
MT框架同时使用源域和目标域进行训练。源域数据在应用强数据增强和弱数据增强后,直接用于学生模型的监督训练,带有真实标签。目标域数据采用两种数据增强:教师模型的输入图像使用弱增强以确保可靠的伪标签,学生模型的输入图像使用强增强以增强模型的多样性。这增强了教师模型,因为它通过在不同时间步长的学生模型权重进行更新。
MT框架的整体损失函数定义如下:
其中
是源域的损失,包括分类和定位损失,
是目标域的损失,使用伪标签进行类似计算。
更新教师参数
MT框架通过指数移动平均(EMA)使用学生模型的权重更新教师模型的权重。这种逐步更新过程使得教师模型成为不同时间步长学生模型的集成,公式如下:
其中
表示教师模型的权重,
表示学生模型的权重,
是EMA系数。为了简单起见,作者在所有实验中将
设置为0.9996。
显著双域教师(D3T)
目标检测的域自适应通常采用带有单个教师模型的MT框架来适应RGB图像域,例如从Cityscapes[7]到Foggy Cityscapes数据集[36]。然而,RGB域和热红外域之间的域差距显著更大。因此,为两个域使用单个教师模型可能会导致负面影响并降低模型的有效性。为了解决这个问题,作者引入了一个新的D3T框架,该框架直接受到[30]的启发,并包括两个分别为RGB域和热红外域的独立教师模型。两个教师模型利用各自域的专门知识,并将这些知识传递给学生模型。D3T的概述如图2所示。
独立教师模型
作者方法的核心思想是使用两个独立的教师模型,一个
RGB教师
和一个
热红外教师
,以整合来自各自领域的知识。每个教师模型的权重仅在训练对应领域时使用学生模型的权重进行更新。因此,该教师模型能够获取特定领域的专门知识,而不会受到其他领域的负面影响。D3T模型使用热红外图像进行训练,并更新对应的热红外教师模型的权重。类似地,模型也使用RGB域进行训练,并更新RGB教师模型的权重。
从双教师模型中学习知识
在D3T模型的每个训练步骤中,仅使用来自一个领域(RGB或热红外)的图像。然而,为了利用两个教师模型的综合知识并最小化两个领域之间的域偏移,作者同时使用热红外和RGB教师模型生成伪标签。这种双教师方法不仅利用了来自两个教师模型的知识,还提高了伪标签的可靠性,从而使学生模型的训练更加有效。损失函数定义如下:
其中,(\mathcal{L}
{thr})是热红外域的损失,(\mathcal{L}
{rgb_sup})表示RGB域的监督损失。(\mathcal{I}
{thr})和(\mathcal{I}
{rgb})分别表示来自热红外和RGB域的图像。(f^S)对应学生模型,生成输入图像的预测结果。而(f^T_{thr})和(f^T_{rgb})分别表示热红外和RGB域的教师模型,负责生成伪标签以训练学生模型。(\mathcal{Y})表示RGB源域图像的真实标签。损失函数包括无监督损失(\mathcal{L}
{un})和监督损失(\mathcal{L}
{sup}),其使用方式与[10]类似。
跨RGB-热红外域的曲折学习
在传统的目标检测UDA方法中,源域和目标域通常同时进行训练。然而,由于RGB和热红外域之间的显著域差距,同时训练效果不佳。作者提出了一种从RGB到热红外的域自适应训练方法,称为
曲折学习
。
独立训练
曲折学习涉及对RGB和热红外域进行独立和交替训练,以有效学习每个领域的独特知识。每次训练特定领域时,作者使用
指数移动平均(EMA)
更新对应领域的教师模型权重。这种特定领域的训练和权重更新策略确保了RGB和热红外域之间的显著域差距不会导致跨领域的负面影响。
渐进式训练过渡
曲折学习方法的核心理念是一个渐进式的训练转移过程,首先专注于从带标签的RGB域学习知识。接下来,训练逐渐过渡到热红外域,通过稳步增加热红外图像的训练频率,同时减少RGB图像的训练频率。这种逐步的转移促进了从RGB到热红外域的平滑域自适应,从而提高了热红外域的性能。如图1(b)所示,例如,未标记的热红外域最初训练一次,而带标签的RGB域训练三次,以专注于从RGB域获取知识。随后,RGB域的训练频率逐渐减少,而热红外域的训练频率逐渐增加,促进了两个领域之间从RGB到热红外的域自适应。每个步骤中RGB和热红外域的训练迭代次数定义如下: