尽管已经提出了许多方法来增强转移稳定性,但在语义相似类别之间仍然出现了显著的误判。当这些类别在数据集中占比较少的分数时,这个问题变得尤为突出;例如,在整个数据集中,摩托车类别的像素仅占0.1%。随后,我们对DACS(Tranheden等人,2021)的结果进行了进一步分析,DACS是最近提出的一种代表性UDA方法。图1中的一个示例图展示了摩托车和自行车类别经常被误识别为彼此。类似的混淆也出现在道路和人行道之间。根据DACS的预测,自行车类别中有显著的20.8%被错误地分类为摩托车。这种混淆显著削弱了转移的可靠性。考虑到观察到的现象,我们提供以下分析:由于无法直接利用目标域图像xT m的真值监督,将这些图像映射到源域可以促进它们语义对应关系的 learning。图像级转移技术,例如基于GAN的方法(Zhu等人,2017;Hoffman等人,2018),以及标签级模拟,如classmix和cutmix,本质上将xT m视为源图像。这种训练方法类似于学习一个将目标域特征投影到源空间的转移函数,目标域数据以弱监督的方式进行训练。因此,目标图像的视觉表示以近似和估计的方式获得,这可能会引入错误。除了上述假设之外,我们还进行了更直观、定量的特征比较。首先,我们提取了两个语义相似类别A和B的最后一层特征。这些特征集分别表示为F·A和F·B,上标代表它们来自哪个域,例如S或T。然后,对于每个特征集,我们计算均值向量μ和协方差矩阵Σ。从多元高斯分布N(μ·, Σ·)中,采样一组点P,可以从点PA和点PB之间的重叠中直观地看出类别之间的混淆程度。为了更定量地测量,我们计算rA作为来自PA的一个点在N·B中具有更高密度的概率,以及rB在相反情况下的概率。这两个分布之间的重叠可以表示为IoU值,计算公式为(rA + rB) / (2 - rA - rB)。在源域中,模型通过将它们的分布分开,有效地区分了A和B,解决了混淆问题。在目标域中,由于缺乏强大的监督,导致N T A和N T B之间的距离减小。这导致这两个分布保持交织在一起,即导致它们之间的IoU变大。UDA模型在GTAv→Cityscapes转移上的详细定量结果如表1所示。在语义相似的类别对中,如摩托车与自行车以及道路与人行道之间,混淆很明显。同样,我们从表2中突出了两个从GTAv训练的DG模型的例子:道路与人行道和人与骑手。值得注意的是,当ISW(后来引入的DG基线方法)和我们的技术依次加入时,相似类别的IoU逐渐减少。
3.3 领域不可知先验减轻混淆
上述混淆本质上是源域过拟合的一种形式。因此,它需要一种特征规范化方法来减轻过拟合。在本文中,我们提供了一个简单有效的解决方案,通过引入与特定域无关的先验。我们知道,从贝叶斯理论中,后验分布,即最终估计P(e | D)与先验P(e)和似然P(D | e)成正比:
其中e是先验的嵌入,P(D | e)代表D在e条件下的分布。同时,NA和NB作为两类分布的近似值,可以表示后验估计的准确性。对于源域,e可以从真值中获得,使得后验分布自然准确。然而,在缺乏标签的目标域中,现有的UDA算法(例如,DACS(Tranheden等人,2021)和DAFormer(Hoyer等人,2022))直接使用源域的e,这可能容易加剧过拟合。为了获得更准确的NT A和N T B的估计,我们提出从先验视图优化后验分布。因此,额外的先验信息被引入到每个类别的特征空间中,并被表示为zT A ∼ NT A和zT B ∼ NT B。我们规定这些信息与任何特定域无关,即从领域不可知先验(DAP)eA和eB映射而来。我们如下表示它们:
其中g(·)是一个可学习的块,将先验对齐到图像特征空间。在实践中,直接提供严格的先验补充像方程(2)一样困难,所以我们将其定义为要最小化的损失项。以下,我们将介绍如何在UDA和DG的两种情况下定义领域不可知先验损失项。
3.4 案例1:UDA分割
3.4.1 基线
UDA主要处理源S和目标T域之间的领域差距。在分割任务中,城市街景作为实验场景。在这里,合成数据(Richter等人,2016;Ros等人,2016)被指定为S,而真实世界数据(Cordts等人,2016)被认为是T。它们之间的领域差距可以通过照明、颜色和风格等直观地观察到。这些差异经常阻碍模型对目标域进行准确预测。减轻这种领域差距的方法之一是自训练,它已得到广泛应用。具体来说,它涉及为xT m生成伪标签ˆyT m,并通常基于平均教师模型(Tarvainen和Valpola,2017)。采用这种策略,DS和扩展的目标集,ˆDT = {(xT m, ˆyT m)}M m=1,都被用来训练在线学生模型f st(x; θst)。同时,教师模型f te(x; θte)通过f st(·)的移动平均值进行更新。生成的ˆyT m的质量在自训练机制中非常重要。为了提高ˆyT m的可靠性,DACS(Tranheden等人,2021)用混合域M的混合输入替换了目标图像。每个混合数据样本被合成为源和目标数据的复合体,由ClassMix(Olsson等人,2021)引导。具体来说,采样一对具有相同分辨率的源和目标数据(xS n, yS n, xT m),在每次迭代中预测一个伪标签ˆyT m。然后,选择一个包含yS n中一半类别的随机子集,并生成一个与xS n一样大的像素级二进制掩码Mn,m。在这个掩码中,如果它们对应的类别属于选定的子集,则将像素分配值为1,否则为0。生成此掩码后,制作混合图像及其标签:
其中⊙表示逐元素乘法。然后DACS训练学生模型f st(x; θst)在(xS n, yS n)和(xM n,m, yM n,m)上。分割损失总结如下:
其中LCE(·, ·)表示逐像素的交叉熵损失。并且在每次迭代中,教师模型f te(x; θte)通过指数移动平均(EMA)机制更新,即θte ← θte ·η+θst ·(1−η)。η是一个接近1.0的常数,控制更新速度。图3中的黄色阴影部分是DACS的整个流程图。
GTAv源自Grand Theft Auto V游戏,场景是合成的。该数据集包含24,966张图像,每张图像都有像素级语义分割真值。数据集被划分为12,403、6,382和6,181张图像,分别用于训练、验证和测试集。在UDA的背景下,整个数据集用于训练。GTAv与Cityscapes共享19个常见类别。SYNTHIA是另一个广泛的分割数据集,具有像素级注释。具体来说,我们使用它的SYNTHIA-RAND-CITYSCAPES子集,包含9,400张虚拟欧洲风格城市图像,分辨率为1280×760。对于SYNTHIA,我们在UDA中评估了两种设置(13和16个类别)和DG中的一个设置(19个类别)。