专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
超级数学建模  ·  我不小心拉在了男朋友脸上,我... ·  3 天前  
超级数学建模  ·  限时领 | Oxford ... ·  2 天前  
超级数学建模  ·  懂中式美学的人,真不简单! ·  4 天前  
超级数学建模  ·  这也太香了!一口酥脆,根本停不下来! ·  4 天前  
51好读  ›  专栏  ›  极市平台

CVPR'24|DeiT-LT:印度科学院提出针对长尾数据的`DeiT`升级模型

极市平台  · 公众号  ·  · 2024-05-20 22:00

正文

↑ 点击 蓝字 关注极市平台
作者 丨晓飞的算法工程笔记
来源丨晓飞的算法工程笔记
编辑丨极市平台

极市导读

论文的目标是从头开始研究和改进ViT的训练,而不需要对图像大小和分辨率各异的各种额外长尾数据集进行大规模预训练。大规模预训练数据集通常会无意中引入的偏差。为了减轻这些缺点,论文为长尾引入了数据高效的ViT(Deit-LT),一个可以在小型和大规模长尾数据集上从头训练ViT的方案。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

DeiT-LT ViT 在长尾数据集上的应用,通过蒸馏 DIST 标记引入 CNN 知识,以及使用分布外图像并重新加权蒸馏损失来增强对尾类的关注。此外,为了减轻过拟合,论文建议用经过 SAM 训练的 CNN 教师进行蒸馏,促使所有 ViT 块中 DIST 标记学习低秩泛化特征。经过 DeiT-LT 的训练方案, DIST 标记成为尾类的专家,分类器 CLS 标记成为头类的专家,有效地学习与多数类和少数类相对应的特征
来源:晓飞的算法工程笔记 公众号

论文: DEYO: DETR with YOLO for Step-by-Step Object Detection

论文地址: https://arxiv.org/abs/2404.02900

论文代码: https://rangwani-harsh.github.io/DeiT-LT/

Introduction

ViT 是需要对大型数据集进行预训练,数据高效 ViT ( DeiT )旨在通过从预训练的 CNN 中提取信息来减少预训练的要求,提高 ViT 的数据和计算效率。然而,所有这些改进仅限于平衡的 ImageNet 数据集。

在这项工作中,论文的目标是从头开始研究和改进 ViT 的训练,而不需要对图像大小和分辨率各异的各种额外长尾数据集进行大规模预训练。最近的研究表明 ViT 在长尾识别任务上的性能有所提高,但这些通常需要在大规模数据集上进行昂贵的预训练。此外,大规模预训练数据集通常会无意中引入的偏差。为了减轻这些缺点,论文为长尾引入了数据高效的 ViT ( Deit-LT ),一个可以在小型和大规模长尾数据集上从头训练 ViT 的方案。

DeiT-LT 基于以下重要设计原则:

  • 通过强增强生成的分布外( OOD )图像从低分辨率教师网络中提取知识。值得注意的是,即使 CNN 教师模型最初没有接受过此类增强的训练,这种方法也被证明是有效的。这种策略可以在 ViT 学生模型中成功引入类似 CNN 的特征局部性,最终提高了泛化性能,特别是对于少数(尾)类。
  • 为了提高特征的通用性,使用经过锐度感知最小化( SAM )训练的 CNN 教师模型来提取知识,促使所有 ViT 块中学习到长尾数据集所需的低秩泛化特征。
  • DeiT 中, CLS DIST 标记产生类似的预测,而 DeiT-LT 则是分化的。 CLS 标记成为多数类别的专家,而 DIST 标记则学习局部低秩特征,成为少数类的专家。因此, DeiT-LT 对多数类和少数类都有效,这在 DeiT 中是不可能实现的。

DeiT-LT (DeiT for Long-Tailed Data)

DeiT-LT 是专门针对长尾数据的数据高效 ViT 模型,跟 DeiT 一样,除了 CLS 标记之外,还包含通过蒸馏从 CNN 学习的 DIST 标记。  此外, DeiT-LT 引入了三个特殊的设计组件:

  • 通过分布外( OOD )图像进行有效蒸馏,这会引入局部特征并创建专家。
  • 使用 DRW 损失训练 Tail Expert 分类器。
  • 通过蒸馏从 CNN 教师学习低阶泛化特征。

Distillation via Out of Distribution Images

DeiT 中,需要使用跟 ViT 一样的强增强图像来训练一个大型 CNN RegNetY )用于蒸馏,这会产生额外的开销。相比之下, DeiT-LT 使用常规的弱增强来训练小型 CNN ResNet-32 )网络,然后在蒸馏过程中使用强增强图像获得预测进行蒸馏。

这些强增强图像是 CNN 的分布外 ( OOD ) 图像,因为模型在这些训练图像上的准确度较低,如表 1 所示(这里的 Acc 应该是对应增强图片的准确率,非简单测试集。 RegNetY16GF 教师应该是强增强训练的,不然 Tec Acc 不应该这么高。而 ResNet-32 教师则应该全是弱增强训练的,所以增加数据增强后 Tec Acc 逐步下降)。与弱增强蒸馏相比,尽管对强增强图像的准确度较低,但你强增强蒸馏依然可以产生有效的效果。因为 ViT 学生学会模仿 CNN 教师对分布外图像的错误预测,这使得学生能够学习教师的归纳偏差。

此外,论文发现通过混合两个类别的图像来创建额外的分布外样本也可以提高蒸馏性能。从教师预测的熵中可以看出,对于 OOD 样本的预测熵很高(即信息量更大)。总的来说,论文发现在蒸馏时增加不同数量的分布外数据有助于提高性能并导致 CNN 的有效蒸馏。

通过使用分布外图像进行蒸馏,教师预测 通常与真实值 不同。因此, CLS 标记和 DIST 标记的特征表达在训练时会有所不同。如图 4a 所示, CLS 标记和 DIST 标记特征之间的余弦距离随着训练的进行而增加,导致 CLS 标记成为头类预测的专家,而 DIST 标记则专注于尾类预测。这个发现打破了 DeiT 中, CLS 标记输出与 DIST 标记输出相似的现象。

Tail Expert with DRW loss.

论文引入了延迟重加权( DRW )来计算蒸馏损失,使用因子 来衡量每个类别的损失,其中 类中在 个周期后的有效样本数。因此,总损失如下:

DRW 阶段进一步增强了 DIST 蒸馏头对尾部类别的关注,从而提高了性能。如图 4a 所示,两个标记间的多样性在引入 DRW 阶段后得到了改善。 DRW 能够引导不同的 CLS DIST 标记的创建,分化为多数类和少数类的专家。

Induction of Local Features

为了深入了解 OOD 蒸馏的通用性和有效性,论文仔细研究了 DeiT-LT 生成的尾部特征。在图 4b 中,绘制了 ViT 头部每个标记的平均注意力距离。

  • Insight 1

DeiT-LT 第一个和第二个块中,出现了像 CNNN 一样关注邻域标记的头。由于这种对局部泛化的类不可知的特征,少数类的泛化能力有所提高(图 1c)。如果没有 OOD 蒸馏, DeiT ViT 基线在全局特征上过度拟合(图 4b),没有很好地泛化到尾部类别。因此, DeiT-LT 中的 OOD 蒸馏是一种非常适合长尾场景的方法。

Low-Rank Features via SAM teachers

为了进一步提高特征的泛化性,特别是对于数据较少的类,论文通过锐度感知最小化( SAM )训练的 CNN 教师模型,使其能够收敛到最小平面并得到低秩特征。

为了分析 LT 情况下 ViT 学生模型的特征秩,论文专门计算尾类特征的秩。具体来说,对通过 LDAM PaCo 训练的不同教师模型进行 SAM 对比实验,观察 DIST 特征秩情况。

  • Insight 2

如图 4c 所示,根据 SAM 教师模型的预测蒸馏出的 ViT 模型会出现跨 ViT 块的低秩泛化 DIST 标记特征。  通过蒸馏最终的 Logits 向量就能将 CNN 教师的特征(低秩)迁移给学生,这对于 ViT 蒸馏是一个重大的新发现。

  • Training Time

    DeiT 以高分辨率 训练大型 CNn RegNetY-16GF 来蒸馏 ViT,而论文则以较低的分辨率训练较小的 ResNet-32 CNN 来实现有竞争力的性能。如表 1 所示,这显著减少了计算要求和总体训练时间 13 小时,因为 ResNet-32 模型可以快速训练。此外,使用 SAM 教师模型时,学生模型的收敛速度比使用普通教师模型时快得多,这证明了 SAM 教师对于低秩蒸馏的功效。







请到「今天看啥」查看全文