DeiT-LT
为
ViT
在长尾数据集上的应用,通过蒸馏
DIST
标记引入
CNN
知识,以及使用分布外图像并重新加权蒸馏损失来增强对尾类的关注。此外,为了减轻过拟合,论文建议用经过
SAM
训练的
CNN
教师进行蒸馏,促使所有
ViT
块中
DIST
标记学习低秩泛化特征。经过
DeiT-LT
的训练方案,
DIST
标记成为尾类的专家,分类器
CLS
标记成为头类的专家,有效地学习与多数类和少数类相对应的特征
来源:晓飞的算法工程笔记 公众号
论文: DEYO: DETR with YOLO for Step-by-Step Object Detection
论文地址:
https://arxiv.org/abs/2404.02900
论文代码:
https://rangwani-harsh.github.io/DeiT-LT/
Introduction
ViT
是需要对大型数据集进行预训练,数据高效
ViT
(
DeiT
)旨在通过从预训练的
CNN
中提取信息来减少预训练的要求,提高
ViT
的数据和计算效率。然而,所有这些改进仅限于平衡的
ImageNet
数据集。
在这项工作中,论文的目标是从头开始研究和改进
ViT
的训练,而不需要对图像大小和分辨率各异的各种额外长尾数据集进行大规模预训练。最近的研究表明
ViT
在长尾识别任务上的性能有所提高,但这些通常需要在大规模数据集上进行昂贵的预训练。此外,大规模预训练数据集通常会无意中引入的偏差。为了减轻这些缺点,论文为长尾引入了数据高效的
ViT
(
Deit-LT
),一个可以在小型和大规模长尾数据集上从头训练
ViT
的方案。
DeiT-LT
基于以下重要设计原则:
通过强增强生成的分布外(
OOD
)图像从低分辨率教师网络中提取知识。值得注意的是,即使
CNN
教师模型最初没有接受过此类增强的训练,这种方法也被证明是有效的。这种策略可以在
ViT
学生模型中成功引入类似
CNN
的特征局部性,最终提高了泛化性能,特别是对于少数(尾)类。
为了提高特征的通用性,使用经过锐度感知最小化(
SAM
)训练的
CNN
教师模型来提取知识,促使所有
ViT
块中学习到长尾数据集所需的低秩泛化特征。