AAAI 2020 | 反向R？削弱显著特征为细粒度分类带来提升

AI科技评论 · 公众号 · AI · 2020-02-03 15:21

正文

作者 | VincentLee

编辑 | Camel

本文来源于微信公众号： 晓飞的算法工程笔记

本文对发表于 AAAI 2020 的论文《Fine-grained Recognition: Accounting for Subtle Differences between Similar Classes》进行解读。

论文地址：https://arxiv.org/abs/1912.06842

论文提出了类似于dropout作用的diversification block，通过抑制特征图的高响应区域来反向提高模型的特征提取能力，在损失函数方面，提出专注于top-k类别的gradient-boosting loss来优化训练过程，模型在ResNet-50上提升3.2%，算法思路巧妙，结构易移植且效果也不错，值得学习。

一、简介

在FGVC(fine-grained visual categorization)上，一般的深度学习模型都是通过学习输入图片到输出标签的映射，这样会导致模型倾向于专注少部分显著区域来同时区分模糊的种群内(inter-class)相似性和种群间(intra-class)的变化

图 1

如图1所示，一般的深度学习模型的attention经常密集地集中在小部分区域，因此只会提出有限的特征。因此，论文建议分散attention来构建多样的分布在特征图上的特征。因为在特征层面进行attention分散，在预测时则需要反过来，例如只关注最相似的类别来提高模型的辨别能力。通过关注相似的类别以及分散模型的attention，论文实际是在让模型避免对训练集的overfiting，增加泛化能力。论文的主要贡献如下：

提出gradient-boosting loss，通过适当地调整梯度更新的幅度来解决高度相关类别的模糊部分；
提出diversification block，掩盖显著的特征，从而迫使网络去寻找外观相似的类别的不易察觉的不同点；
论文提出的方法能够加速模型的收敛以及提高识别的效果。

二、方法

论文提出的方法能简单地接到所有分类网络中，结构如图2所示。使用论文的方法，需要将主干网络的所有global pooling layer和最后的fully conntected layer替换成1x1 convolution，ouput channel等于类别数，模型主要包含两个部分：

diversification module，用于迫使网络去获取更多不易察觉的特征，而非专注于明显特征；
gradient boosting loss，使模型在训练时专注于容易混淆的类别。

1、Diversification Block

考虑如图2中个类别的多标签分类任务，为训练图片，是对应的GT，diversification block的输入是类别特定(category-specific)的特征图，由修改后的主干网络输出。标记，其中是对应类别的独立特征图。diversification block的核心思想是抑制中的明显区域，从而迫使网络去提取其它区域的特征，主要面临两个问题：1) 抑制哪些特征？2) 怎么抑制?