腾讯提结合ACNet进行细粒度分类，效果达到最新SOTA | CVPR 2020

AI科技大本营 · 公众号 · AI · 2020-03-13 14:17

正文

作者 | VincentLee
来源 | 晓飞的算法工程笔记

细粒度分类(Fine-Grained Visual Categorization, FGVC)是图片分类的一个分支，由于类别间的相似性非常大，一般人比较难区分，所以是个很有研究意义的领域。受神经树研究的启发，论文设计了结合注意力卷积的二叉神经树结构(attention convolutional binary neural tree architecture, ACNet)用于弱监督的细粒度分类，论文的主要贡献如下：

提出结合注意力卷积的二叉神经树结构ACNet用于细粒度分类，在树结构的边上结合了注意力卷积操作，在每个节点使用路由函数从而定义从根节点到叶子节点的计算路径，类似于神经网络。这样的结构让算法有类似于神经网络的表达能力，以及能够从粗到细的层级进行特征学习，不同的分支专注于不同的局部区域，最后结合所有叶子节点的预测值进行最终的预测；
添加attention transformer模块来加强网络获取关键特征进行准确分类；
在三个数据集CUB-200-2011、Stanford Cars和Aircraft上达到了SOTA。

注意力卷积的二叉神经树

ACNet包含4个模块，分别是主干网络(backbone network)、分支路由(branch routing)、attention transformer和标签预测(label prediction)，如图2所示。将ACNet定义为，为树状拓扑结构，为树边的操作集。论文使用满二叉树，为节点，为边，对于树深，共节点，边。每个节点为路由模块，决定下一个计算节点，边采用attention transformer进行操作。另外，满二叉树采用了非对称结构，例如左边使用两个transformer模块，右边使用一个transformer模块，这样有利于提取不同尺寸的特征

架构

Backbone network module

由于细粒度类别的关键特征都是高度局部的，需要使用相对较小的感受域来提取特征，因此主干网络使用截断的VGG-16网络，输入改为

Branch routing module

分支路由用来决定子节点的选择，结构如图2b所示， -th层的 -th路由模块由卷积和global context block组成

global context block的大概结构如上图a所示，来自GCNet的论文中。在context modeling和fusion步骤使用了simplified NL block，在transform步骤使用了SE block，这个模块能够很好地结合上下文信息来提取特征，最后使用global average pooling、element-wise square-root、L2正则化以及sigmoid激活的全连接层输出标量。