专栏名称: AI科技大本营
迎来到AI科技大本营。这里汇集了优秀的AI学习者,技术大咖和产业领袖;提供接地气的实战课程。在这里和优秀的人一起成长。
目录
相关文章推荐
爱可可-爱生活  ·  【[93星]Robopoker:一款用Rus ... ·  8 小时前  
爱可可-爱生活  ·  【[229星]GPT-Vis:为GPT、生成 ... ·  9 小时前  
AI前线  ·  第一个明星 AI 硬件将变成电子垃圾 ·  昨天  
爱可可-爱生活  ·  【Awesome LLM ... ·  3 天前  
51好读  ›  专栏  ›  AI科技大本营

CVPR 2020 | 南大提伪监督目标定位方法,弱监督目标定位的最新SOTA

AI科技大本营  · 公众号  · AI  · 2020-03-01 17:05

正文

编译 | VincentLee
来源 | 晓飞的算法工程笔记

导读:论文提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法的问题,该方法将定位与分类分开成两个独立的网络,然后在训练集上使用Deep descriptor transformation(DDT)生成伪GT进行训练,整体效果达到SOTA,论文化繁为简,值得学习。

由于训练数据难以大量标注,一些研究如何使用弱监督的方法来学习,弱监督的训练数据一般只包含image-level标签,无具体目标的定位标签/语义标签。在弱监督算法中,弱监督目标定位(WSOL)是最实际的任务,只需要定位给定标签的对象位置即可。


经过实验,论文认为WSOL中的定位部分应该为类不可知的,与分类无关。基于这个观察,将WSOL分为类不可知目标定位以及目标分类两部分,如图1所示,命名为伪监督目标定位(Pseudo Supervised Object Localization, PSOL)。算法首先生成通过Deep descriptor transformation(DDT)生成伪监督GT bbox,然后对这些bbox进行回归,去掉了WSOL中仅能有一层全连接的限制(当作卷积的channel-wise权重)以及定位与分类耦合导致的取舍问题。

论文贡献主要如下:

  • 弱监督目标定位应该分为类不可知目标定位和目标分类两个独立的部分,提出PSOL算法
  • 尽管生成的bbox有偏差,论文仍然认为应该直接优化他们而不需要类标签,最终达到SOTA
  • 在不同的数据集上,PSOL算法不需要fine-tuning也能有很好的定位迁移能力

这里需要说明一下,弱监督目标定位(WSOL)与弱监督目标检测(WSOD)是不一样的,WSOL假设图片中只有一个目标,而WSOD则没有这种假设,所以WSOD一般需要额外的方法去生成region proposal。


方法论

A paradigm shift from WSOL to PSOL


当前WSOL能够生成生成带类别标签的bbox,但主要有以下几个问题:
  • 学习目标不明确,导致定位任务性能下降。独立的CNN不能同时进行定位和分类任务,因为定位需要目标的全局特征,而分类只需要目标的局部特征
  • CAM(Class Activation Mapping)存储一个三维特征图用于计算类别的heatmap,再用阈值过滤,但是一般阈值十分难确定

受selective search和Faster-RCNN的类不可知过程的启发,将WSOL分成两个子任务,类不可知的目标定位任务和目标分类任务,提出PSOL,直接通过伪GT bbox进行模型更新,不需要直接生成bbox,能够显著解决前面提到的问题。

The PSOL Method


Bounding Box Generation
PSOL与WSOL的区别在于给无标签的训练图片产生伪bbox,Detection是最好的选择,能够直接提供bbox和类别。但是最大的检测训练集才80类,不能提供通用的目标检测,而且目前的detector大都需要大量的计算资源和输入尺寸,导致不能在大规模数据集上使用。除了detection模型,可以尝试定位方法来直接产生训练图上的bbox

  1. WSOL methods

首先通过预训练网络 得到输入图片 的最后卷积的特征图 ,然后通过全局池化和最终的全连接层得到最后的标签 。根据 ,得到特定类别在最终全连接中的权重 ,对 中的空间位置进行channel-wise的加权并求和得到特定类别的heatmap ,将 上采样到原来的大小,使用阈值过滤在产生最终的bbox。

  1. DDT recap

协同监督方法在定位任务中有较好的表现,DDT是其中表现好且计算量最少的。对于 张相同标签图的集合 ,使用预训练模型 得到最终的特征图,将这些特征图集合到一起得到大特征集 。在深度上使用主成分分析(PCA),得到特征值最大的特征向量 ,然后对 进行channel-wise的加权并求和得到最终的heatmap ,将 上采样到原来的大小,然后进行零过滤以及最大连通区域分析得到bbox

Localization Methods

在生成bbox后,使用bbox回归进行精调,这里使用单类别回归(single-class regression, SCR)。假设bbox为 为左上角坐标, 为宽高,首先将值进行转换 , , , ,其中 为输入图片的宽和高。使用两个全连接层以及对应ReLU的子网来回归,最终的输出进行sigmoid激活,训练使用最小平方差。

实验

Experimental Setups


  • Datasets,使用ImageNet-1k和CUB-200,测试数据的bbox是准确标注的,而训练集上的bbox则通过前面提到的方法进行生成。






请到「今天看啥」查看全文