专栏名称: AI科技大本营
迎来到AI科技大本营。这里汇集了优秀的AI学习者,技术大咖和产业领袖;提供接地气的实战课程。在这里和优秀的人一起成长。
目录
相关文章推荐
爱可可-爱生活  ·  【[1k星]kro-run/kro:Kube ... ·  21 小时前  
文商资讯  ·  北京大学AI智能高级研修班4月25-27日开学 ·  2 天前  
文商资讯  ·  北京大学AI智能高级研修班4月25-27日开学 ·  2 天前  
黄建同学  ·  Jim ... ·  2 天前  
每天学点HR  ·  刚刚!马斯克,重大宣布! ·  3 天前  
每天学点HR  ·  刚刚!马斯克,重大宣布! ·  3 天前  
51好读  ›  专栏  ›  AI科技大本营

基于Co-Attention和Co-Excitation的少样本目标检测 | NeurIPS 2019

AI科技大本营  · 公众号  · AI  · 2020-01-10 12:44

正文

「免费学习 60+ 节公开课: 投票页面,点击讲师头像」


作者 | VincentLee

来源 | 晓飞的算法工程笔记(ID: gh_084c810bc839)


导读:论文提出CoAE少样本目标检测算法,该算法使用non-local block来提取目标图片与查询图片间的对应特征,使得RPN网络能够准确的获取对应类别对象的位置,另外使用类似SE block的squeeze and co-excitation模块来根据查询图片加强对应的特征纬度,最后结合margin based ranking loss达到了state-of-the-art,论文创新点满满。

  • 论文地址: https://arxiv.org/abs/1911.12529

  • 代码地址: https://github.com/timy90022/One-Shot-Object-Detection


  • 论文认为,人类能够在图片中找出模版对应的物体,是因为人类具备将像素分组,提取独特特征比对以及专注定位的能力。因此,论文希望提出一个具备人类视觉功能的网络来解决one-shot目标检测的问题,给予网络一张未见过的查询模版(query image),然后在目标图片(taget image)中找出其位置。论文提出的one-shot目标检测算法的特征主要来自两种上下文信息:

  • 目标图片能够提供 空间上下文,对比其它前景物体和背景来找出特殊对象的位置

  • 目标图片和查询图片能够提供类别上下文,而确切的类别层次则是由模版和目标对象的相同属性(颜色,纹理,形状等)决定的


度量学习(Metric learning)是one-shot分类问题的关键,但不能直接简单地将学习到的度量方法应用到one-shot目标检测中,因为检测器需要先知道哪块区域最有可能包含目标才能进行比较。另外,目标追踪可以认为是少样本目标检测的一个特殊案例,区别在于,少样本目标检测的目标图片中不一定包含查询图片,并且允许图片之间存在明显的外观差异,只要他们有公共的特征进行归类即可。论文推出新的机制squeeze and co-excitation(CoAE)来同时强化新类别对象在查询图片和目标图片上的特征,实验证明,CoAE框架能更好地发掘空间和类别上下文信息,带来很好的性能提醒
方法
定义数据集的类别标签集合为 ,进一步将其分为 ,分别用于训练和测试。少样本目标检测的流程定义为,给予查询图片 ,为 集合的一个类别对象,测试就是查找目标图片 所有对应的对象,假设每张可用的图片包含至少一个查询对象。

论文的主要架构如1,主要包含4个部分,分别是前面的基础特征提取,然后是Non-local feature的提取,用于提取共同特征,接着是论文提出的squeeze and co-excitation(CoAE)模块,用于强化目标channel,最后是metric模块,用于最好的分类。

Non-local object proposals

定义训练集为 ,包含 类别的bbox,论文采用Faster R-CNN架构进行检测,这会带来一个基础问题,即RPN能否检测出未训练过的类别( )的bbox。由于 类别与 类别可能存在十分明显的区别,因此,RPN不一定能检测出 的bbox。为了解决这个问题,论文引入non-local operation来优化卷积特征,non-local operation是一种类似attention的操作,能够根据参考输入来强化目标输入上的特征分布,具体可以看 Non-local neural networks

为目标图片, 为查询图片,目标图片的主干网络输出为 ,查询图片的输出为 。将 作为参考输入, 的non-local block输出为 ,同样的,以 作为参考输入,可以得到 之间的相互non-local operations可以认为进行co-attention机制
两个扩展的特征图可以表示为公式1和公式2, 是element-wise sum。由于 不仅包含了目标图片的特征,还包含了 加权特征,所以将RPN接在这层特征上能够发现更多关于查询图片 的信息,从而获取更高质量的bbox,即non-local region proposals更适合少样本目标检测

Squeeze and co-excitation

除了关联region proposals和查询图片外,co-attention机制产生了channel数一样的两组特征 ,而这两组特征可以通过论文提出的squeeze-and-co-excitation(SCE)来根据查询图片 对N个channel进行自适应重新加权。具体地,squeeze步骤通过GAP(global average pooling)概括了每一个特征图,而co-excitation则同时对 进行channel纬度的特征加强,重点加强对最后相似度度量有用的特征。在squeeze层和co-excitation层之间,放置了两个fc/MLP层,跟SE block设计一样
SCE operation如公式3, 为重新加强后的特征图, 是co-excitation向量,而 表示element-wise product
通过公式3,查询图片 可以表示为公式4,同样RPN提取的区域特征 可以同样得出,例如对 的裁剪区域进行channel-wise的GAP

Proposal ranking

论文设计了一个两层MLP网络M,以二分类softmax结尾,RPN根据查询图片 选出K个bbox,K一般为128。在训练阶段,K个bbox会根据IoU是否大于0.5分成前景(label 1)和背景(label 0),接着使用margin-based ranking loss来指导度量学习,使得最相关的bbox出现在bbox列表的前面。因此,论文将每个bbox的特征向量 分别和查询图片特征 进行concatenate,标记为 ,网络M的层输出分布
论文定义margin-based ranking loss为公式5,






请到「今天看啥」查看全文