专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

Trans论文 | Proposal Learning用于半监督的目标检测

计算机视觉研究院 · 公众号 · · 2020-02-14 09:08

正文

春暖

花开

今年的疫情给大家带来了很多的不便，但是我们“计算机视觉战队”依然坚守自己岗位，给关注我们的同学带来新的分享，今年我们大家一起加油！今天我们主要还是说一说目标检测的知识，这个框架主要来源于TRANS顶级期刊。

概要

这次分享的以半监督目标检测为研究对象，通过对有标签和无标签数据的训练，提高了基于候选的目标检测器（即two-stages目标检测器）的检测精度。然而，由于真值标签的不可用性，在未标记的数据上训练目标检测器是非常重要的。

为了解决这个问题，于是就提出了一个 proposal learning方法从标记和未标记的数据中学习候选的特征和预测。该方法由自监督候选学习模块和基于一致性的候选学习模块组成。在自监督候选学习模块中，分别提出了一个候选位置损失和一个对比损失来学习上下文感知和噪声鲁棒的候选特征；在基于一致性的候选学习模块中，将一致性损失应用于候选的边界框分类和回归预测，以学习噪声稳健的候选特征和预测。

最后，在COCO数据集上对所有可用的有标签和无标签数据进行了实验。结果表明，新方法一致地提高了全监督基线的精度。特别是在结合了数据蒸馏之后，新方法与全监督基线和数据蒸馏基线相比，平均提高AP约2.0%和0.9%。

新框架

Problem Definition

在半监督目标检测（ Semi-Supervised Object Detec-

tion (SSOD) ）中，一组标记数据D_l={（I，G）}和一组给出了未标记数据的D_u={I}，其中I和G分别表示图像和真值标签。在目标检测中，G由一组具有位置和目标类的对象组成。SSOD的目标是训练目标检测器，包括标记数据D_l和未标记数据D_u。

The Overall Framework

对于每一个标记数据（I，G）∈D_l，根据标准的全监督损失定义训练目标检测器是简单的，如下公式：

其中第二项分别表示RPN损失和R-CNN损失。该损失在反向传播过程中优化θb、θrpn、θr-cnn、θcls、θreg去训练目标检测器。有关损失函数的更多详细信息，请参见：

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6):1137–1149, 2017

将上面公式中定义的标准全监督损失应用于标记数据dL，将自监督候选学习损失Lself和基于一致性的候选学习损失Lcons应用于未标记数据dU。通过优化反向传播过程中的损失方程中的θb，θrpn，θr-cnn，θcls，θreg，θself，对目标检测器进行了训练：