专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

旷视 | 大且高质量的数据集用于目标检测

计算机视觉研究院 · 公众号 · · 2019-12-16 08:02

正文

导读

今天，“计算机视觉”给大家介绍一个新的大型目标检测数据集Objects365，它拥有超过600,000个图像，365个类别和超过1000万个高质量的边界框。由精心设计的三步注释管道手动标记，它是迄今为止最大的对象检测数据集合（带有完整注释），并为社区创建了更具挑战性的基准。

摘要先前看

Objects365可用作更好的特征学习数据集，用于对位置敏感的任务，例如目标检测和分割。Objects365预训练模型明显优于ImageNet预训练模型：当在COCO上训练90K / 540K迭代时，AP改善了5.6（42 vs 36.4）/ 2.7（42 vs 39.3）。同时，当达到相同的精度时，可以大大减少微调时间（差异的10倍）。Object365的更好的泛化功能也已在CityPersons，VOC Segmentation和ADE中得到验证。我们将发布数据集和所有预先训练的模型。

目标检测是计算机虚拟环境中的一项基本任务。PASCAL VOC和COCO为目标检测的快速发展做出了巨大贡献。从DPM这样的传统方法到R-CNN和FPN等基于深度学习的方法，以上两个数据集用作“黄金”基准，以评估算法并推动研究的进行。今天我们分享的将进一步介绍了一种新的大规模、高质量的目标检测数据集Objects 365，主要集中在三个方面：规模、质量和泛化。

接下来我们来看看几处亮点：

SACLE

It's a Title Here

Objects365比现有的目标检测基准(如PASCAL和COCO)大得多。它包含365个类别、638K图像和10101K边框。

将数据集与现有的目标检测基准进行了比较，并在下表中给出了完整的注释。对于检测界来说，它可以作为一个更具挑战性的基准。

QUALITY

It's a Title Here

除了大小之外，在构建数据集时，注释质量也是非常重要的。为了保证标注的质量，将注释流水线划分为三个步骤，从而大大降低了注释器的作业要求。

除了注释员外，还包括检查人员和审查员，以审查注释的质量。为了减少注释过程中的歧义，应用了两个一致性规则。这个注释管道保证了高效率获得高质量的注释。

GENERALIZATION

It's a Title Here

从Objects365中学习到的特征优于诸如目标检测和语义分割之类的许多定位敏感的任务。传统上，ImageNet预先训练的诸如ResNet的Basenets被广泛地用作目标检测/分割算法的主干。

然而，与ImageNet预训练相关的两个问题。一方面，在ImageNet分类任务中学习到的特征不太敏感。另一方面，仅对主干部分进行预训练，但头部部分用随机权重初始化。

新的Objects365数据集直接解决了上述两个问题，并为特性学习提供了更好的选择。如下图所示，Objects 365预训练的特性可以显著优于基于ImageNet，即使是有足够长的训练时间(540K迭代)的特性。

此外，利用Objects365特征，可以在一个数量级的训练时间内获得类似的结果。

Annotation Pipeline

注解者几乎不可能记住并注释所有365个类别。此外，少数图像应该被拒绝，因为图标图像或图像没有365个目标类别。在已有的ImageNet和COCO等数据集的激励下，以及 * 中对可扩展多类注释的讨论，我们按照以下三个步骤设计了我们的注释流程。

* Jia Deng, Olga Russakovsky, Jonathan Krause, Michael S Bernstein, Alex Berg, and Li Fei-Fei. Scalable multi-label annotation. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, pages 3099–3102. ACM, 2014

第一步执行两类分类。如果图像是非标志性的，或者在11个超级类别中至少包含一个目标实例，那么它将被传递到下一个步骤；在第二步中，包含11个超级类别的图像级标记将被标记，可以用多个标签标记图像；在第三步中，将分配一个注释器将目标实例标记在一个特定的超级类别中。属于超级类别的所有目标实例都应与目标名称一起用边框标记。

如上图所示，基于所建议的注释流程，每个注释器只需熟悉一个超级类别中的目标类别，而不是所有365个对象类别。这不仅提高了标注效率，而且提高了标注质量。

Classification Rule

它为标签中的歧义情况定义了明确的优先顺序和function 优先原则。例如，在上图左边，可以将对象视为“龙头”或“茶壶”。根据我们的分类规则，我们使用function优先原则，在这种情况下，对象将被标记为“TAP”。