专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

目标检测新框架：大幅度提升检测精度（附源代码下载）

计算机视觉研究院 · 公众号 · · 2024-09-24 10:08

正文

计算机视觉研究院专栏

作者：Edison_G

目标检测中，点特征使用方便，但可能缺乏精确定位的明确边界信息。这个干货我觉得不错，在此和大家分享下！

公众号ID ｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

简述

密集物体检测器依赖于滑动窗口范式，可以在规则的图像网格上预测物体。同时，采用网格点上的特征图来生成边界框预测。点特征使用方便，但可能缺乏精确定位的明确边界信息。

在今天分享中，有研究者提出了一种简单高效的算子，称为 Border-Align ，从边界的极值点提取“ 边界特征 ”以增强点特征。基于BorderAlign，研究者设计了一种称为BorderDet的新型检测架构，它明确利用边界信息进行更强的分类和更准确的定位。

背景

Sliding Window

滑窗法作为一种经典的物体检测方法，个人认为不同大小的窗口在图像上进行滑动时候，进行卷积运算后的结果与已经训练好的分类器判别存在物体的概率。选择性搜索(Selective Search) 是主要运用图像分割技术来进行物体检测。

通过滑窗法流程图可以很清晰理解其主要思路：首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率，则认为检测到了物体。对每个不同窗口大小的滑窗都进行检测后，会得到不同窗口检测到的物体标记，这些窗口大小会存在重复较高的部分，最后采用非极大值抑制( Non-Maximum Suppression, NMS )的方法进行筛选。最终，经过NMS筛选后获得检测到的物体。

新框架分析

滑动窗口目标检测器通常在密集的、规则的特征图网格上生成边界框预测。如上图所示，网格每个点上的特征一般用于预测目标的类别和位置。这种基于点的特征表示很难包含有效的边界特征，并且可能会限制目标检测器的定位能力。对于两阶段目标检测器，目标由从整个边界框中提取的区域特征来描述，如上图(b)所示。这种基于区域的特征表示能够为目标分类和定位提供比基于点的特征表示更丰富的特征。

在上表中，研究者对边界框的特征表示进行了更深入的分析。首先，采用一个简单的密集目标检测器（FCOS）作为新框架的基线来生成粗边界框预测。

Border Align

受R-FCN的启发，新框架的BorderAlign以具有(4 + 1)C通道的边界敏感特征图I作为输入。特征图的4C通道对应四个边界（左、上、右、下）。

border-sensitive特征图可视化

边界上的橙色圆圈表示极值点。'Single Point', 'Left Border', 'Top Border', 'Right Border' 和 'Bottom Border'的特征图是边界敏感特征图的每个 C 通道的最大特征值。

新方法也可以作为典型的两级检测器的更好的候选生成器。研究者将边界对齐模块添加到RPN并将新结构表示为BorderRPN。BorderRPN的架构如上图所示。保留RPN中的回归分支来预测粗边界框位置。RPN中的第一个3 × 3卷积被替换为3 × 3空洞卷积以增加有效感受野。

实验

在NVIDIA 2080Ti GPU上的测试结果

在某种程度上，可证明BorderAlign确实在提取边界极限的特征，且边界极限点的特征对物体的精准定位确实有一些帮助。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

计算机视觉研究院 主要涉及 深度学习 领域，主要致力于 人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等 研究方向。 研究院 接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重” 研究 “。之后我们会针对相应领域分享实践过程，让大家真正体会 摆脱理论 的真实场景，培养爱动手编程爱动脑思考的习惯！

目标检测新框架：大幅度提升检测精度（附源代码下载）

正文

请到「今天看啥」查看全文