专栏名称: 深度学习与神经网络
关注深度学习教育,关注人工智能前沿科技
目录
相关文章推荐
云南气象  ·  明天云南天气转晴 东部边缘会出现霜冻天气 ·  3 天前  
云南新闻网  ·  昆明-上海只要53.5元!春运2折火车票开售 ... ·  5 天前  
云南网  ·  刚刚,青海一地发生5.5级地震! ·  6 天前  
掌上春城  ·  全国首个!就在昆明! ·  6 天前  
云南日报  ·  楚雄州人大常委会通过任免名单 ·  6 天前  
51好读  ›  专栏  ›  深度学习与神经网络

YOLO模型介绍

深度学习与神经网络  · 公众号  ·  · 2017-09-17 21:46

正文

YOLO将目标检测设计为一个对空间上独立的边界框和相关联的类别概率的回归问题。在预测期间,使用一个单独的神经网络直接对整个图像预测边界框和类别概率。作用于整个图像可以学习到更加综合的物体特征,单独的神经网络结构可以对识别性能进行端对端优化。


1.测试策略


在测试期间使用YOLO识别图像中目标的过程是简单而且直接的。过程示意图见图1。


(1)调整输入图像的大小为448*448

(2)在图像上作用一个单独的卷积网络

(3)通过模型的置信度对检测结果进行阈值化

图1  YOLO测试过程示意图


该单独的神经网络通过整个图像的特征来预测全部类别的边界框。这意味着该网络可以对整个图像和图像中的全部物体进行全局概括。


YOLO的设计可以实现端对端的训练,保证高准确率的同时可以实现实时速度。


系统将输入图像划分为一个S*S大小的网格。如果待识别物体的中心落入一个网格单元中,那么这个网格单元就负责检测这个物体。


每一个网格单元预测B个边界框和这些边界框的置信度分数。这个置信度分数反映了边界框包含一个物体的可能性和该模型中预测的边界框的准确度。将置信度的形式定义为。


如果在这个单元中不存在物体,那么置信度分数为零。否则,置信度分数等于预测边界框和真实边界框的交叉部分。

每一个边界框包含5个预测值,即x、y、w、h和置信度。其中(x,y)坐标表示相对于网格单元来书边界框的中心点。宽度w和高度h是相对于整个图像进行预测。最后置信度预测值表示边界框和任何真实边界框之间的交叉部分,即该边界框中存在待见测物体的可能性。


每一个网格单元还要预测c个假定类别的可能性,Pr(Classi|Object)。这些可能性是受制于包含物体的网格单元。预测过程示意图见图2。

在测试期间,将假定类别可能性和边界框的置信度预测相乘.

上式可以得到每个边界框特定类别的置信度分数。


图2 预测过程示意图


2.网络结构


YOLO模型使用一个卷积神经网络来实现,网络最初的卷积层从图像提取特征,全连接层预测输出的概率和坐标。网络有24个卷积层,随后有2个全连接层。网络结构如图3。


图3 YOLO神经网络结构


YOLO 在ImageNet 1000-class的分类任务数据集上进行预训练。预训练的网络是图3中网络的前20层卷积层,加上一个平均池化层和一个全连接层。然后转变模型来实现检测。


由于给预训练模型加卷积层和连接层能够提高性能,所以增加了带有初始化随机权重的4个卷积层和2个全连接层。检测通常需要细密纹理的视觉信息,所以将网络的输入分辨率从224*224提高到448*448。


在网络的最后一层使用一个线性激活函数,其他层使用下面的修正线性激活函数,公式如下


3.目标损失函数


模型的目标函数输出综合平方误差,其容易优化,但是它并没有和最大化准确率的目标完美匹配。它将定位误差和类别误差相等的衡量,但是这是不合理的。另外,在每个图片中,许多的网格单元并不包含任何物体。这些单元的置信度分数为零,这些不包含物体的网格单元的梯度更新,将会以压倒性的优势覆盖掉包含物体的网格单元进行的梯度更新。这些问题会使得模型不稳定,造成网络早早发散。


为了纠正上述的问题,增加边界框坐标的损失,降低了不包含物体的边界框的置信度预测值的损失。 


综合平方误差函数将大边界框和小边界框的误差同等看待,为了修正这个问题,用边界框高度宽度的平方根来代替直接预测高度和宽度。


在训练期间,对每一个物体只想要一个边界框负责预测。基于和真实标签框最高的重叠交叉的要求指派一个负责的边界框来预测物体。


损失函数如下:



4.模型训练参数设置


在训练期间,进行大约135阶段,训练数据集和验证数据集均来自PASCAL VOC 2007和2012。当在2012数据集上进行测试时,训练集也包括了VOC2007的测试数据。


在训练中,批次大小为64,动量为0.9,衰退量为0.0005。


学习率设置如下:第一阶段将学习率慢慢从增加到。如果开始使用一个大的学习率,模型通常会因为不稳定的梯度而发散。使用的学习率继续训练75个阶段,然后学习率设为训练30个阶段,最后学习率为训练30个阶段。


快,关注这个公众号,一起涨姿势~


推荐文章
云南网  ·  刚刚,青海一地发生5.5级地震!
6 天前
掌上春城  ·  全国首个!就在昆明!
6 天前
云南日报  ·  楚雄州人大常委会通过任免名单
6 天前
半导体行业观察  ·  关于iPhone 7 Plus双摄像头的最强解读
8 年前
酱子工厂  ·  姑娘们真能折腾!笑抽
8 年前
山西老乡俱乐部  ·  【山西早知道】-2017.3.25
7 年前