1.引言
随着2012年Hiton的文章《ImageNet classification with deep convolutional neural networks》[1]的问世,掀开了学术界深度学习快速发展的序幕;而阿法狗打败世界顶级棋手李世石后,再次经过一年多的“深山老林修炼”,强化后完胜世界围棋冠军柯洁,让人们感受到了人工智能的发展速度与工业化进程的到来。目前深度学习在很多领域的都吸引众多研究者的注意,比如目标识别、语言识别、目标检测、图像分类等,深度学习在这些领域以自动提取特征的能力表现出优异的性能。
深度学习较传统网络而言,使用的是一个非常深层的神经网络,并采用大数量的数据集。因此,在这个过程中会面临一个严峻的问题——过拟合。什么是过拟合呢?打个比方,高考前各种刷题全部能做对但理解的不好,很多答案都是强行背下来的,但是一到考场,题目稍微变一点,整个人就懵了。这是因为对于机器而言,使用算法学习数据的特征时候,样本数据的特征可以分为局部特征和全局特征,全局特征就是任何你想学习那个概念所对应的数据都具备的特征,而局部特征则是你用来训练机器的样本里头的数据专有的特征。机器在学习过程中是无法区别局部特征和全局特征的,于是机器在完成学习后,除了学习到了数据的全局特征,也可能学习得到一部分局部特征,而学习的局部特征比重越多,那么新样本中不具有这些局部特征但具有所有全局特征的样本也越多,于是机器无法正确识别符合概念定义的“正确”样本的几率也会上升,也就是所谓的“泛化性”变差,这是过拟合会造成的最大问题。
那么为了避免过拟合的出现,通用的做法是在算法中使用正则化,这也是Hinton在文献[2]中提出的技巧“(dropout learning)”。“丢弃学习”包含两个步骤:在学习阶段,是以概率p忽略掉一些隐藏节点,这一操作减小了网络的大小;而在测试阶段,将学习的节点和那些没有被学习的节点求和后并乘以丢弃概率p计算得到网络的输出。我们发现可以将学习到的节点与没有学习的节点求和相乘概率p这一过程看作是集成学习。
集成学习(Ensemble Learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法,相对于单个分类器作为决策者,集成学习的方法就相当于多个决策者共同进行一项决策。可以看到,这与分而治之地把问题分解成若干个子问题,然后再想办法从个别解综合求得整体解是不同的。集成学习的处理过程是不是有点熟悉?是不是与丢弃学习类似?下面将具体分析如何将丢弃学习看成是集成学习。
2.模型
本文中使用的模型是老师-学生模型,并假设存在一个老师网络(teacher)能够使得学生网络(student)产生最优输出。下面介绍一些构造的老师及学生模型,并引入梯度下降算法。
原文链接:
https://m.aliyun.com/yunqi/articles/110002