专栏名称: 深度学习与图网络

关注图网络、图表示学习，最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

大多数人并不完全理解 Dropout 是如何运作的

深度学习与图网络 · 公众号 · · 2024-02-20 21:19

正文

来源：知乎-骞先生

地址：https://zhuanlan.zhihu.com/p/680112242

我在面试算法岗位候选人的时候，比较喜欢问应用ML方面的问题。

然而，也有一些概念性的问题，比如下面这个，我就经常爱问：

Dropout是如何运作的？

很简单，对吧？

显然，每个候选人都会给我一个不完整的答案，我将在下面提到：

候选人的回答

简言之，Dropout就是将神经网络中的神经元随机归零。这样做是为了规范网络。

Dropout仅在训练期间应用，哪些神经元激活归零是使用伯努利分布决定的：

我的后续问题：好的，完美！我们在Dropout中还会做其他的动作吗？

候选人：不，就是这样。我们只将神经元归零并像平常一样训练网络。

当然，我不能说上述回答不正确。他们其实是正确的。

然而，这只是Dropout工作原理的50%，令人失望的是，大多数资源并没有涵盖剩下的50%。

如果您也只知道我上面提到的50%细节，那么请继续阅读，因为有新信息可供您使用。

Dropout实际上是如何运作的？

首先，我们必须注意Dropout仅在训练期间应用，而不在推理/评估阶段应用：

现在，考虑一个神经元的输入是使用前一个隐藏层中的100个神经元计算的：

为了简单起见，我们假设一些事情：

每个黄色神经元激活后的值为1。
从黄色神经元到蓝色神经元的边权重也是1。

结果，蓝色神经元收到的输入将为100，如下所示：

好，现在，在训练过程中，如果我们使用了Dropout，例如40%的dropout率，那么大约40%的黄色神经元激活将被清零。

结果，蓝色神经元收到的输入约为60，如下所示：

不过，以上观点只在训练阶段。

如果在推理阶段存在相同的场景，那么蓝色神经元收到的输入将为100。

因此，在相似条件下：

训练起见收到的输入：60。
推理期间收到的输入：100。

问题来了：

在训练期间，平均神经元输入明显低于推理期间收到的输入。

更正式地说，使用Dropout会显著影响激活的规模。

然而，我们希望整个模型中的神经元在训练和推理期间必须接受大致相同的激活平均值（或期望值）。

为了解决这个问题，Dropout执行了一个额外的步骤。

这个想法是在训练期间缩放剩余的主动输入。

最简单的方法是将训练期间的所有激活缩放一个因子1/(1-p)，其中p是dropout率。

例如，在神经元输入60上使用此技术，我们将得到以下结果（假设我们的dropout率为40%）：

如上所述，缩放神经元输入使其达到所需的范围，这使得网络的训练和推理阶段保持一致。

实验验证

事实上，我们可以使用PyTorch来验证Dropout确实执行了此步骤。

让我们定义一个dropout层，如下所示：


import torchimport torch.nn as nn
dropout_layer = nn.Dropout(0.2)

现在，我们考虑一个随机张量并将该dropout层应用于它：


dropout_layer.train()
x=torch.rand((1, 5))# tensor([[0.94, 0.13, 0.93, 0.59, 0.86]])

请到「今天看啥」查看全文

推荐文章

药物临床试验网 · 分享 ▎临床试验中遗传办流程及要求详解

3 天前

内蒙古药闻 · 国家药监局药审中心关于发布《生物制品注册受理审查指南（试行）》的通告

19 小时前

药渡 · 有望成为首款！潜在重磅小分子疗法今年可能获批

2 天前

游戏茶馆 · 终于等到你！《三角洲行动》“黑鹰坠落”剧情模式官宣定档

昨天

苏州市场监管 · 好消息！市药检中心获批国家市场监管总局重点科研项目

昨天

苏州市场监管 · 好消息！市药检中心获批国家市场监管总局重点科研项目

昨天

平说 · 少沉迷中国历史，多了解世界文明

8 年前

极客公园 · 热闹的双 11 结束了，PC 却彻底沦为「弃儿」

8 年前

美美娱乐 · 井柏然白百何再续前缘《捉妖记2》主演阵容曝光！更曝群星聚集！

8 年前

雷峰网 · 华为智慧工程部长张宝峰：人工智能产业化的 4 大趋势｜CITE 2017

7 年前

中国房地产报 · 25周年祝福丨孟晓苏：中国房地产报为推动房地产业发展起了应有作用

7 年前