专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

资源 | Geoffrey Hinton多伦多大学演讲：卷积神经网络的问题与对策

机器之心 · 公众号 · AI · 2017-08-20 14:06

正文

选自Youtube

机器之心编译

参与：黄小天

近日，神经网络之父 Geoffrey Hinton 又奉献了一次精彩的深度学习演讲，地点在多伦多大学，主题是《What is wrong with convolutional neural nets?》。在演讲中，Hinton 指出，当前的卷积神经网络存在的一个主要是问题是结构层次过于简单，只有神经元、层、网络三个层级；同时 Hinton 也给出了相应的对策，即 capsule，其灵感来自迷你列。机器之心对演讲内容作了扼要介绍，详细内容请见文中的视频。

神经网络之父、深度学习鼻祖 Geoffrey Hinton 这次在加拿大多伦多大学的演讲主题为《卷积神经网络存在哪些问题？（What is wrong with convolutional neural nets?）》。

在 Hinton 看来，时下流行的「标准」神经网络存在如下问题：

神经网络的结构层次过于简单

只有神经元、层、网络三个层级

我们需要把每一层的神经元组织成「capsules」（胶囊），capsule 可做大量的内部计算，接着输出一个压缩的结果

capsule 的灵感来自于迷你列（mini-column）

那么，capsule 所表征的是什么呢？其包含三个方面的内容：

每个 capsule 表征其检测类型的多维实体的存在和实例化参数。
比如，在视觉路径中，capsule 检测物体或部分物体的特定类型。
capsule 输出两样东西：

所属类型的物体存在的概率。
物体的广义姿态，比如位置、方向、大小、形变、速率、颜色等。

capsule 的作用是过滤巧合：

一个典型的 capsule 接收下一层 capsule 的多维预测向量，并寻找一个紧密的预测集群。
如果它找到了这个紧密集群，就会输出：

其类型实体存在于该领域的一个很高的概率。
集群引力的中心即是那个实体的广义姿态。

这非常擅长过滤噪音，因为高维度巧合并不会偶然发生。

capsule 要好于通常的「神经元」。

那么现在，包括 Yann LeCun 和绝大多数人在内，他们是如何使用卷积神经网络进行物体识别的呢？

卷积网络使用多层的学习特征检测器。（好）
卷积网络中，特征检测器是本地的，并且每种类型的检测器可在空间中复制。（好）
卷积网络中，特征检测器的空间域在更高的层中变的更大。（好）
特征提取层与子采样层相交错，后者池化了同一类型中相近的特征检测器的输出。（差）

上面讲到，我们结合了复制的特征检测器的输出，为什么这样做：

1. 池化为每一层级带来了少量的平移不变性。

最活跃的特征检测器的精确定位已被抛弃。
如果池之间重合太多，或者特征编码了其他特征（Ullman）的相对位置，也许这没什么问题。

2. 池化减少了特征提取的下一层的输入数量。

这允许我们在下一层有更多的特征类型（带有更大的域）。

当前的卷积网络具有什么样的感知（percept）呢？

深度卷积网络最后一个隐藏层中的激励值是一个感知。

感知包含图像中很多物体的有关信息。
但是，物体之间的关系呢？卷积网络并没有对关系进行训练。
让我们在此先试着提出这一问题，也许人工认知科学可以解答。

把感知映射到一个深度卷积神经网络的初始隐藏层，并训练 RNN 输出注解（无需再训练卷积网络）。

下面，我们接着看一下池化；目前关系池化，存在四个主要的争论：

池化与图形感知心理学不切合。它并没有解释为什么人类内在的坐标框可适用于物体，并如此有效。
池化解决了错误的问题。我们想要的是均等性而不是不变性，是解开而不是丢弃。
池化未能利用潜在的线性结构。它没有利用可完美处理图像中最大变动来源的自然线性流形。
池化很不擅长处理动态路由选择。我们需要把输入的每一部分路由到知道如何处理它的神经元。发现最佳的选路等同于解析图像。

我们举一个实例来说明关于池化的第一个争论。四面体拼图是一个很好的例子，它证明人类本自具有的坐标框的强大力量。如何把一个实心的四面体用平面切成两半呢？再把切成两半的四面体重新拼成一个完整的四面体有多难呢？对于绝大多数人来说，几分钟就可以搞定。证明内在坐标框的实例还有不少，比如心理旋转（mental rotation）。

第二个争论是关于均等性与不变性。卷积神经网路尝试通过结合池中的活动来使神经活动对视图（viewpoint）的小变化保持不变。不过这是一个错误的目标，其动机基于以下事实：最后的标签需要是视图不变的。

所以，最好是以均等性为目标，视图中的变化导致了神经活动中的相应变化。在知觉系统中，编码视图不变性知识的是权重而不是神经活动。

均等性有两种，一种是按位置编码的均等性（「place-coded」equivariance），一种是按速率编码的均等性（「rate-coded」equivariance）。前者是指如果一个低级的部分移动到一个非常不同的位置，它将被一个非常不同的 capsule 被表征；后者是指如果一个部分移动了较短距离，它将由相同的 capsule 被表征，但是 capsule 的姿态输出将被改变。跟高级的 capsule 有更大的域，因此低级的按位置编码的均等性将会转化为高级的按速率编码的均等性。

第三个争论是关于将图形识别推算到非常不同的视图。当前的神经网络的理念是从不同的视图中学习不同的模型，不过这需要大量的训练数据。还存在一种更好的办法：具有相同的刚性图形的图像流形在像素强度空间中是高度非线性的。我们可以转换到一个流形全部是线性的空间。这使得大量的推断成为了可能。

我们可以通过计算图使用的全局线性流形来泛化视图。图编程使用分级模型，其中空间结构通过矩阵建模，这些矩阵表征从嵌入整体的坐标框到嵌入每一部分的坐标框的转换。这些矩阵不是全部视图不变的。这一表征使得从一个部分与摄像头的关系中计算一个整体与摄像头之间的关系变的容易起来。这仅仅是一个矩阵相乘！

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：[email protected]

投稿或寻求报道：[email protected]

广告&商务合作：[email protected]