卷积神经网络(Convolutional neural networks, CNN, or Deep convolutional neural networks, DCNN)和大多数其他网络完全不同。它们主要用于图像处理,但也可用于其他类型的输入,如音频。卷积神经网络的一个典型应用是:将图片输入网络,网络将对图片进行分类。例如,如果你输入一张猫的图片,它将输出“猫”;如果你输入一张狗的图片,它将输出“狗”。
卷积神经网络倾向于使用一个输入“扫描仪”,而不是一次性解析所有的训练数据。举个例子,为了输入一张200 x 200像素的图片,你不需要使用一个有40000个结点的输入层。相反,你只要创建一个扫描层,这个输入层只有20 x 20个结点,你可以输入图片最开始的20 x 20像素(通常从图片的左上角开始)。一旦你传递了这20 x 20像素数据(可能使用它进行了训练),你又可以输入下一个20 x 20像素:将“扫描仪”向右移动一个像素。注意,不要移动超过20个像素(或者其他“扫描仪”宽度)。你不是将图像解剖为20 x 20的块,而是在一点点移动“扫描仪“。
然后,这些输入数据前馈到卷积层而非普通层。卷积层的结点并不是全连接的。每个结点只和它邻近的节点(cell)相关联(多靠近取决于应用实现,但是通常不会超过几个)。这些卷积层随着网络的加深会逐渐收缩,通常卷积层数是输入的因子。(所以,如果输入是20,可能接下来的卷积层是10,再接下来是5)。2的幂是经常被使用的,因为它们能够被整除:32,16,8,4,2,1。
除了卷积层,还有特征池化层。池化是一种过滤细节的方法:最常用的池化技术是最大池化(max pooling)。比如,使用2 x 2像素,取这四个像素中数值最大的那个。为了将卷积神经网络应用到音频,逐段输入剪辑长度的输入音频波。卷积神经网络在真实世界的应用通常会在最后加入一个前馈神经网络(FFNN)以进一步处理数据,这允许了高度非线性特征映射。这些网络被称为DCNN,但是这些名字和缩写通常是可以交换使用的。