卷积神经网络（CNN）与反向传播

人机与认知实验室 · 公众号 · · 2025-03-19 00:00

正文

卷积神经网络（CNN）是一种专门用于处理图像数据的深度学习模型，它的工作原理可以简单理解为以下几步：

1. 输入层：首先，把图像输入到网络中。图像在计算机里是以数字矩阵的形式存储的，比如一个灰度图像就是一个二维矩阵，每个元素代表一个像素的亮度值；彩色图像则是三个二维矩阵（分别对应红、绿、蓝三种颜色通道）堆叠成的三维矩阵。

2. 卷积层：这是CNN的核心部分。卷积层里有很多卷积核（也叫滤波器），它们就像是一个个小放大镜，在图像上滑动，每次聚焦在一小块区域，通过计算该区域像素值与卷积核对应位置数值的乘积和，来提取图像的局部特征。比如，有的卷积核可能专门用来找图像中的边缘，有的可能找纹理等。经过卷积操作后，会得到新的矩阵，称为特征图，它保留了原图像中被卷积核捕捉到的特征信息。

3. 池化层：在卷积之后，通常会进行池化操作。池化的目的是进一步简化数据，降低计算复杂度，同时保留重要特征。常见的池化方法有最大池化和平均池化。比如最大池化就是在一个小区域内取最大值，平均池化就是取平均值。这样处理后，特征图的尺寸会变小，但关键特征依然被保留。

4. 全连接层：经过前面的卷积和池化操作，提取到了图像的各种特征。全连接层的作用就是把这些特征整合起来，进行分类或识别。它会把前面得到的所有特征展开成一维向量，然后通过权重和偏置的运算，计算出每个类别对应的概率值。比如在图像分类任务中，最后会输出图像属于各个类别的可能性。

5. 输出层：最后，输出层根据全连接层得到的概率值，确定图像最可能属于的类别，并输出结果。

举个例子，假如我们要用CNN识别一张猫的图片。图像输入后，卷积层的卷积核会提取出猫的轮廓、毛发纹理等特征，池化层简化这些特征数据，全连接层再综合判断这些特征，最后输出层给出这张图像是猫的概率很高，从而完成识别任务。

如果把卷积神经网络（CNN）的正向过程反过来处理，也就是从输出层开始，逆向地经过全连接层、池化层、卷积层，再回到输入层，这在深度学习中被称为反向传播（Backpropagation）。反向传播的主要目的是计算损失函数对各个网络参数的梯度，从而更新这些参数，使网络的性能得到优化。以下是对这个逆向过程的详细解释：

1.输出层

在正向过程中，输出层根据全连接层得到的概率值，确定图像最可能属于的类别。在反向过程中，首先需要计算输出结果与真实标签之间的误差，即损失函数的值。这个损失函数可以是均方误差（MSE）、交叉熵损失等，具体取决于任务类型（如分类任务通常使用交叉熵损失）。

2.全连接层

在正向过程中，全连接层将卷积层和池化层提取到的特征整合起来，进行分类或识别。在反向过程中，需要计算损失函数对全连接层权重和偏置的梯度。这通过链式法则实现，即先计算损失函数对全连接层输出的梯度，然后通过权重矩阵的转置与该梯度相乘，得到对全连接层输入的梯度。同时，还需要计算对权重和偏置的梯度，用于后续的参数更新。

卷积神经网络（CNN）与反向传播

正文

请到「今天看啥」查看全文