专栏名称: 人机与认知实验室
北京邮电大学人机交互与认知工程实验室 联系方式:[email protected]
目录
相关文章推荐
51好读  ›  专栏  ›  人机与认知实验室

卷积神经网络(CNN)与反向传播

人机与认知实验室  · 公众号  ·  · 2025-03-19 00:00

正文

卷积神经网络(CNN)是一种专门用于处理图像数据的深度学习模型,它的工作原理可以简单理解为以下几步:

1. 输入层:首先,把图像输入到网络中。图像在计算机里是以数字矩阵的形式存储的,比如一个灰度图像就是一个二维矩阵,每个元素代表一个像素的亮度值;彩色图像则是三个二维矩阵(分别对应红、绿、蓝三种颜色通道)堆叠成的三维矩阵。


2. 卷积层:这是CNN的核心部分。卷积层里有很多卷积核(也叫滤波器),它们就像是一个个小放大镜,在图像上滑动,每次聚焦在一小块区域,通过计算该区域像素值与卷积核对应位置数值的乘积和,来提取图像的局部特征。比如,有的卷积核可能专门用来找图像中的边缘,有的可能找纹理等。经过卷积操作后,会得到新的矩阵,称为特征图,它保留了原图像中被卷积核捕捉到的特征信息。


3. 池化层:在卷积之后,通常会进行池化操作。池化的目的是进一步简化数据,降低计算复杂度,同时保留重要特征。常见的池化方法有最大池化和平均池化。比如最大池化就是在一个小区域内取最大值,平均池化就是取平均值。这样处理后,特征图的尺寸会变小,但关键特征依然被保留。


4. 全连接层:经过前面的卷积和池化操作,提取到了图像的各种特征。全连接层的作用就是把这些特征整合起来,进行分类或识别。它会把前面得到的所有特征展开成一维向量,然后通过权重和偏置的运算,计算出每个类别对应的概率值。比如在图像分类任务中,最后会输出图像属于各个类别的可能性。


5. 输出层:最后,输出层根据全连接层得到的概率值,确定图像最可能属于的类别,并输出结果。

举个例子,假如我们要用CNN识别一张猫的图片。图像输入后,卷积层的卷积核会提取出猫的轮廓、毛发纹理等特征,池化层简化这些特征数据,全连接层再综合判断这些特征,最后输出层给出这张图像是猫的概率很高,从而完成识别任务。


如果把卷积神经网络(CNN)的正向过程反过来处理,也就是从输出层开始,逆向地经过全连接层、池化层、卷积层,再回到输入层,这在深度学习中被称为反向传播(Backpropagation)。反向传播的主要目的是计算损失函数对各个网络参数的梯度,从而更新这些参数,使网络的性能得到优化。以下是对这个逆向过程的详细解释:

1.输出层


在正向过程中,输出层根据全连接层得到的概率值,确定图像最可能属于的类别。在反向过程中,首先需要计算输出结果与真实标签之间的误差,即损失函数的值。这个损失函数可以是均方误差(MSE)、交叉熵损失等,具体取决于任务类型(如分类任务通常使用交叉熵损失)。

2.全连接层


在正向过程中,全连接层将卷积层和池化层提取到的特征整合起来,进行分类或识别。在反向过程中,需要计算损失函数对全连接层权重和偏置的梯度。这通过链式法则实现,即先计算损失函数对全连接层输出的梯度,然后通过权重矩阵的转置与该梯度相乘,得到对全连接层输入的梯度。同时,还需要计算对权重和偏置的梯度,用于后续的参数更新。







请到「今天看啥」查看全文


推荐文章
科学网  ·  期末复习三大错觉
8 年前
法律读品  ·  那些一流的律师,到底强在哪里
7 年前