专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
君姐深扒股市  ·  重磅:马斯克“报价900亿”买OPENAI! ·  昨天  
投资眼老A  ·  炸了,新的传闻! ·  昨天  
午间明道  ·  徐小明:稳中有升(0210) ·  3 天前  
午间明道  ·  徐小明:稳中有升(0210) ·  3 天前  
51好读  ›  专栏  ›  小白学视觉

【深度学习】卷积核的基本概况

小白学视觉  · 公众号  ·  · 2024-08-14 10:00

正文

点击上方 小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达


编者荐语

卷积核就是图像处理时,给定输入图像,输入图像中一个小区域中像素加权平均后成为输出图像中的每个对应像素,其中权值由一个函数定义,这个函数称为卷积核。

转载自作者丨计算机视觉与机器学习


什么是卷积核



在数学上,卷积核的标准定义是 两个函数在反转和移位后的乘积的积分:



其中,函数g一般称为 过滤器(filters) ,函数f指的是 信号/图像 。在卷积神经网络里,卷积核其实就是一个过滤器,但在深度学习里,它不做反转,而是直接 执行 元素的乘法和加法 ,我们把这个又称为 互相关 ,在深度学习里称为 卷积。


那为什么在图像处理上,需要进行卷积处理呢。实际上是借鉴于科学家的研究结果——上个世纪科学家就发现, 视觉皮层的很多神经元都有一个小的局部感受野,神经元只对有限区域的感受野上的刺激物做出反应 不同的感受野可以重叠,他们共同铺满整个视野。并且发现,一些神经元仅仅对横线有反应,有一些神经元对其他方向的线条有反应,有些神经元的感受野比较大 。因此, 高级别的神经元的刺激是源于相邻低级别神经元的反应


利用这个观点,经过不断的努力,逐渐发展成了现在的卷积神经网络。 通过卷积核提取图像的局部特征 ,生成一个个神经元,再经过深层的连接,就构建出了卷积神经网络。


我们已经知道,一个卷积核一般包括 核大小(Kernel Size) 步长(Stride) 以及 填充步数(Padding) ,我们逐一解释下。

卷积核大小 :卷积核定义了卷积的大小范围,在网络中代表感受野的大小,二维卷积核最常见的就是 3*3 的卷积核。一般情况下, 卷积核越大,感受野越大,看到的图片信息越多,所获得的全局特征越好 。但大的卷积核会导致计算量的暴增,计算性能也会降低。

步长 :卷积核的 步长代表提取的精度 , 步长定义了当卷积核在图像上面进行卷积操作的时候,每次卷积跨越的长度。对于size为2的卷积核,如果step为1,那么相邻步感受野之间就会有重复区域;如果step为2,那么相邻感受野不会重复,也不会有覆盖不到的地方;如果step为3,那么相邻步感受野之间会有一道大小为1颗像素的缝隙,从某种程度来说,这样就遗漏了原图的信息。

填充 :卷积核与图像尺寸不匹配,会造成了卷积后的图片和卷积前的图片尺寸不一致,为了避免这种情况,需要先对原始图片做边界填充处理。




卷积的通道形式


所谓的通道数,可以理解为 有多少张二维矩阵图


  • 单通道形式


对于具有1个通道的图像,下图演示了卷积的运算形式:


这里的filter是一个3*3矩阵, 步长是1,填充为0。filter在输入数据中滑动。在每个位置,它都在进行逐元素的乘法和加法。每个滑动位置以一个数字结尾,最终输出为3 x 3矩阵。


  • 多通道形式


多通道也很容易理解,最典型的就是处理彩色图片,一般有三个通道(RGB):



实际上,一个filter也可以包含多个矩阵,也即kernels,比如一个包含三个kernels的filter,对于输入是三个通道的图像:



这里输入层是一个5 x 5 x 3矩阵,有3个通道,filters是3 x 3 x 3矩阵。首先,filters中的每个kernels分别应用于输入层中的三个通道,执行三次卷积,产生3个尺寸为3×3的通道。


然后, 将这三个通道相加(逐个元素相加)以形成一个单个通道(3 x 3 x 1),该通道是使用filters(3 x 3 x 3矩阵)对输入层(5 x 5 x 3矩阵)进行卷积的结果:



由此,我们引出卷积核的另外一个参数—— 输入输出通道数。

输入和输出通道数 :卷积核的输入通道数由输入矩阵的通道数所决定(输入深度);输出矩阵的通道数由卷积核的输出通道数(卷积层深度,即多少个filters)所决定。




2D卷积与3D卷积



上面的多通道过程解释的详细点:

假设输入层有 Din 个通道,而想让输出层的通道数量变成 Dout,我们需要做的仅仅是将 Dout个filters应用到输入层中。每一个filters都有Din个卷积核,都提供一个输出通道。在应用Dout个filters后,Dout个通道可以共同组成一个输出层。


我们把上面的卷积过程称为 2D-卷积—— 通过使用Dout个filters,将深度为Din的层映射为另一个深度为Dout的层。





进一步,我们给出2D-卷积的公式:



特别的,对于卷积核,如果w=h=1,那么就退化为1*1卷积核,它具有以下三个优点:


  • 降维以实现高效计算

  • 高效的低维嵌入特征池

  • 卷积后再次应用非线性


下图是一个例子:



在一个维度为 H x W x D 的输入层上经过大小为 1 x 1 x D 的filters的 1 x 1 卷积,输出通道的维度为 H x W x 1。如果我们执行 N 次这样的 1 x 1 卷积,然后将这些结果结合起来,我们能得到一个维度为 H x W x N 的输出层。


通过将2D-卷积的推广,在 3D-卷积 定义为 filters的深度小于输入层的深度(即卷积核的个数小于输入层通道数)


因此,3D-filters需要在三个维度上滑动(输入层的长、宽、高)。在filters上滑动的每个位置执行一次卷积操作,得到一个数值。当filters滑过整个3D空间,输出的结构也是3D的:



2D-卷积和3D-卷积的主要区别为filters滑动的空间维度,3D-卷积的优势在于描述3D空间中的对象关系,它的计算过程是:






卷积核的种类



除了普通的卷积操作外,也有一些变种,本文我们先介绍概念,对于每一种卷积的作用,我们会再出文章介绍。


  • 转置卷积(反卷积)


一般正常卷积称为下采样,相反方向的转换称为上采样。 转置卷积是相对正常卷积的相反操作,但它只恢复尺寸 ,因为卷积是一个不可逆操作。下面通过一个例子来说明转置卷积的具体操作过程。


假设一个3*3的卷积核,其输入矩阵是4*4的形状,经过步长为1,填充为0的卷积结果为:




转置卷积过程为,第一步,将卷积核矩阵重新排列为4*16形状:



第二步,将卷积结果重新排列为1维行向量:



第三步,将重排矩阵转置后与行向量转置后相乘,得到16个元素的1维列向量:



第四步,对列向量进行重排为4*4的矩阵,得到最终结果:



这样就通过转置卷积将2x2的矩阵反卷为一个4x4的矩阵,但从结果也可以看出反卷积的结果与原始输入信号不同。只是保留了位置信息,以及得到了想要的形状。


  • 空洞卷积(扩张卷积)


空洞卷积也叫扩张卷积, 指的是 在正常的卷积核的点之间插入空洞 。它是相对正常的离散卷积而言的,对于步长为2,填充为1的正常卷积如下图:



插入空洞后,卷积过程变为:



空洞卷积通过 空洞率(dilation_rate) 控制,上图是空洞率为2的情况。



  • 可分离卷积


可分离卷积分为 空间可分离卷积 深度可分离卷积

空间可分离卷积有个前提条件,就是卷积核可以表示为两个向量的乘积:







请到「今天看啥」查看全文