01
导读
ACL2017 年中,腾讯 AI-lab 提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN)。
论文中提出了一种基于 word-level 级别的网络-DPCNN,由于 TextCNN 不能通过卷积获得文本的长距离依赖关系,而论文中 DPCNN 通过不断加深网络,可以抽取长距离的文本依赖关系。
实验证明在不增加太多计算成本的情况下,增加网络深度就可以获得最佳的准确率。
02
DPCNN 结构
究竟是多么牛逼的网络呢?我们下面来窥探一下模型的芳容。
03
DPCNN 结构细节
模型是如何通过加深网络来捕捉文本的长距离依赖关系的呢?
下面我们来一一道来。为了更加简单的解释 DPCNN,这里我先不解释是什么是 Region embedding,我们先把它当作 word embedding。
等长卷积
首先交代一下卷积的的一个基本概念。一般常用的卷积有以下三类:
假设输入的序列长度为n,卷积核大小为m,步长(stride)为s,输入序列两端各填补p个零(zero padding),那么该卷积层的输出序列为(n-m+2p)/s+1。
(1) 窄卷积(narrow convolution):
步长s=1,两端不补零,即p=0,卷积后输出长度为n-m+1。
(2) 宽卷积(wide onvolution) :
步长s=1,两端补零p=m-1,卷积后输出长度 n+m-1。
(3) 等长卷积(equal-width convolution):
步长s=1,两端补零p=(m-1)/2,卷积后输出长度为n。如下图所示,左右两端同时补零p=1,s=3。
池化
那么DPCNN是如何捕捉长距离依赖的呢?这里我直接引用文章的小标题——
Downsampling with the number of feature maps fixed。
作者选择了适当的两层等长卷积来提高词位 embedding 的表示的丰富性。然后接下来就开始 Downsampling (池化)。
再每一个卷积块(两层的等长卷积)后,使用一个 size=3 和 stride=2 进行 maxpooling 进行池化。
序列的长度就被压缩成了原来的一半。其能够感知到的文本片段就比之前长了一倍
。
例如之前是只能感知3个词位长度的信息,经过1/2池化层后就能感知6个词位长度的信息啦,这时把 1/2 池化层和 size=3 的卷积层组合起来如图所示。
固定 feature maps(filters) 的数量
为什么要固定
feature maps
的数量呢
?
许多模型每当执行池化操作时,增加
feature maps
的数量,导致总计算复杂度是深度的函数。
与此相反,作者对 feature map 的数量进行了修正,他们实验发现增加 feature map 的数量只会大大增加计算时间,而没有提高精度。
另外,夕小瑶小姐姐在知乎也详细的解释了为什么要固定
feature maps
的数量。有兴趣的可以去知乎搜一搜,讲的非常透彻。
固定了 feature map 的数量,每当使用一个
size=3
和
stride=2
进行
maxpooling
进行池化时,每个卷积层的计算时间减半(数据大小减半),从而形成一个金字塔。
这就是论文题目所谓的
Pyramid