专栏名称: 人工智能头条
专注人工智能技术前沿、实战技巧及大牛心得。
目录
相关文章推荐
爱可可-爱生活  ·  【[286星]Pocket Flow ... ·  昨天  
爱可可-爱生活  ·  【[157星]YOLOE:实时“看见”一切的 ... ·  昨天  
爱可可-爱生活  ·  [CL] A Survey on ... ·  2 天前  
宝玉xp  ·  //@刘群MT-to-Death:虽然对强化 ... ·  2 天前  
51好读  ›  专栏  ›  人工智能头条

一文看懂深度文本分类之 DPCNN 原理与代码

人工智能头条  · 公众号  · AI  · 2019-02-11 19:11

正文


01

导读

ACL2017 年中,腾讯 AI-lab 提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN)。

论文中提出了一种基于 word-level 级别的网络-DPCNN,由于 TextCNN 不能通过卷积获得文本的长距离依赖关系,而论文中 DPCNN 通过不断加深网络,可以抽取长距离的文本依赖关系。

实验证明在不增加太多计算成本的情况下,增加网络深度就可以获得最佳的准确率。‍

02

DPCNN 结构

究竟是多么牛逼的网络呢?我们下面来窥探一下模型的芳容。

03

DPCNN 结构细节

模型是如何通过加深网络来捕捉文本的长距离依赖关系的呢? 下面我们来一一道来。为了更加简单的解释 DPCNN,这里我先不解释是什么是 Region embedding,我们先把它当作 word embedding。

等长卷积

首先交代一下卷积的的一个基本概念。一般常用的卷积有以下三类:

假设输入的序列长度为n,卷积核大小为m,步长(stride)为s,输入序列两端各填补p个零(zero padding),那么该卷积层的输出序列为(n-m+2p)/s+1。

(1) 窄卷积(narrow convolution): 步长s=1,两端不补零,即p=0,卷积后输出长度为n-m+1。

(2) 宽卷积(wide onvolution) : 步长s=1,两端补零p=m-1,卷积后输出长度 n+m-1。

(3) 等长卷积(equal-width convolution): 步长s=1,两端补零p=(m-1)/2,卷积后输出长度为n。如下图所示,左右两端同时补零p=1,s=3。

池化

那么DPCNN是如何捕捉长距离依赖的呢?这里我直接引用文章的小标题—— Downsampling with the number of feature maps fixed。

作者选择了适当的两层等长卷积来提高词位 embedding 的表示的丰富性。然后接下来就开始 Downsampling (池化)。

再每一个卷积块(两层的等长卷积)后,使用一个 size=3 和 stride=2 进行 maxpooling 进行池化。 序列的长度就被压缩成了原来的一半。其能够感知到的文本片段就比之前长了一倍

例如之前是只能感知3个词位长度的信息,经过1/2池化层后就能感知6个词位长度的信息啦,这时把 1/2 池化层和 size=3 的卷积层组合起来如图所示。

固定 feature maps(filters) 的数量

为什么要固定 feature maps 的数量呢 ? 许多模型每当执行池化操作时,增加 feature maps 的数量,导致总计算复杂度是深度的函数。 与此相反,作者对 feature map 的数量进行了修正,他们实验发现增加 feature map 的数量只会大大增加计算时间,而没有提高精度。

另外,夕小瑶小姐姐在知乎也详细的解释了为什么要固定 feature maps 的数量。有兴趣的可以去知乎搜一搜,讲的非常透彻。

固定了 feature map 的数量,每当使用一个 size=3 stride=2 进行 maxpooling 进行池化时,每个卷积层的计算时间减半(数据大小减半),从而形成一个金字塔。

这就是论文题目所谓的 Pyramid







请到「今天看啥」查看全文