专栏名称: 人工智能头条

专注人工智能技术前沿、实战技巧及大牛心得。

一文看懂深度文本分类之 DPCNN 原理与代码

人工智能头条 · 公众号 · AI · 2019-02-11 19:11

正文

导读

ACL2017 年中，腾讯 AI-lab 提出了Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN)。

论文中提出了一种基于 word-level 级别的网络-DPCNN，由于 TextCNN 不能通过卷积获得文本的长距离依赖关系，而论文中 DPCNN 通过不断加深网络，可以抽取长距离的文本依赖关系。

实验证明在不增加太多计算成本的情况下，增加网络深度就可以获得最佳的准确率。‍

DPCNN 结构

究竟是多么牛逼的网络呢？我们下面来窥探一下模型的芳容。

DPCNN 结构细节

模型是如何通过加深网络来捕捉文本的长距离依赖关系的呢？ 下面我们来一一道来。为了更加简单的解释 DPCNN，这里我先不解释是什么是 Region embedding，我们先把它当作 word embedding。

等长卷积

首先交代一下卷积的的一个基本概念。一般常用的卷积有以下三类：

假设输入的序列长度为n，卷积核大小为m，步长(stride)为s,输入序列两端各填补p个零(zero padding),那么该卷积层的输出序列为(n-m+2p)/s+1。

(1) 窄卷积(narrow convolution): 步长s=1,两端不补零，即p=0，卷积后输出长度为n-m+1。

(2) 宽卷积(wide onvolution) ： 步长s=1,两端补零p=m-1，卷积后输出长度 n+m-1。

(3) 等长卷积(equal-width convolution): 步长s=1,两端补零p=(m-1)/2，卷积后输出长度为n。如下图所示，左右两端同时补零p=1,s=3。

池化

那么DPCNN是如何捕捉长距离依赖的呢？这里我直接引用文章的小标题—— Downsampling with the number of feature maps fixed。

作者选择了适当的两层等长卷积来提高词位 embedding 的表示的丰富性。然后接下来就开始 Downsampling (池化)。

再每一个卷积块(两层的等长卷积)后，使用一个 size=3 和 stride=2 进行 maxpooling 进行池化。 序列的长度就被压缩成了原来的一半。其能够感知到的文本片段就比之前长了一倍 。

例如之前是只能感知3个词位长度的信息，经过1/2池化层后就能感知6个词位长度的信息啦，这时把 1/2 池化层和 size=3 的卷积层组合起来如图所示。

固定 feature maps(filters) 的数量

为什么要固定 feature maps 的数量呢 ? 许多模型每当执行池化操作时，增加 feature maps 的数量，导致总计算复杂度是深度的函数。与此相反，作者对 feature map 的数量进行了修正，他们实验发现增加 feature map 的数量只会大大增加计算时间，而没有提高精度。

另外，夕小瑶小姐姐在知乎也详细的解释了为什么要固定 feature maps 的数量。有兴趣的可以去知乎搜一搜，讲的非常透彻。

固定了 feature map 的数量，每当使用一个 size=3 和 stride=2 进行 maxpooling 进行池化时，每个卷积层的计算时间减半(数据大小减半)，从而形成一个金字塔。

这就是论文题目所谓的 Pyramid

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【[286星]Pocket Flow Framework：让LL-20250312194759

昨天

爱可可-爱生活 · 【[157星]YOLOE：实时“看见”一切的高效目标检测与分割模-20250312141518

昨天

量子位 · 高阶智驾“破壁人”来了：13万标配激光雷达，还能「车位到车位」

昨天

爱可可-爱生活 · [CL] A Survey on Post-training o-20250312055502

2 天前

宝玉xp · //@刘群MT-to-Death:虽然对强化学习的能力有足够的认-20250311144023

2 天前

陈安之 · 你拿手机的姿势，出卖了你的性格！太准了！

8 年前

韶大lens视觉杂志 · Lens 播报｜告诉你鲍勃·迪伦的私藏乐队

7 年前

济宁7890后 · 14分钟，全场落泪！早看一分钟，早一分钟悔悟！

7 年前

摸摸艺术书 · 行色僧 | 一期一会

7 年前

飞灵汽车网 · 飞灵汽车专业领域微信群组及车友微信群组（V3.1 更新说明）

7 年前