专栏名称: 人工智能头条
专注人工智能技术前沿、实战技巧及大牛心得。
目录
相关文章推荐
数据何规  ·  中国AI司法案例报告:纠纷如何奠基AI规则 ·  昨天  
数据何规  ·  中国AI司法案例报告:纠纷如何奠基AI规则 ·  昨天  
黄建同学  ·  //@程序员邹欣://@不服输的胖兔子:今年 ... ·  昨天  
爱可可-爱生活  ·  [LG]《What I cannot ... ·  2 天前  
人工智能学家  ·  图灵奖得主杨立昆:AI需要学习物理学才能继续 ... ·  2 天前  
51好读  ›  专栏  ›  人工智能头条

撩一发深度文本分类之 RNN via Attention

人工智能头条  · 公众号  · AI  · 2019-01-25 19:11

正文

作者:何从庆,湖南大学 计算机硕士, 主要研究方向: 机器学习与法律智能。

导读:

文本分类是自然语言处理中一个很经典也很重要的问题,它的应用很广泛,在很多领域发挥着重要作用,例如情感分析、舆情分析以及新闻分类等。

本文将介绍一种深度文本分类方法—— RNN via Attention,该方法常常作为文本分类重要的 baseline。

RNN via Attention 结构

传统的文本分类方法,基本都是利用 TFIDF 提取词频以及词语间的 N-gram 信息作为特征,然后通过机器学习方法如逻辑回归、支持向量等作为分类器。

前几篇介绍的 TFIDF-LR、TFIDF-NBSVM 都是传统文本分类方法。 这些方法特征表达能力差,序列捕捉能力弱,很难深层次的表征文本信息

随着深度学习的发展,常用 CNN、RNN 等模型端到端的解决文本分类问题。 本文介绍的 RNN via Attention 是最经典的深度文本分类方法之一

下面我来以通俗易懂的方法一一道来该模型的优点。

RNN(s)

对于文本数据,最重要的是如何捕捉到上下文信息。RNN 主要解决序列数据的处理,比如文本、语音、视频等等。

简单的来说,RNN 主要是通过上一时刻的信息以及当前时刻的输入,确定当前时刻的信息。因此, RNN 可以捕捉到序列信息,这与捕捉文本的上下文信息相得益彰。

传统的 RNN 也会存在许多问题, 无法处理随着递归,权重指数级爆炸或消失的问题,难以捕捉长期时间关联等等。

基于 RNN 的变体,如 LSTM 和 GRU 很好的缓解这个问题。但是呢,LSTM 和 GRU 这些网络,在长序列信息记忆方面效果也不是很好,Colin Raffel 等人基于 RNN 以及 RNN 的变体, 提出了一种适用于 RNN(s) 的简化注意力模型,很好的解决序列长度的合成加法和乘法的长期记忆问题。

在本文中,我们使用了一种 RNN 的变体—— LSTM 捕捉文本的上下文信息 。更多地,人类在阅读文本时会考虑到前后上下文信息,在本文中,我们使用了 双向的 LSTM 来捕捉前后上下文信息 ,充分的捕捉文本的前后信息。

Attention 机制

基于 Attention 机制的论文有很多,比如transformer的self-attention、Hiearchical Attention、Feed-Forward Attention 等。

Attention 的原理是什么呢?简单地说,Attention 机制最初出现在图像领域,由于人在观察物体时会更注重重要的部分,所以机器也当和人一样,注意物体或者文本更重要的部分。

本文使用了一种 Feed -Forward Attention (下文简称Attention机制)来对lstm捕捉的上下文信息使用注意力机制。

一般来说,对于序列数据模型(RNN、GRU、LSTM),使用最大池或者平均池化来对提取的上下文信息进行操作,很容易丢失掉重要的信息,最大池化提取的不是我们想要的信息,平均池化弱化了我们想要的信息,种种原因, Attention 机制成为了最优秀的池化操作之一







请到「今天看啥」查看全文