专栏名称: OFweek人工智能
提供人工智能行业最新热点新闻、技术、产品以及线上线下研讨会、产品资讯、市场信息等。
目录
相关文章推荐
东方网  ·  突遇交通意外,知名专家去世 ·  2 天前  
上海本地宝  ·  上海失业金申请后,何时能到账? ·  5 天前  
上海发布  ·  2月份沪牌拍卖结果公布 ·  3 天前  
51好读  ›  专栏  ›  OFweek人工智能

短文本分类,腾讯AI Lab联合港中文提出主题记忆网络

OFweek人工智能  · 公众号  ·  · 2018-10-23 17:00

正文

点击上方蓝色字体,关注我们



来源:机器之心

在 EMNLP 2018 中,针对短文本的处理,腾讯 AI Lab 发布了 论文 Topic Memory Networks for Short Text Classification 。这篇论文由腾讯 AI Lab 主导,与香港中文大学合作完成。本文是 主题模型 文本分类 神经网络 框架下的一次结合,作为 主题模型 深度学习 联合训练的一个早期的探索,能够很自然地被扩展到很多 深度学习 任务的上。

论文:Topic Memory Networks for Short Text Classification

论文链接:https://arxiv.org/pdf/1809.03664.pdf

文本分类 (Short Text Classification )

短文本因为其内容简短、易于阅读和传播的特性作为信息交互的载体广泛存在,例如新闻标题、社交媒体的信息、短信等等,因此如何让机器自动而高效地理解短文本一直是 自然语言处理 的重要任务,而 文本分类 作为文本理解的基础任务、能够服务于大量的下游应用(例如文本摘要、情感分析、 推荐系统 等等),更是长期以来学术界与工业界关注的焦点。然而,短 文本分类 任务本身又十分困难,这其中的原因主要来自文本的内容简短而引起数据稀疏性问题,从而导致了模型分类的时候没有足够的特征进行类别的判断。为了理解短 文本分类 的挑战,表 1 展示了一个 Twitter(推特)上的一个短 文本分类 例子。

表 1:Twitter 上 文本分类 的例子。

R1 和 R2 都是训练样本分别属于 Super Bowl (超级碗) 以及 New Music Live(新音乐盛典)类别,S 是测试样本属于 New Music Live 类别,但是仅仅从给定的 11 个单词,很难判断出 S 与新音乐盛典的关系。但是 R2 中 wristband(手环)与 Bieber(比伯)的共现极大地丰富了 wristband 的语义,将 wristban\d 与 New Music Live 关联起来,因为当时 Twitter 上支持 Bieber 送手环的活动使得训练语料中 wristband 和 Bieber 在 New Music Live 类别的 tweets 中大量共现。如果模型能够定位到 wristband 是一个关键的词,就更容易判断出测试样本 S 应该被分类为 New Music Live,否则的话,S 很有可能被错误分类为 Super Bowl,因为其与 R1 大部分的词都是重合的。

主题记忆网络 (Topic Memory Networks)

Topic Model( 主题模型 )的要旨是基于词在文章中的共现关系,从大量的词汇中找出主题词(例如 S 中的 wristbands),这部分主题词在一部分的文章中经常出现,但并不似常用词一般在大部分文章中都频繁出现。因为主题词的这种特性,相较于低频词或常用词,往往能更好地指明文本的类别。因此,过去的工作已经证明,用 主题模型 学出的主题表示,能够有效地提高 文本分类 的性能。然而,目前的大多数 文本分类 任务在用到主题表示的时候,往往采用两步走的方法,先训练好 主题模型 ,然后将 主题模型 输出的主题表示去初始化 文本分类 的特征空间。近期,Neural Topic Model(神经 主题模型 :https://arxiv.org/pdf/1706.00359.pdf)的提出,使得 主题模型 与大量的 深度学习 任务能够在 多任务学习 (multi-task learning) 的框架下被联合训练,本文以 深度学习 最基础的任务—— 文本分类 作为这种新的训练模式的一个初期的探索,提出了一种新的网络模型 Topic Memory Networks(主题记忆网络),网络结构如图 1 所示。

图 1:主题记忆网络的框架图。从左到右分别是神经 主题模型 、主题记忆机制与 文本分类 器。

主题记忆网络一共可以分为三部分,从左到右分别是 Neural Topic Model (神经 主题模型 )、Topic Memory Mechanism(主题记忆机制)、以及 Classifier( 文本分类 器)。其中,神经 主题模型 主要用于学习主题表示;主题记忆机制主要用于将学到的主题表示 映射 到对 文本分类 有用的特征空间当中; 文本分类 器主要用于输出 文本分类 标签,可以适配多种分类器(例如卷积 神经网络 (CNN)或循环 神经网络 (RNN)),因为 CNN 在之前的的工作中被证明对 文本分类 更有效,因此在本文对于主题记忆网络的实验探索(将于下文重点讨论)中,我们选择 CNN 作为 文本分类 器。

为了实现 主题模型 文本分类 的联合训练,主题记忆网络的 损失函数 主题模型 的训练目标 variational lower-bound 以及 文本分类 器的训练目标 cross-entropy 的加权和。

实验分析

为了探索主题记忆网络对短 文本分类 的性能,本文选择了四个 基准 数据集,分别为:TagMyNews 新闻标题、Snippets 搜索片段、Twitter 和 Weibo(新浪微博),四个数据集的统计信息如表 2 所示。

表 2:实验数据集详细信息。

本文选择了当下最好的短 文本分类 模型与主题记忆网络的性能进行了比较,在四个实验数据集的实验结果如表 3 所示,从实验结果中可以看出,主题记忆网络在四个数据集上都显著提升了 state-of-the-art 的性能。

表 3:主题记忆网络与比较模型的实验结果。TMN 表示主题记忆网络:TMN (Separate TM inference) 表示先预训练好神经 主题模型 ,之后把其输出的主题表示初始化主题记忆机制来进行 文本分类 。TMN (Joint TM inference) 表示神经 主题模型 文本分类 联合训练。两个版本的主题记忆网络的结果显著高于所有的比较模型(p<0.05 paired t-test)。

考虑到主题记忆网络能够对 主题模型 文本分类 进行联合训练,那么 主题模型 是否能够获益于这种多任务训练,以学到更有意义的表示呢?本文对 主题模型 的输出进行了定量与定性的分析。在定量分析中,被广泛使用的 CV coherence 分数 (https://github.com/dice-group/Palmetto) 作为评测指标,比较模型包括经典的 主题模型 LDA、短文本 主题模型 中的 state-of-the-art 模型 BTM、以及神经 主题模型 NTM,越高的分数说明学到的 topic 表示越有意义,实验结果如表 3 所示,定量实验结果说明,通过与 文本分类 联合训练, 主题模型 也能够学到更有意义的主题表示。

为了探索为什么主题记忆网络能取得更好的性能,本文讨论了主题记忆网络对表 1 的测试样例 S 学到了什么表示,结果如图 2 所示。由结果读者可以观察到,与 S 最相关的三个主题分别与 Bieber、追星以及音乐相关。虽然三个主题的相关主题词大多都不被包含于 S 当中,但是通过挖掘词与词的共现关系, 主题模型 成功扩展了 S 中主题词 wristband 的语义,从而使得 S 得以被正确分类到 New Music Live。

图 2:主题记忆网络学到的对于 S 的表示。左图是主题记忆机制中存储的 S 中每个词与各主题之间的关系热度图,右图是关系最大的三个主题的相关词。

结语

本文是 主题模型







请到「今天看啥」查看全文