1 导读
这篇文章是发表在ICLR2017做Poster的一篇文章,本文对句子encoder的工作提出了一种新的模型,在当前的工作中对于一句话encoder时候往往是对所有隐状态的n-gram进行average或max pooling或者是取最后时刻的隐状态作为一句话的表示。但是要使得模型从全部的隐状态中获取语义信息很难并且是没有必要。因此,本文提出一种self-attention机制来代替上述操作。并在author profiling、sentiment classification以及texual entailment任务上做了实验。
2 模型
模型如图1所示为模型的结构框图,公式下所示Wi为句子S中的词语。在本模型中采用了双向LSTM如公式(2)(3)所示,将正向反向的隐状态拼接起来得到公式(4)
如公式(6)所示,为模型的self-attention部分,其中Ws1维度为da-by-2u,Ws2维度为r-by-da,经过softmax得到维度为r-by-n的attention矩阵,最后如公式(7)对各个隐状态进行加权。
为了保证得到的attention矩阵的每一行代表不同的方面,作者加入采用Frobenius范数惩罚项,如公式(8),来替代不起作用的KL散度。
原文链接:
http://mp.weixin.qq.com/s/twdpsEXll3t521o2qD2DWg