专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

Transformer详解《attention is all your need》论文笔记

AINLP · 公众号 · · 2019-11-16 20:46

正文

transformer 在自然语言处理中的重要地位可见一斑，其优秀的性能和并行性让它在许多场景发光发热。本文将用图文的方式对提出transformer的论文《attention is all your need》的细节进行讲解。

文章图表来自于 http://jalammar.github.io/illustrated-transformer/

文章来源于 https://zhuanlan .zhihu.com/p/81668418

论文发表于NIPS 2017文章主要贡献：文章提出了一种不使用RNN，CNN的新的端到端神经网络模型Transformer，该模型仅使用Attention机制，该模型的优点如下：

1. 相比于RNN，Transformer有更好的并发性，因此训练更快。（得益于self-attention机制的并发性）

2. 相比于CNN，Transformer的句子全局理解能力更好（得益于self-attention的全局性）。

3. Transformer保留了句子每个单词的位置信息。（得益于Positional Encoding）

最后作者用transformer模型在翻译任务中进行实验，获得了SOTA的效果。

2. 文章细节整理：

以翻译任务为例，transformer整体结构如下图所示，包括编码部分和解码部分，每一个部分由很多小单元组成。

其中编码部分的每一个小单元的主要结构如下图所示，包括了一个self-attention层和一个前向神经网络，一个残差网络，一个layer-normalization以及一个位置编码。

其中Self-Attention部分详细步骤如下：对于每一个输入的词向量，都有三个对应的Q，K，V矩阵，用词向量分别与之做乘法后，每一个单词都可以得到三个对应的向量Queries，Keys和Values。

得到三个向量后，对于每一个词向量，都用其对应的Queries向量乘以所有单词的k

向量，从而得到n个Score（n为输入的单词个数）。然后将n个Score分别除以√dk（其中dk为keys向量的维度）得到缩小后的Score。对于n个缩小后的Score，计算它们的softmax，并与该单词的Values向量相乘后，最后对n个上述结果求和就得到了self-attention的输出结果。