专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

自然语言处理中的注意力机制是干什么的？

量子位 · 公众号 · AI · 2017-05-12 12:58

正文

王小新编译自Quora
量子位出品 | 公众号 QbitAI

谈神经网络中注意力机制的论文和博客都不少，但很多人还是不知道从哪看起。于是，在国外问答网站Quora上就有了这个问题：如何在自然语言处理中引入注意力机制？

Quora自家负责NLP和ML的技术主管Nikhil Dandekar做出了一个简要的回答：

概括地说，在神经网络实现预测任务时，引入注意力机制能使训练重点集中在输入数据的相关部分，忽略无关部分。

注意力是指人的心理活动指向和集中于某种事物的能力。比如说，你将很长的一句话人工从一种语言翻译到另一种语言，在任何时候，你最关注的都是当时正在翻译的词或短语，与它在句子中的位置无关。在神经网络中引入注意力机制，就让它也学会了人类这种做法。

注意力机制最经常被用于序列转换（Seq-to-Seq）模型中。如果不引入注意力机制，模型只能以单个隐藏状态单元，如下图中的S，去捕获整个输入序列的本质信息。这种方法在实际应用中效果很差，而且输入序列越长，这个问题就越糟糕。

图1：仅用单个S单元连接的序列转换模型

注意力机制在解码器（Decoder）运行的每个阶段中，通过回顾输入序列，来增强该模型效果。解码器的输出不仅取决于解码器最终的状态单元，还取决于所有输入状态的加权组合。

图2：引入注意力机制的序列转换模型

注意力机制的引入增加了网络结构的复杂性，其作为标准训练模型时的一部分，通过反向传播进行学习。这在网络中添加模块就能实现，不需要定义函数等操作。

下图的例子，是将英语翻译成法语。在输出翻译的过程中，你可以看到该网络“注意”到输入序列的不同部分。

图3：翻译网络示意图

由于英语和法语语序比较一致，从网络示意图可以看出，除了在把短语“European Economic Zone(欧洲经济区)”翻译成法语“zone économique européenne”时，网络线有部分交叉，在大多数时，解码器都是按照顺序来“注意”单词的。

文中配图来自Distill

推荐阅读：

Attention and Augmented Recurrent Neural Networks
http://distill.pub/2016/augmented-rnns/

Attention and Memory in Deep Learning and NLP
http://www.wildml.com/2016/01/attention-and-memory-in-deep-learning-and-nlp/

Peeking into the neural network architecture used for Google’s Neural Machine Translation
https://smerity.com/articles/2016/google_nmt_arch.html

【完】

招聘

量子位正在招募编辑记者、运营、产品等岗位，工作地点在北京中关村。相关细节，请在公众号对话界面，回复：“招聘”。

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 从第一性原理解析强化学习的真正价值查看图片 //@爱可可-爱-20250309074626

昨天

爱可可-爱生活 · 利用QK几何结构实现高效KV缓存压缩查看图片 //@爱可可--20250309075750

昨天

爱可可-爱生活 · 本文提出了一种名为 Q-Filters 的免训练 KV 缓存压缩-20250309061524

昨天

黄建同学 · 好像非规则反而是AI的强项你要这么一说，我反倒有点觉得，AI的-20250308075144

2 天前

爱可可-爱生活 · [CL]《Process-based Self-Rewardin-20250307053536

3 天前

EV视界 · 上海地补将取消三级补贴/额度继续下调

8 年前

健康界 · 医/药创业者“不忘初心”的痛苦与坚持

7 年前

三声 · 知识付费风口上的色情幽灵：有人选择卖知识，有人选择卖欲望

7 年前

王启文 · 下一个特力A是谁？| 盘结 2017.06.14

7 年前

Clinic門诊新视野 · HB-CIT 2017｜马长生：心随律动，安全倍增——快速心律失常导管消融进展

7 年前

自然语言处理中的注意力机制是干什么的？

正文

王小新 编译自Quora 量子位 出品 | 公众号 QbitAI

图1： 仅用单个S单元连接的序列转换模型

图2： 引入注意力机制的序列转换模型

图3： 翻译网络示意图

招聘

请到「今天看啥」查看全文

王小新编译自Quora
量子位出品 | 公众号 QbitAI

图1：仅用单个S单元连接的序列转换模型

图2：引入注意力机制的序列转换模型

图3：翻译网络示意图