揭开Transformer“注意力”机制背后的真实故事
近年来,Transformer 成为深度学习领域的绝对主角,而支撑其核心的“注意力”机制更是掀起了一场革命。但这项改变 AI 格局的技术究竟是如何诞生的?Andrej Karpathy 分享了与“注意力”机制最初开发者 Dzmitry Bahdanau 的私人邮件,首次披露了这段被误解和简化的历史。这不仅是一段关于科学发现的个人回忆,更是一次回归真相的旅程
邮件揭示了 Bahdanau 如何在 Yoshua Bengio 的实验室里,从实践中找到灵感,最终提出了开创性的“RNNSearch”,为后来 Transformer 的成功铺平了道路。本文将带你回顾“注意力”的发展历程,还原那些被时间和流言掩盖的细节,见证 AI 进化的关键时刻,揭秘注意力的起源与其背后的故事
这是关于创新、合作与机缘巧合的真实故事,它不仅属于学术界,也属于推动技术边界的每一个人
注意力的诞生:从困惑到灵感
在人工智能的发展历程中,“注意力”机制无疑是一个革命性的突破。虽然现在大多数人提到注意力,第一时间想到的可能是 2017 年的论文《Attention is All You Need》和 Transformer,但实际上,注意力的概念早在三年前就已经出现了
故事开始于 2014 年,当时 Dzmitry Bahdanau(简称 Dima)作为实习生加入 Yoshua Bengio(加拿大计算机科学家,图灵奖得主) 的实验室。他参与了一个机器翻译项目,主要任务是优化序列到序列的神经网络模型。然而,Dima 一开始对这项工作并不乐观——“将一整段文本压缩成一个向量,再进行翻译?这怎么可能有效?”
为了克服编码器和解码器之间的瓶颈,他开始尝试一些新思路。最初的设计灵感来自“两个光标”的概念,即通过动态规划,让两个光标分别移动在源序列和目标序列中。然而,这种方法太复杂且实现困难。于是,他退而求其次,尝试了一种“硬编码的对角线注意力”,尽管结果尚可,但仍显笨拙
真正的突破
发生在他的一次灵感闪现中——为什么不让解码器自主学习关注源序列中的相关部分?这一想法源自 Dima 中学时的英语翻译练习:翻译时,眼睛会在源句和目标句之间反复移动,他将这种软搜索设计为 softmax 操作,结合双向 RNN 的状态进行加权平均。结果,一试即成功!
这种机制被命名为“RNNSearch”,并迅速发表了论文《Neural Machine Translation by Jointly Learning to Align and Translate》
“Attention”的命名与后续发展
最初,RNNSearch 并不叫“注意力”,这个名字是 Yoshua Bengio 在论文的最后阶段才加上去的。这个术语灵感来源于人类的认知过程:在翻译时,人们的注意力会在源语言和目标语言之间来回切换
注意力的提出并非孤立存在,同期还有其他研究者在探索类似机制。例如,Alex Graves 的“神经图灵机”和 Jason Weston 的“记忆网络”都包含软搜索或加权操作的概念。这些研究的出现并非偶然,而是当时学术界对神经网络和符号 AI 融合的一次集体努力
RNNSearch 的提出迅速引发了业界的关注,但当时还没有人预见到这个机制的潜力。直到 2017 年,Transformer 的横空出世——一个几乎完全依赖注意力机制的架构。这篇论文不仅简化了模型设计,还引入了位置编码、多头注意力等新概念,使得模型在结构上更加简单统一,也为并行计算打开了大门。自此,Transformer 成为深度学习领域的核心工具,直到今天,其设计仍基本未变
注意力的本质与未来启示
注意力机制的本质是一种“数据依赖的加权平均”,是一种灵活、高效的全局池化操作。它的提出不仅是技术上的突破,也反映了人类认知的深刻影响。正如 Andrej Karpathy 所评价的:“注意力是一种重大解锁,是神经网络架构设计的一次飞跃。”
如今,Transformer 及其变种已经成为自然语言处理、计算机视觉等领域的核心技术。Dima 在回顾这一历程时指出,注意力机制的诞生得益于多个因素的结合——个人创造力、团队协作,以及当时 GPU 性能的提升。这种多维度的推动,正是技术进步的关键所在
写在最后:科学进步的本质
从 Bahdanau 的 RNNSearch,到 Transformer 的席卷全球,注意力的进化史展现了科学探索的独特魅力。它提醒我们,突破性的想法往往来自那些在实践中寻求解决问题的创新者,而非空想理论家。正如 Dima 所说:“一个好的研发项目,比我们常认为的‘真正的 AI 研究’能为技术进步做出更多贡献。”
这,就是“注意力”的故事
附:Dzmitry Bahdanau 给 Andrej 的完整邮件内容
Hi,Andrej:
很高兴和你分享这段8年前的故事!
我在完成雅各布大学(Jacobs University)与Herbert Jaeger合作完成的硕士第一年后,作为实习生加入了Yoshua的实验室
我告诉Yoshua我愿意做任何工作。他安排我参与机器翻译项目,与Kyunghyun Cho和团队一起工作。一开始,我对将一串单词压缩成一个向量的想法非常怀疑。但我也非常渴望能拿到博士生的录取,所以我卷起袖子,开始做我擅长的事——写代码、修复错误等。后来,随着我对项目理解的深入,Yoshua邀请我攻读博士学位(在2014年,这已经足够了——那是好时候啊!)。我非常高兴,觉得是时候放手去创新了
于是,我开始思考如何避免编码器和解码器RNN之间的瓶颈问题。我的第一个想法是设计一个有两个“光标”的模型,一个遍历由BiRNN编码的源序列,另一个遍历目标序列。这些光标轨迹可以通过动态规划来边缘化。Kyunghyun Cho认为这类似于Alex Graves的RNN转录器模型。随后,我也可能读了Graves的手写识别论文。然而,这种方法看起来并不适合机器翻译
这个“光标”方法在实习剩下的5周内太难实现。所以我尝试了更简单的方法——两个光标同时同步移动(本质上是硬编码的对角注意力)。这种方法有些效果,但缺乏优雅
有一天,我突然想到,如果让解码器RNN学会在源序列中搜索光标位置会如何?这个想法部分受到我中学学英语翻译练习的启发。翻译时,视线会在源序列和目标序列之间来回切换。我用softmax表达了这种软搜索,并通过加权平均BiRNN状态实现。这种方法第一次试验就效果很好,让我非常兴奋。我把这种架构称为RNNSearch,我们赶紧发布了ArXiV论文,因为我们知道Ilya和Google团队在用8个GPU训练他们的LSTM模型(RNN Search仍然只用1个GPU)
后来发现,这个名字不够好。最终,Yoshua在论文最后一轮修改时将“attention”加到了结论部分
1.5个月后,我们看到了Alex Graves的NMT论文。确实是完全相同的想法,但他是从完全不同的动机出发的。在我们的情况下,发明是需求的产物。而对他来说,可能是为了弥合神经与符号AI之间的差距?Jason Weston团队的Memory Networks论文也采用了类似的机制
我当时没有预见到attention可以用于更低级别,作为表示学习的核心操作。但当我看到Transformer论文时,我立即对实验室同事说:“RNN完蛋了。”
回到你的问题:在蒙特利尔Yoshua实验室中“可微分和数据驱动的加权平均”的发明是独立于Neural Turing Machines、Memory Networks以及一些来自90年代甚至70年代的相关认知科学论文的(我可以提供任何链接)。它是Yoshua鼓励实验室追求雄心壮志、Kyunghyun Cho成功领导机器翻译项目、以及我多年来通过竞赛编程磨练的创造力和编码能力共同促成的。我并不认为这个想法会等待太久才被发现。即使没有我、Alex Graves和故事中的其他人,attention也是深度学习中实现灵活空间连接的自然方法。它是显而易见的,只等着GPU足够快,使人们有动力认真对待深度学习研究。一旦我意识到这一点,我的AI宏愿便是启动更多像机器翻译项目那样的惊人应用项目。优秀的研发工作对基础技术的进步贡献远胜过那些我们常认为是“真正”AI研究的复杂理论
就这些!很想听听更多关于你教育AI项目的消息(听Harm de Vries提起过一些传闻;))。
祝好, Dima
阅读最新前沿科技研究报告,
欢迎
访问欧米伽研究所的“未来知识库”
未来知识库
是“
欧米伽
未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。
目前拥有超过8000
篇重要资料。
每周更新不少于100篇世界范围最新研究
资料
。
欢迎扫描二维码或点击本文左下角“阅读原文”进入。
截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告
-
Air Street Capital《2024 年人工智能现状报告》
-
未来今日研究所:2024 技术趋势报告 - 广义计算篇
-
科睿唯安中国科学院 2024 研究前沿热度指数报告
-
文本到图像合成:十年回顾
-
《以人为中心的大型语言模型(LLM)研究综述》
-
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
-
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告
-
理解世界还是预测未来?世界模型的综合综述
-
Google Cloud CSA2024 AI 与安全状况调研报告
-
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
-
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
-
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
-
国际可再生能源署 IRENA2024 年全球气候行动报告
-
Cell: 物理学和化学 、人工智能知识领域的融合
-
智次方 2025 中国 5G 产业全景图谱报告
-
未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇
-
Deepmind:AI 加速科学创新发现的黄金时代报告
-
PitchBookNVCA2024 年第三季度全球风险投资监测报告
-
德科 2024 年未来全球劳动力报告
-
高工咨询 2024 年协作机器人产业发展蓝皮书
-
国际能源署 IEA2024 年全球能源效率报告
-
基因慧基因行业蓝皮书 2024 - 2025
-
普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战
-
中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书
-
中移智库 2024 先进感知新技术及新应用白皮书
-
智次方研究院 2025 中国 AIoT 产业全景图谱报告
-
未来今日研究所:2024 技术趋势报告 - 人工智能篇
-
国际电联:迈向衡量数字经济的通用框架的路线图
-
联合国粮食与农业组织:2024 年世界粮食安全和营养状况
-
大语言模型综述
-
李飞飞等,AI 智能体:探索多模式交互的前景综述
-
哈尔滨工业大学 - ChatGPT 调研报告
-
2024《美国核部署战略报告》最新文件
-
清华大学:AIGC 发展研究 3.0 发布版 b 版
-
OpenAI:2024 年 OpenAI o1 大模型技术报告
-
Verizon2024 年世界支付安全报告
-
皇家学会哲学学报 从复杂系统角度评估人工智能风险
-
复旦大学 大模型 AI 代理的兴起和潜力:综述
-
经合组织 OECD2024 年气候行动监测报告
-
Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态
-
2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch
-
《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定
-
瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》
-
《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告
-
世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024
-
ADL 理特咨询 2024 汽车出行未来展望报告
-
2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道
-
科学时代的大语言模型中的人工智能
-
Gartner2025 年重要战略技术趋势报告
-
CBInsights2024 年第三季度全球人工智能投融资状况报告
-
TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻
-
天津大学 2024 大模型轻量化技术研究报告
-
欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版
-
美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告
-
国际原子能机构 2024 年世界聚变展望报告
-
复旦大学 2024 大语言模型的能力边界与发展思考报告
-
安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图
-
YouGov2024 美国公众对人工智能 AI 的态度调研报告
-
麦肯锡中国报告:《中国与世界》完整版
-
麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域
-
Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目