专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
爱可可-爱生活  ·  CLT不适用于小样本LLM评估 查看图片 ... ·  昨天  
爱可可-爱生活  ·  [LG]《Position: Don't ... ·  昨天  
爱可可-爱生活  ·  [CL]《Q-Filters: ... ·  昨天  
机器之心  ·  从 LLM 到 Agent:Manus ... ·  2 天前  
机器之心  ·  全球首发:QwQ-32B本地一键部署、309 ... ·  3 天前  
51好读  ›  专栏  ›  人工智能学家

谷歌推出Transformer架构的继任者Titans:训练代码也会公开

人工智能学家  · 公众号  · AI  · 2025-01-17 16:12

正文

来源:AI寒武纪

谷歌发布Transformer架构的继任者Titans: 提出了一种新的神经长期记忆模块,它可以学习记忆历史背景,并帮助注意力在利用过去长期信息的同时关注当前背景。这种神经记忆具有快速并行训练的优势,同时还能保持快速推理

近年来,循环模型和注意力机制在深度学习领域得到了广泛应用。循环模型旨在将数据压缩成固定大小的记忆(隐藏状态),而注意力机制则允许模型关注整个上下文窗口,捕捉所有标记的直接依赖关系。然而,这种更精确的依赖关系建模带来了二次方的计算成本,限制了模型的上下文长度

谷歌发布《泰坦:在测试时学习记忆》(Titans: Learning to Memorize at Test Time)的论文提出了一种新型的神经长期记忆模块,该模块能够在利用长远历史信息的同时,让注意力机制专注于当前上下文。该神经记忆的优势在于可以快速并行训练,并保持快速推理。论文指出,由于上下文有限但依赖关系建模精确,注意力机制可以作为短期记忆;而神经记忆由于其记忆数据的能力,可以作为长期、更持久的记忆。基于这两个模块,论文引入了一种新的架构族——泰坦(Titans),并提出了三种变体,以探讨如何有效地将记忆融入架构中

核心创新

这篇论文的核心创新在于提出了一个能够 在测试时学习记忆 的神经长期记忆模块。这个模块的工作方式如下:

  • 记忆的获取: 该模块将训练过程视为在线学习问题,旨在将过去的信息压缩到其参数中。受人类记忆启发,该模块将“违反预期”的事件(即令人惊讶的输入)视为更值得记忆的。它通过计算神经网络相对于输入的梯度来衡量输入的“惊讶程度”,并使用这一指标来更新记忆。
  • •遗忘机制: 为了解决有限记忆的问题,该模块引入了一种自适应的遗忘机制,该机制考虑了记忆大小和数据惊讶程度,从而更好地管理记忆。
  • 记忆的结构: 论文探索了不同的记忆结构,发现深度记忆模块(即使用多层感知机)比线性模型更有效。
  • 记忆的检索: 该模块通过简单的正向传递(不更新权重)来检索与查询相对应的记忆。

Titans架构

基于长期神经记忆模块,论文提出了泰坦架构,该架构包含三个分支:

  • 核心分支(Core): 使用注意力机制进行数据处理,关注有限的上下文窗口。
  • 长期记忆分支(Long-term Memory): 使用神经长期记忆模块来存储和回忆历史信息。
  • 持久记忆分支(Persistent Memory): 使用可学习但不依赖于数据的参数来编码任务相关知识。

论文提出了三种不同的泰坦变体:

  1. 上下文记忆(Memory as a Context,MAC): 将长期记忆视为当前信息的上下文,使用注意力机制融合这些信息。

  2. 门控记忆(Memory as a Gate,MAG): 使用门控机制将长期记忆与核心分支的信息融合。

  3. 层式记忆(Memory as a Layer,MAL): 将长期记忆模块作为深度神经网络的一层。

实验结果

论文在语言建模、常识推理、长距离依赖、时间序列预测和DNA建模等任务上进行了广泛的实验,实验结果表明:

  • 超越基线: 泰坦架构在所有基准测试中都优于现代循环模型及其混合变体。

  • 优于Transformer: 泰坦架构在相同上下文窗口大小下优于Transformer模型,并且在长上下文任务中表现出更具竞争力的性能

  • 可扩展性: 与Transformer不同,泰坦架构可以有效地扩展到大于2M的上下文窗口大小

  • 深度记忆的重要性: 更深的长期记忆模块可以在更长的序列中获得更好的性能。

  • 组件的贡献: 论文进行了消融研究,验证了泰坦架构中每个组件的积极贡献,其中权重衰减(Weight Decay)、动量(Momentum)、卷积(Convolution)和持久记忆(Persistent Memory)贡献最大

Titans 已使用 PyTorch 和 JAX 实现,谷歌计划很快公开用于训练和评估模型的代码


参考:

https://arxiv.org/pdf/2501.00663v1

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库 是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究 资料 欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。



截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告

  1. 2024 美国众议院人工智能报告:指导原则、前瞻性建议和政策提案

  2. 未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

  3. Deepmind:AI 加速科学创新发现的黄金时代报告

  4. Continental 大陆集团:2024 未来出行趋势调研报告

  5. 埃森哲:未来生活趋势 2025

  6. 国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

  7. 哈尔滨工业大学:2024 具身大模型关键技术与应用报告

  8. 爱思唯尔(Elsevier):洞察 2024:科研人员对人工智能的态度报告

  9. 李飞飞、谢赛宁新作「空间智能」 等探索多模态大模型性能

  10. 欧洲议会:2024 欧盟人工智能伦理指南:背景和实施

  11. 通往人工超智能的道路:超级对齐的全面综述

  12. 清华大学:理解世界还是预测未来?世界模型综合综述

  13. Transformer 发明人最新论文:利用基础模型自动搜索人工生命

  14. 兰德公司:新兴技术监督框架发展的现状和未来趋势的技术监督报告

  15. 麦肯锡全球研究院:2024 年全球前沿动态(数据)图表呈现

  16. 兰德公司:新兴技术领域的全球态势综述

  17. 前瞻:2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战

  18. 美国国家标准技术研究院(NIST):2024 年度美国制造业统计数据报告(英文版)

  19. 罗戈研究:2024 决策智能:值得关注的决策革命研究报告

  20. 美国航空航天专家委员会:2024 十字路口的 NASA 研究报告

  21. 中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告

  22. GenAI 引领全球科技变革关注 AI 应用的持续探索

  23. 国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告

  24. 2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿

  25. 多模态可解释人工智能综述:过去、现在与未来

  26. 【斯坦福博士论文】探索自监督学习中对比学习的理论基础

  27. 《机器智能体的混合认知模型》最新 128 页

  28. Open AI 管理 AI 智能体的实践

  29. 未来生命研究院 FLI2024 年 AI 安全指数报告 英文版

  30. 兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式 英文版







请到「今天看啥」查看全文