专栏名称: 麻省理工科技评论
《麻省理工科技评论》杂志官方微博 源自麻省理工学院,关注即将商业化的创新,聚焦即将资本化的创业。
目录
相关文章推荐
51好读  ›  专栏  ›  麻省理工科技评论

【谷歌提出创新神经记忆架构,突破Transformer长上下文限-20250114214750

麻省理工科技评论  · 微博  ·  · 2025-01-14 21:47

正文

2025-01-14 21:47

【谷歌提出创新神经记忆架构,突破Transformer长上下文限制】

#AI模型# 拥有人类的记忆能力一直是学界关注的重要课题。传统的深度学习模型虽然在许多任务上取得了显著成效,但在处理需要长期记忆的任务时往往力不从心。

就像人类可以轻松记住数天前看过的文章重点,但目前的 #AI# 模型在处理长文本时却经常丢三落四,这种差距一直是困扰研究人员的关键问题。

近日, #谷歌研究院# 的研究团队在这一领域取得了重要突破,Ali Behrouz、钟沛林(Peilin Zhong)和 Vahab Mirrokni 在预印本平台 arXiv 发表论文,提出了一种名为 Titans 的创新神经记忆架构,其核心是一个能在测试时动态学习和更新的神经长期记忆模块。

目前主流的 Transformer 架构在处理文本时面临着明显的局限。虽然它能够准确捕捉短距离的文本关系,但其注意力机制的计算复杂度会随着序列长度呈二次增长,这使得处理长文本时的计算成本变得难以承受。

为解决这一问题,研究者们提出了 RetNet、Mamba 等线性递归模型。这些模型虽然将计算复杂度降至线性水平,但由于需要将信息压缩到固定大小的状态中,在处理超长序列时常常出现严重的信息丢失。

戳链接查看详情: 网页链接






请到「今天看啥」查看全文