专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
数据何规  ·  韩国通报DeekSeek调查进展 ·  昨天  
文案包邮  ·  deepseek完整版教程.pdf ·  2 天前  
青岛日报  ·  刚刚,DeepSeek回应! ·  3 天前  
青岛日报  ·  刚刚,DeepSeek回应! ·  3 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

大模型也有侧脑?揭秘WISE如何带来终生学习新突破

深度学习自然语言处理  · 公众号  ·  · 2024-11-19 21:40

正文

作者: bhn

论文:https://arxiv.org/abs/2405.14768
代码:https://github.com/zjunlp/EasyEdit

人类的学习能力是独特而强大的。我们不仅能够在成长过程中不断积累知识,还能够在面对新情况时灵活应用和更新已有的认知。这种终生学习的能力让我们能够适应不断变化的环境,解决新出现的问题。那么,我们如何才能将这种宝贵的能力赋予人工智能系统呢?这篇文章给出了一个答案。

背景

大语言模型虽然取得了成功,但是由于人类不断的产生新的知识,知识也在不断的更新,这要求大模型也需要不断地以一种高效的方式进行更新。然而目前以微调的方式对模型进行更新要求大量的计算资源,这是十分昂贵的。而基于编辑的方式进行的模型更新也具有各种各样的副作用。

这篇文章参考人类学习的方式 —即人类不断的渐进的获取新的知识,然后遗忘旧的知识—设计了一种终身学习的模型编辑方法 ,既有可以实现模型高效的更新,又能避免灾难性遗忘等知识变价的副作用。

相关工作

记忆和知识注入 :在一些文献中,基于人类认知理论为,将模型的记忆分为长期记忆和工作记忆。长期记忆指的是存储在模型中的参数,可以通过预训练,在训练,微调和模型编辑进行更新。工作记忆通过检索实现的神经网络激活的非参数化知识。如GRACE为为模型添加了一个适配器,每一次的编辑都写入适配器层,推理是对适配器进行检索,以实现更新知识的检索。

模型合并 :模型融合目的是将不同模型的知识合并到一个模型中去。但是发现即使对于采用相同数据集,相同初始化训练的模型也很难实现融合。一些文献归结于深度神经网络具有排列不变性。

本文的工作

方法概述:终生编辑学习目的是确保大模型经历数百上千次编辑之后,能够对齐人类的期望并且维持以前的知识和能力。为了达到这个目的,该论文引入了两个组件 辅助记忆模块 知识分片和合并机制

辅助记忆设计

目前知识编辑的工作,对模型中的FFN层的 值矩阵进行编辑,但是会引起遗忘和其他的副作用。

该工作将模型中的值矩阵复制一份作为辅助记忆,进而在辅助记忆上进行编辑,从而绕过了这些缺陷。辅助记忆的输出为:







请到「今天看啥」查看全文