专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
西藏市场监管  ·  事关无理由退货!5月1日起正式实施! ·  昨天  
西藏市场监管  ·  事关无理由退货!5月1日起正式实施! ·  昨天  
西藏发布  ·  西藏跨省异地就医人员注意! ·  2 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

深度学习自然语言处理  · 公众号  ·  · 2024-11-17 13:08

正文


论文题目: To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models

本文作者: 田博中(浙江大学)、梁孝转(腾讯)、程思源(腾讯)、刘庆斌(腾讯)、王梦如(浙江大学)、隋典伯(哈尔滨工业大学)、陈曦(腾讯)、陈华钧(浙江大学)、张宁豫(浙江大学)

发表会议: EMNLP 2024 Findings

论文链接: https://arxiv.org/abs/2407.01920

代码链接: https://github.com/zjunlp/KnowUnDo

来自:ZJUKG


一、引言

大模型(LLMs)的训练数据中可能包含敏感信息,例如个人隐私和受版权保护的内容,因此需要对这些知识进行有效擦除。然而,直接从预训练语料中移除相关数据并重新训练模型不仅成本高昂,且计算量巨大。为此, 基于知识编辑的敏感知识擦除技术应运而生,作为一种后训练阶段的解决方案,可高效地清除模型参数中不适宜的知识

现阶段的知识擦除评估范式难以区分敏感(如隐私、版权等)和通用知识。基于此,本文提出 Knowledge Unlearning with Differentiated Scope in LLMs(KnowUnDo)基准 ,用于更细致地评估版权内容和用户隐私领域的知识擦除方法,同时提出 MemFlex方法 ,利用梯度信息精确地定位和擦除敏感知识。

二、数据集

本数据集分为版权内容和用户隐私两部分。对于版权内容,从GoodReads网站“Best Books Ever”榜单选取代表性书籍,再依据美国版权法分别定义擦除和保留范围内的知识类型,结合书籍和知识类型利用GPT-4生成问题-答案对构建数据集;对于用户隐私,构建虚构作者信息数据集,按照相关隐私法规把私人信息归为擦除范围知识,公共信息归为保留范围知识,同样使用GPT-4生成相应问题-答案对。同时,还确定了评估指标,擦除评估包括擦除成功率、保留成功率、困惑度和ROUGE-L,通用任务性能评估使用MMLU、ARC Challenge、TruthfulQA和SIQA等数据集来评估模型在知识理解、真实性和知识推理等通用任务上的性能。

三、方法

MemFlex方法受到知识编辑中的知识定位以及利用梯度信息提高定位精度相关研究的启发。其核心是通过分析梯度信息来确定模型参数空间中的擦除范围(Unlearn Scope)和保留范围(Retention Scope),然后在擦除阶段仅对擦除范围内的参数进行更新。以下是具体步骤:

确定擦除和保留梯度矩阵

对于擦除范围内的知识:
  • 给定 (其中 表示擦除数据集),将标签 替换为随机标签形成
  • 通过反向传播获取梯度信息
  • 重复上述随机替换和反向传播过程五次,取平均值得到稳定的擦除梯度矩阵
对于保留范围内的知识,采用类似的过程,将属于保留数据集 中的数据进行处理,得到保留梯度矩阵

分析梯度矩阵

通过对梯度矩阵进行L2正则化,得到梯度信息的两个构成要素:方向和大小。计算擦除和保留梯度矩阵之间的余弦相似度 ,如果方向相似度高,表示在擦除过程中会对保留知识产生干扰。同时考虑梯度的大小,如果擦除知识的梯度大小 较大,则表示这些参数需要较大的更新。

识别知识擦除关键区域

通过综合考虑方向和大小,设置阈值(如 )来识别参数区域。满足 的参数区域 被确定为关键擦除区域,这些区域的梯度方向对于擦除知识与保留知识有明显差异,且梯度大小显著。

参数更新

在擦除阶段,仅更新关键擦除区域的参数 。即将原始模型参数 中的






请到「今天看啥」查看全文