专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

将门创投 · 公众号 · 科技创业 · 2024-11-29 08:22

主要观点总结

文章关注大模型（LLMs）训练数据中敏感信息（如个人隐私和版权内容）的擦除问题。由于直接从预训练数据中删除相关信息并重新训练模型成本高昂，因此提出了敏感知识擦除技术作为后训练阶段的解决方案。文章指出当前知识擦除评估方法的不足，并提出了新的基准KnowUnDo来更精确地评估针对版权内容和用户隐私的知识擦除效果。同时，介绍了一种名为MemFlex的新方法，通过利用梯度信息精准定位并移除模型中的敏感知识。文章还介绍了数据集、方法、实验、分析和总结等方面的内容。

关键观点总结

关键观点1: 大模型训练数据中的敏感信息擦除问题

由于重新训练模型成本高昂，需要寻找后训练阶段的解决方案来高效移除模型参数中不适宜的知识。

关键观点2: 现有知识擦除评估方法的不足

当前的知识擦除评估范式难以区分敏感知识和通用知识，需要更精确的评估方法。

关键观点3: 新基准KnowUnDo的提出

为了更细致地评估版权内容和用户隐私领域的知识擦除方法，提出了KnowUnDo基准。

关键观点4: MemFlex方法的介绍

MemFlex方法通过利用梯度信息精准定位并移除模型中的敏感知识，在擦除敏感知识的同时保留通用知识。

关键观点5: 数据集的构建

数据集分为版权内容和用户隐私两部分，使用GPT-4生成问题-答案对构建数据集，并确定了评估指标。

关键观点6: 实验和分析

实验结果表明MemFlex在保留知识方面取得最佳平衡，通过知识定位分析和知识擦除的鲁棒性分析等方法对实验结果进行了深入的分析和讨论。

正文

大模型（LLMs）的训练数据中可能涉及敏感信息，例如个人隐私或受版权保护的内容，因此需要有效地移除这些知识。然而，直接从预训练数据中删除相关信息并重新训练模型，不仅成本高昂，还会带来巨大的计算开销。为了解决这一问题，敏感知识擦除技术应运而生，作为一种后训练阶段的解决方案，可高效移除模型参数中不适宜的知识。然而，目前的知识擦除评估方法难以区分敏感知识（如隐私、版权）与通用知识。

为此，本文提出了一个新的基准—— Knowledge Unlearning with Differentiated Scope in LLMs（KnowUnDo），用于更精确地评估针对版权内容和用户隐私的知识擦除效果。同时，我们提出了一种名为 MemFlex 的新方法，通过利用梯度信息，精准定位并移除模型中的敏感知识。

论文题目：

To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models

论文链接：

https://arxiv.org/abs/2407.01920

代码链接：

https://github.com/zjunlp/KnowUnDo

一、引言

大模型（LLMs）的训练数据中可能包含敏感信息，例如个人隐私和受版权保护的内容，因此需要对这些知识进行有效擦除。然而，直接从预训练语料中移除相关数据并重新训练模型不仅成本高昂，且计算量巨大。为此， 基于知识编辑的敏感知识擦除技术应运而生，作为一种后训练阶段的解决方案，可高效地清除模型参数中不适宜的知识 。

现阶段的知识擦除评估范式难以区分敏感（如隐私、版权等）和通用知识。基于此，本文提出 Knowledge Unlearning with Differentiated Scope in LLMs（KnowUnDo）基准 ，用于更细致地评估版权内容和用户隐私领域的知识擦除方法，同时提出MemFlex方法，利用梯度信息精确地定位和擦除敏感知识。

二、数据集

本数据集分为版权内容和用户隐私两部分。对于版权内容，从GoodReads网站“Best Books Ever”榜单选取代表性书籍，再依据美国版权法分别定义擦除和保留范围内的知识类型，结合书籍和知识类型利用GPT-4生成问题-答案对构建数据集；对于用户隐私，构建虚构作者信息数据集，按照相关隐私法规把私人信息归为擦除范围知识，公共信息归为保留范围知识，同样使用GPT-4生成相应问题-答案对。同时，还确定了评估指标，擦除评估包括擦除成功率、保留成功率、困惑度和ROUGE-L，通用任务性能评估使用MMLU、ARC Challenge、TruthfulQA和SIQA等数据集来评估模型在知识理解、真实性和知识推理等通用任务上的性能。

三、方法

MemFlex方法受到知识编辑中的知识定位以及利用梯度信息提高定位精度相关研究的启发。其核心是通过分析梯度信息来确定模型参数空间中的擦除范围（Unlearn Scope）和保留范围（Retention Scope），然后在擦除阶段仅对擦除范围内的参数进行更新。以下是具体步骤：

确定擦除和保留梯度矩阵

对于擦除范围内的知识：

给定其中（表示擦除数据集），将标签替换为随机标签形成的。

通过反向传播获取梯度信息

重复上述随机替换和反向传播过程五次，取平均值得到稳定的擦除梯度矩阵

。

对于保留范围内的知识，采用类似的过程，将属于保留数据集

中的数据进行处理，得到保留梯度矩阵

。

分析梯度矩阵

通过对梯度矩阵进行L2正则化，得到梯度信息的两个构成要素：方向和大小。计算擦除和保留梯度矩阵之间的余弦相似度

，如果方向相似度高，表示在擦除过程中会对保留知识产生干扰。同时考虑梯度的大小，如果擦除知识的梯度大小

较大，则表示这些参数需要较大的更新。

识别知识擦除关键区域

通过综合考虑方向和大小，设置阈值（如 μ 和）来识别参数区域。满足

的参数区域

被确定为关键擦除区域，这些区域的梯度方向对于擦除知识与保留知识有明显差异，且梯度大小显著。

参数更新

在擦除阶段，仅更新关键擦除区域的参数

即将原始模型参数

中的

部分按照以下方式更新：

，其中

表示在第个时间步模型所有模块的参数。

四、实验

实验结果表明，在用户隐私领域，GA和随机标签微调虽能擦除敏感知识却未能保留通用知识，对抗样本擦除方法虽保持通用知识和低困惑度，但没有很好擦除敏感知识，梯度上升和下降组合方法在区分范围和通用任务性能上有一定表现，MemFlex在保留知识方面取得最佳平衡；在效率方面，MemFlex通过在擦除范围内更新参数提高了擦除性能和效率。

五、分析

知识定位分析 ：MemFlex通过冻结与保留知识对齐的关键参数区域来保留整体性能，而其他方法由于过度更新参数导致整体性能下降，以至于重新在保留知识上学习也难以恢复。 ‍

知识擦除的鲁棒性分析 ：我们通过在问题前拼接简单的提示检验知识擦除的鲁棒性，可以发现相比于GA类方法的明显下降，MemFlex具有较高的稳定性。同时，使用RoBE RTa分类器区分擦除范围时，在添加简单的提示后擦除成功率下降，表明分类器缺乏鲁棒性。

六、总结

在本论文中，我们基于知识编辑进行大模型隐私知识擦除，提出了新基准 KnowUnDo和新基线方法MemFlex，其通过定位再擦除，实现擦除敏感知识的同时通用知识。未来可以在以下几个方向改进：1) 保护多模态的版权内容和用户隐私（图像、视频、语音信息等）；2) 精细化定义需要擦除和保留的知识类型；3) 优化知识定位方法，实现更精准的知识擦除。

作者：田博中

来源：公众号【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（ www.techbeat.net ）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //