大模型混入0.001%假数据就「中毒」，成本仅5美元！NYU新研究登Nature子刊

机器学习研究组订阅 · 公众号 · AI · 2025-02-04 19:29

正文

LLM训练的一个核心原则，通常表达为「垃圾输入，垃圾输出」，指出低质量的训练数据会导致模型产生同样低劣的输出。

由于LLM通常使用互联网上大规模爬取的文本作为训练材料，难以被筛选的有害内容就会成为一个持久的漏洞。对于医疗相关的大模型，数据污染尤其令人担忧，因为应用领域的特殊性，错误输出对诊断结果和病人护理产生的不利影响要严重得多。

那么，数据污染究竟在多大程度上会成为问题？是否需要将数据集中相当大比例的数据替换为包含虚假信息的数据，才能让大模型「中毒」？

Nature Medicine看灯的一项最新研究指出，并不需要想象的那么多。

论文地址：https://www.nature.com/articles/s41591-024-03445-1

搞坏一款大模型有多容易

研究者通过使用OpenAI GPT-3.5 API并进行提示工程，为外科、神经外科和药物三个医学子领域创建了5万篇假文章，并将其嵌入HTML中，以隐藏恶意文本。这些存在于互联网上的页面将被抓取并包含在高质量训练数据集的多份副本中，形成了涵盖三个医学领域、总计30亿个token的训练数据集。

之后，分别针对上述三个医学领域，研究人员使用不同比例的虚假数据，训练了6个1.3B参数的模型。训练完成后，15名临床医生手动审查了这些模型生成的医疗相关内容中是否包含有害的虚假信息。

针对大模型的数据污染实验设计

结果显示，在训练时，即使数据集中只有0.01%和0.001%的文本是虚假的，1.3B参数模型输出的有害内容也会分别增加11.2%和 7.2%。

如果换成更大规模的4B参数的领域模型，如果用虚假信息替换100亿训练token中的100万个（虚假信息比例为0.001%），即通过注入仅花费5美元生成的2000篇恶意文章，就会导致有害内容增加4.8%。

如果模型再大一些，进行数据污染攻击的成本也会更大，但投入产出比依旧十分可观。

针对在2万亿token上训练的7B参数LLaMA 2进行类似的数据攻击需要4万篇文章，成本低于100美元。如果按比例扩大以匹配使用高达15万亿token训练的当前最大的LLM，中毒数据的总成本也能保持在1000美元以下。

不同大小的大模型的进行数据毒化的效果对比

基于知识图谱，实时检测虚假信息

在指出问题之外，这项研究还给出了对于大模型产生虚假信息的解决方案。

作者首先指出，对一个注入0.001%错误信息进行训练后中毒的4B参数LLM，三种常规的应对虚假信息的方案都难以奏效，包括提示工程（减少26.2%有害响应）、RAG（减少28.4%有害响应），以及使用医疗问答数据集进行监督微调（减少35.9%有害响应）。

而该研究提出的应对虚假信息的方法，是将大模型输出与生物医学知识图谱进行交叉引用，以筛选医疗虚假信息。为此，研究人员使用用真实数据构建了一个精炼版知识图谱，包含21706个医学概念和416302个关联关系。

首先，使用命名实体识别（NER）从模型输出中提取医学短语，提取的短语与生物医学知识图谱进行交叉验证。之后使用包含1.1亿参数的embedding模型Medcpt，通过向量相似度搜索将提取的医学短语转换为知识图谱词汇。

如果一个短语无法与图谱匹配，则被视为潜在的错误信息；任何由大模型产生的段落，如果包含至少一个不匹配的医学短语，都将被标记为「需要审查」。

上述方法将大模型的推理与其医疗信息验证过程相分离，仅使用语言模型来操作文本。该方法成功捕捉了超过90%的中毒大模型生成的包含虚假信息的段落。

该方法不需要专用硬件，并且可以与现有方法并行工作，以最小的计算开销减少大模型的幻觉。此外，它本质上具有可解释性，因为每个经过验证的大模型输出都可以追溯到来自真实知识图谱的示例。

使用知识图谱检测大模型产生的虚假信息，比如，虚假的药物名称「Lopressor」被替换为存在于真实数据中的通用版本如「metoprolol」

专业领域LLM的「数据中毒」风险

像诸如医疗，法律等与用户密切相关的领域，使用大模型时，尤其要避免模型出现幻觉。然而遗憾的是，这项研究指出，这类专业模型很容易被有害数据污染。

例如该研究中，只需要一天的时间，就能产生1.5万篇虚假的医学文档，而要给模型「投毒」，甚至都不需要这么多数据。花费5美元产生的2000篇虚假论文，就足以让模型输出的虚假信息显著增多。