大模型混入0.001%假数据就「中毒」，成本仅5美元！NYU新研究登Nature子刊

3D视觉之心 · 公众号 · · 2025-02-06 07:00

正文

作者 | 新智元

点击下方卡片，关注“ 3D视觉之心 ”公众号

第一时间获取 3D视觉干货

编辑：peter东乔杨

LLM训练的一个核心原则，通常表达为「垃圾输入，垃圾输出」，指出低质量的训练数据会导致模型产生同样低劣的输出。

由于LLM通常使用互联网上大规模爬取的文本作为训练材料，难以被筛选的有害内容就会成为一个持久的漏洞。对于医疗相关的大模型，数据污染尤其令人担忧，因为应用领域的特殊性，错误输出对诊断结果和病人护理产生的不利影响要严重得多。

那么，数据污染究竟在多大程度上会成为问题？是否需要将数据集中相当大比例的数据替换为包含虚假信息的数据，才能让大模型「中毒」？

Nature Medicine看灯的一项最新研究指出，并不需要想象的那么多。

论文地址：https://www.nature.com/articles/s41591-024-03445-1

搞坏一款大模型有多容易

研究者通过使用OpenAI GPT-3.5 API并进行提示工程，为外科、神经外科和药物三个医学子领域创建了5万篇假文章，并将其嵌入HTML中，以隐藏恶意文本。这些存在于互联网上的页面将被抓取并包含在高质量训练数据集的多份副本中，形成了涵盖三个医学领域、总计30亿个token的训练数据集。

之后，分别针对上述三个医学领域，研究人员使用不同比例的虚假数据，训练了6个1.3B参数的模型。训练完成后，15名临床医生手动审查了这些模型生成的医疗相关内容中是否包含有害的虚假信息。

针对大模型的数据污染实验设计

结果显示，在训练时，即使数据集中只有0.01%和0.001%的文本是虚假的，1.3B参数模型输出的有害内容也会分别增加11.2%和 7.2%。

如果换成更大规模的4B参数的领域模型，如果用虚假信息替换100亿训练token中的100万个（虚假信息比例为0.001%），即通过注入仅花费5美元生成的2000篇恶意文章，就会导致有害内容增加4.8%。

如果模型再大一些，进行数据污染攻击的成本也会更大，但投入产出比依旧十分可观。

针对在2万亿token上训练的7B参数LLaMA 2进行类似的数据攻击需要4万篇文章，成本低于100美元。如果按比例扩大以匹配使用高达15万亿token训练的当前最大的LLM，中毒数据的总成本也能保持在1000美元以下。