专栏名称: 蝌蚪五线谱
蝌蚪五线谱由北京市科学技术协会主办,专注做权威、有趣、贴近生活的互联网科学传播。
目录
相关文章推荐
春城晚报  ·  “真看不下去了”!知名男星宣布做卫生巾 ·  4 小时前  
九派新闻  ·  《黑神话:悟空》PS5国行版获批 ·  23 小时前  
九派新闻  ·  《黑神话:悟空》PS5国行版获批 ·  23 小时前  
TapTap发现好游戏  ·  这款“大厂离职回老家”模拟器,可能是更适合中 ... ·  4 天前  
昆明信息港  ·  从昆明可以坐大巴去拉萨啦!票价…… ·  昨天  
51好读  ›  专栏  ›  蝌蚪五线谱

AI一本正经地胡说八道,有种办法可以识破它

蝌蚪五线谱  · 公众号  ·  · 2024-12-23 17:30

正文



近年来,生成式人工智能在文本、图像、音乐等领域大放异彩。然而,随着生成式人工智能变得越来越强大,人们越来越难以鉴别AI生成的内容。


近日,Google DeepMind 研究团队在《自然》 (Nature) 上发表的封面文章提供了 一种文本水印方案,可以提高 AI 生成文本的检测精度。


AI 生成内容检测的必要性


在文本、图像和音乐中,AI 生成的文本是最难以检测的。 因为现有的图像和音乐生成技术尚未像文本生成技术一样发达,AI 生成的图像和音乐往往有某些非自然的视觉或听觉特征。AI 生成的内容在整体上效果较好,但具体到细节就显得不够自然。在图像和音乐中,也可以人工添加人类难以发现的水印,在后期检测中通过水印筛选出AI生成的作品。


然而在文本中难以直接添加人类不可见的水印,这是因为文本与图像和音乐不同,每一个文字都是完全可见的。同时,可用于训练 AI 的文本数据也远多于图像和音乐。在庞大的、基于人类写作的语料库的训练之下,AI 已经非常擅长模拟人类的表达方式和语言习惯,甚至能够调整文本的风格和语气,这使得 AI 生成的文本难以直接检测。


尽管 AI 生成的文本与人类创作的文本难以分辨, 但 AI 生成的内容可能带有事实性的错误,并不能保证可靠性。 无法辨别来源的内容可能会导致虚假信息的传播,也带来了学术作弊、版权争议等种种问题。


比如,在“杭州取消机动车依尾号限行”假新闻事件中,网友用 AI 技术生成的“假新闻”行文严谨、语气措辞得当,也基本符合官方通报的格式,导致了错误信息大规模传播。美国科技新闻网站 CNET 在三个月之内上线了 70 多篇用 AI 技术生成的新闻报道,却被发现其中存在大量基础性错误,包括计算错误、金融概念误解等,不得不暂时叫停AI项目重新审核。


为了避免 AI 技术的滥用,我们需要一种方法来辨别文本是否由 AI 生成。


主流检测方法:事前与事后检测


检测 AI 生成的文本是一个分类问题,我们的主要目标是区分一个文本片段是由 AI 生成的还是由人类创作的。 通常一个文本检测器对于一个给定的文本片段会给出一个评分,当这个评分超过阈值时,这个片段被认为是 AI 生成的,反之则是人类创作的。


文本检测框架(图片来源:根据参考文献 [1] 翻译)


现有的主流检测方法可以分为两大类:事前检测和事后检测。 事前检测可以进一步分为基于水印的检测和基于检索的检测。事后检测可以分为基于零样本学习的检测和基于训练的检测。


主流检测方法分类(图片来源:根据参考文献 [1] 翻译)


1

事前检测


基于水印的检测 是指在 AI 生成的文本中隐藏某些信息以便后续检测。但由于文本的离散性,在文本中添加水印比在图像和音乐中添加水印困难很多。常用的方法是让 AI 生成的文本使用特定的语言风格或者偏向性地使用某些特定的词汇,但这样可能会降低 AI 生成文本的质量。


基于检索的方法 是指 AI 服务的提供者将用户通过 AI 生成的文本保存在数据库中。当需要检测目标文本是否由 AI 生成时,将目标文本与数据库中的文本进行匹配,如果相似度较高,则很可能是 AI 生成的。但这种方法需要保存用户数据,可能带来隐私泄露的问题。


2

事后检测


基于零样本学习的检测 是指不需要进行任何的训练,仅根据 AI 生成文本的特点来检测一段文本是否是 AI 生成的。通常 AI 生成的文本倾向于使用常见的词汇,句子的长度和结构也更加统一。而人类创作的文本则显得更加随心所欲,每一句的水平也参差不齐。与人类相比,AI 在记忆细节上能力较强,而在逻辑推理上能力较弱。利用这些特点可以在一定程度上区分 AI 生成的文本和人类创作的文本。


基于训练的检测 是指使用人类创作的文本和 AI 生成的文本构建一个数据集,用这个数据集训练一个分类器来识别 AI 生成的文本。但这需要收集足够的数据用于训练,并且随着 AI 能力的进步,这样的区分也变得越来越困难。


可以看到,事后检测比事前检测要困难许多。为了高精度地筛选出 AI 生成的文本,在事前 AI 生成文本时就添加水印是一个很好的解决方案。


Google DeepMind 的突破:







请到「今天看啥」查看全文