论文
:[ACL2024] Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering
地址
:https://arxiv.org/pdf/2404.10496
研究背景
研究问题
:这篇文章研究了大型语言模型(LLMs)对检索增强生成(RAG)系统的影响,特别是LLM文本在信息检索和生成中的短期和长期效应。具体来说,研究了LLM生成文本是否会逐渐取代人类生成的内容,导致数字信息生态系统中的“沉默螺旋”效应。
研究难点
:该问题的研究难点包括:LLM生成文本的快速传播和索引对检索和生成过程的影响;如何评估LLM生成文本对RAG系统的短期和长期影响;以及如何防止LLM生成内容的错误传播和误导信息的扩散。
相关工作
:相关研究包括RAG系统的分析、AIGC的影响以及“沉默螺旋”理论的应用。RAG系统的研究表明,检索在增强语言模型效能方面起到了重要作用。AIGC的研究则集中在AI生成内容对社会和技术的影响,特别是对错误信息和偏见的研究。
研究方法
这篇论文提出了一个迭代管道来研究LLM生成文本对RAG系统的短期和长期影响。具体来说,
RAG系统建模
:RAG系统可以形式化为一个函数
, 其中
是查询集合,
是文档集合,
是LLM的知识库,
是系统生成的文本集合。RAG系统分为检索阶段和生成阶段, 分别通过检索函数
和生成函数
实现。
模拟过程
:模拟过程从纯人类生成文本数据集开始, 逐步引入LLM生成文本, 观察其对RAG系统的影响。具体步骤包括:
基线建立:使用初始数据集
建立基准RAG管道的性能。
零样本文本引入:将LLM生成的零样本文本加入数据集
, 生成新的数据集
。
检索和重排:对每个查询
, 通过检索函数
获取文档子集
, 并进行重排。
索引更新:将生成的文本
加入数据集
, 更新索引。
迭代操作: 重复上述步骤, 直到达到所需的迭代次数
。
实验设计
数据集和指标
:实验使用了常用的开放域问答(ODQA)数据集,包括NQ、WebQ、TriviaQA和PopQA。评估检索阶段的指标包括Acc@5和Acc@20,评估生成阶段使用Exact Match(EM)指标。