专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

LLM是如何将信息检索杀死的？

深度学习自然语言处理 · 公众号 · · 2024-11-20 22:49

正文

主题

信任密码：探索LLM文本的长远影响

时间

2024.11.23 10:30-11:30 周六

入群

欢迎加入NICE每周分享交流群，在群内与分享嘉宾和观众进行深入交流讨论，并且可第一时间收到后续NICE分享报告的通知。加群通过小助手认证，群内无广告。

扫码加小助手微信进NICE每周报告分享交流群，备注“ 【昵称-单位-研究方向-NICE 入群】 ”

内容

论文题目 ：Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering
论文链接 ：https://aclanthology.org/2024.acl-long.798.pdf

项目主页 ：https://github.com/VerdureChen/SOS-Retrieval-Loop

相关工作列表 ：

1. Neural Retrievers are Biased Towards LLM-Generated content

2. Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts?

3. PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models

4. Homogenization Effects of Large Language Models on Human Creative Ideation

5. Generative Echo Chamber? Effect of LLM-Powered Search Systems on Diverse Information Seeking

引言

我们正身处一个算法驱动文本生成的新纪元，其中大语言模型（LLMs）的广泛应用不仅提升了内容创作的效率，也增加了虚假信息制造的简易性。随着大语言模型生成的文本数量的增加和被搜索引擎的索引，这些文本对检索增强生成（RAG）系统的影响也将开始显现，对未来信息生态的健康发展可能构成隐性挑战。

我们构建并迭代运行了一个模拟LLM生成文本不断涌入网络数据集的管道，并通过迭代运行评估其对RAG系统性能的影响。研究表明，LLM生成文本在短期内通常会改善检索效果，但从长期来看，将引起检索效果显著下降，而生成性能则保持稳定。进一步分析发现，信息检索（IR）系统对LLM生成文本存在偏好，导致其在搜索结果中持续排名靠前，进而使人类创作内容的可见性和影响力下降，形成了一种数字“沉默螺旋”效应。

这一效应揭示了LLM生成文本对信息生态系统的潜在负面影响：尽管短期内提供了更有效的检索体验，但长期来看可能导致人类创作内容的隐形、搜索结果的同质化以及某些准确信息的难以获取，从而对公共知识获取和决策产生不利影响。本报告也将对其他探究LLM生成内容影响的工作进行简要介绍。

分享内容大纲