专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
超级学爸  ·  清末的剧本!美国特马的百日维新开始了 ·  10 小时前  
育学园  ·  这种玉米,比白糖还升血糖!玉米的 4 个真相 ·  15 小时前  
人人都是产品经理  ·  购物心理战,让顾客“捡便宜”的价格设计策略 ·  22 小时前  
科学家庭育儿  ·  99.9%的男人都不懂,女人的“月子仇”为啥 ... ·  昨天  
育学园  ·  中国人这 2 ... ·  2 天前  
51好读  ›  专栏  ›  深度学习自然语言处理

LLM是如何将信息检索杀死的?

深度学习自然语言处理  · 公众号  ·  · 2024-11-20 22:49

正文

主题

信任密码:探索LLM文本的长远影响

时间

2024.11.23 10:30-11:30 周六

入群


欢迎加入NICE每周分享交流群,在群内与分享嘉宾和观众进行深入交流讨论,并且可第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。


扫码加小助手微信进NICE每周报告分享交流群,备注“ 【昵称-单位-研究方向-NICE 入群 】 ”

内容


论文题目 :Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering

论文链接 :https://aclanthology.org/2024.acl-long.798.pdf

项目主页 :https://github.com/VerdureChen/SOS-Retrieval-Loop
相关工作列表
1. Neural Retrievers are Biased Towards LLM-Generated content
2. Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts?
3. PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models
4. Homogenization Effects of Large Language Models on Human Creative Ideation
5. Generative Echo Chamber? Effect of LLM-Powered Search Systems on Diverse Information Seeking


引言

我们正身处一个算法驱动文本生成的新纪元,其中大语言模型(LLMs)的广泛应用不仅提升了内容创作的效率,也增加了虚假信息制造的简易性。随着大语言模型生成的文本数量的增加和被搜索引擎的索引,这些文本对检索增强生成(RAG)系统的影响也将开始显现,对未来信息生态的健康发展可能构成隐性挑战。
我们构建并迭代运行了一个模拟LLM生成文本不断涌入网络数据集的管道,并通过迭代运行评估其对RAG系统性能的影响。研究表明,LLM生成文本在短期内通常会改善检索效果,但从长期来看,将引起检索效果显著下降,而生成性能则保持稳定。进一步分析发现,信息检索(IR)系统对LLM生成文本存在偏好,导致其在搜索结果中持续排名靠前,进而使人类创作内容的可见性和影响力下降,形成了一种数字“沉默螺旋”效应。
这一效应揭示了LLM生成文本对信息生态系统的潜在负面影响:尽管短期内提供了更有效的检索体验,但长期来看可能导致人类创作内容的隐形、搜索结果的同质化以及某些准确信息的难以获取,从而对公共知识获取和决策产生不利影响。本报告也将对其他探究LLM生成内容影响的工作进行简要介绍。


分享内容大纲

  • Neural IR中的来源偏差
  • RAG中的“沉默螺旋”

  • 怎样构造合理的环境来模拟LLM生成文本涌入互联网

  • LLM生成文本对RAG系统的短期影响

  • 短期影响是否能递推到长期

  • 量化解释现象

  • 其他因素探究







请到「今天看啥」查看全文