专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

生成式AI搜索的局限性及提升建议

吃果冻不吐果冻皮 · 公众号 · 科技自媒体互联网安全 · 2024-11-11 08:33

正文

【点击】加入大模型技术交流群

基于LLM的 生成式搜索引擎（ Generative Search Engines ） 正在取代传统搜索引擎。答案引擎不仅检索与用户查询相关的来源，还综合引用这些来源的答案摘要。与 21名参与者进行了一项研究：评估AI搜索引擎与传统搜索引擎的交互，识别出了 16个AI搜索引擎的局限性 ，提出了 16个 AI搜索引擎 设计建议 ，并与 8个指标相关联 。在三个流行的引擎（ You.com、Perplexity.ai、BingChat ）上实施了自动化评估，量化了常见的局限性（例如，频繁的幻觉、不准确的引用）和独特的特征（例如，答案信心的变化）。

AI搜索引擎的设计流程和用于审计这些系统的研究框架 。展示了答案引擎的关键组成部分，包括它如何根据用户查询生成答案，重点关注输出，如 来源、答案文本和引用 。在右侧，展示了进行的可用性研究的发现摘要，以及You Chat、Bing Copilot和Perplexity的最终评分卡评估。

16个AI搜索引擎的局限性

总结了研究中发现的关于答案引擎的关键局限性，并将这些局限性归类为四个主题： 答案文本（Answer Text）、引用（Citation）、来源（Sources）和用户界面（User Interface） 。

按AI搜索引擎组件主题组织的研究发现摘要，以及明确识别并表达对每个组件担忧的参与者数量。

答案文本 (Answer Text)

需要客观细节 (A.I)：所有参与者（21/21）都表示生成的答案缺乏详细性和上下文深度。
缺乏全面观点 (A.II)：19名参与者表示答案引擎在处理有偏见的问题时未能展示多元观点。
自信语言呈现声明 (A.III)：16名参与者指出答案引擎在呈现声明时使用过于自信的语言。
过于简化的写作形式 (A.IV)：14名参与者认为答案引擎使用的语言过于简单，缺乏创造性和批判性思维。

[A] Perplexity的输出比较 ，它通过仅提供一个片面回应来反映问题中固有的偏见，以及 [B] YouChat ，它承认多种观点，避免呈现不完整的信息。

引用 (Citation)

错误归属和误解来源 (C.I)：21名参与者都提到答案引擎在引用时存在错误归属或误解来源的问题。
基于假设上下文挑选信息 (C.II)：19名参与者注意到答案引擎根据假设的上下文选择性地展示信息。
声明和信息生成缺少引用 (C.III)：18名参与者表示答案引擎在生成关键声明或信息时缺少必要的引用。
模型回应中源选择的透明度缺乏 (C.IV)：15名参与者对答案引擎在选择和优先考虑引用来源时的透明度表示担忧。

[A] Perplexity的输出比较， 它缺乏对生成点的引用，导致对每个句子的实际来源产生混淆，以及[B] Copilot，它有效地指示了每个陈述的来源。

来源 (Sources)

低频使用的来源 (S.I)：19名参与者指出答案引擎用于总结的来源数量低。
检索的来源多于用于生成实际答案的来源 (S.II)：13名参与者提到答案引擎检索的来源多于实际用于生成答案的来源。
来源类型缺乏信任 (S.III)：12名参与者对答案引擎使用的来源类型表示不信任。
来源引用和内容重复 (S.IV)：12名参与者发现答案引擎检索的多个来源包含相同或高度相似的内容。

由Perplexity生成的结果[A]和相应的检索来源[B]。 该图示说明了模型检索了8个来源，其中许多是同一来源的重复。尽管如此，模型以不同的方式引用它们，创造了内容多样化的假象，而实际上却是相同的。

用户界面 (User Interface)

缺乏选择和过滤来源的能力 (U.I)：17名参与者表示答案引擎的用户界面缺乏选择和过滤来源的能力。
生成和源选择中缺乏人工输入 (U.II)：17名参与者认为答案引擎在生成和源选择中缺乏人工输入。
验证和信任答案需要额外工作 (U.III)：14名参与者觉得答案引擎使得验证和信任答案需要额外的工作。
引用格式非标准化交互 (U.IV)：12名参与者对答案引擎的引用格式表示不满，认为它不是一个标准化的交互方式。

16个AI搜索引擎设计建议

概述了针对答案引擎的 16个设计建议 ，并将这些建议与研究发现和相应的 8个 量化指 标相联系。

每个设计建议的总结，以及它们所针对的系统弱点和相应的量化指标

16个AI搜索引擎设计建议的详细解释：

答案文本 (Answer Text) 设计建议

提供平衡的答案 (S-I)：对于可能具有引导性或偏见的问题，答案引擎应提供中立和平衡的答案，不假设或加强用户的偏见。
提供客观细节以支持声明 (S-II)：答案应包含支持其声明的客观细节，如数据和统计信息。
最小化无关信息 (S-III)：答案应避免包含无关的“填充”内容，确保每个句子都与问题直接相关。
反映来源的全面性 (S-IV)：答案引擎应透明地展示其选择和使用来源的理由，增强用户的信任。

引用 (Citation) 设计建议

避免无支持的引用 (C-I)：每个声明都应有适当的引用支持，否则应移除或明确其相关性。
双重检查引用错误 (C-II)：答案引擎应评估引用的外部一致性，减少错误归属或脱离上下文的引用。
引用所有相关的来源 (C-III)：对于需要多个参考点支持的声明，应引用所有相关来源。
检索的来源必须等于使用的来源 (C-IV)：确保列出的来源数量与实际用于构建答案的来源数量相匹配。

来源 (Sources) 设计建议

明确关注专家来源 (S-I)：答案引擎应识别并优先考虑权威来源，尤其是在它们提供明确答案时。
仅检索和使用必要的来源 (S-II)：模型应更选择性地检索来源，确保仅使用那些对于构建精确和上下文适宜的回答所必需的来源。
区分来源基础与模型生成内容 (S-III)：系统应区分基于来源的内容和模型生成的内容，增强透明度和用户信任。
明确提及并意识到来源类型 (S-IV)：答案引擎应智能评估和优先考虑来源类型，确保使用最可信和相关的来源。

用户界面 (User Interface) 设计建议

纳入人类对来源和文本的反馈 (U-I)：允许用户对搜索结果和生成内容提供反馈，提高回答的准确性和相关性。
实施交互式引用 (U-II)：开发交互式引用功能，如悬停弹出窗口，以提高用户对信息来源的理解和验证。
采用段落级本地引用 (U-III)：明确指示引用的确切信息和来源，提高透明度。
在信息不足时避免强制回答 (U-IV)：面对无法回答或信息不足的问题时，答案引擎应避免生成误导性或无关的回答。

AI搜索引擎响应处理到答案引擎评估框架（AEE）的 8个指标的说明图

8个量化指标

一边倒答案 (One-Sided Answer)
过度自信的答案 (Overconfident Answer)
相关声明 (Relevant Statements)
未引用的声明 (Unsupported Statements)
引用准确性 (Citation Accuracy)
引用彻底性 (Citation Thoroughness)
来源必要性 (Source Necessity)