专栏名称: Coggle数据科学
Coggle全称Communication For Kaggle,专注数据科学领域竞赛相关资讯分享。
目录
相关文章推荐
51好读  ›  专栏  ›  Coggle数据科学

Typed-RAG:非事实问答的问题分解RAG

Coggle数据科学  · 公众号  ·  · 2025-03-26 16:19

正文

请到「今天看啥」查看全文


在自然语言处理领域,非事实问答(Non-factoid Question Answering,简称 NFQA)一直是一个极具挑战性的研究方向。

与传统的事实问答(Factoid QA)不同,非事实问答问题没有明确的答案,需要从多个方面进行综合推理,这使得传统的问答方法,包括检索增强生成(Retrieval-Augmented Generation,简称 RAG)方法,都显得有些力不从心。

今天,我们将介绍一种新的方法——Typed-RAG,它通过类型感知的多方面分解来解决这一难题。

https://arxiv.org/pdf/2503.15879

https://github.com/TeamNLP/Typed-RAG

unset unset 非事实性问题的挑战 unset unset

非事实性问题(NFQs)与我们常见的事实性问题(Factoid Questions,简称 FQs)有很大的不同。事实性问题通常有一个明确的答案, 比如“法国的首都是哪里?”答案就是“巴黎”。 而 NFQs 的答案往往不是唯一的,比如“人工智能对社会的利弊”,这个问题可能需要从技术、经济、伦理等多个角度来回答。这种复杂性使得传统的问答系统很难满足用户的需求。

现有的非事实性问答方法(NFQA)虽然在某些方面有所改进,但仍然存在一些问题。比如,它们很难处理多样化的 NFQs,也没有充分利用大型语言模型(LLMs)和检索增强生成(RAG)框架。标准的 RAG 方法虽然能够增强回答的上下文相关性,但无法应对 NFQs 的多样性,导致生成的回答过于单一,缺乏多方面的深度。

unset unset 非事实性问题的分类 unset unset

为了更好地应对复杂多样的问题,研究者们对问题进行了广泛的分类。

  • 事实性问题(FQs)只需要一个简单的、直接的答案,比如“法国的首都是哪里?”答案就是“巴黎”。
  • 非事实性问题(NFQs)。需要更复杂、更主观或更全面的回答。

此外还有更加细致的划分:

  • 指导型(Instruction)
  • 原因型(Reason)
  • 基于证据型(Evidence-based)
  • 比较型(Comparison)
  • 经验型(Experience)
  • 辩论型(Debate)

unset unset NFQA 的评估指标 unset unset

传统的评估指标,如 ROUGE BERTScore ,通常用于评估 FQA 系统的回答质量。然而,这些指标在评估 NFQA 的回答时往往显得力不从心,因为它们无法捕捉到非事实性回答的语义丰富性和细微的质量差异。

为了克服这一问题, LINKAGE是一个用于 NFQA 评估的列表排名框架。LINKAGE 利用 LLM 作为评分器,对候选答案进行排名,并与按质量排序的参考答案进行比较。

这种方法与人类标注的相关性更强,优于传统指标,显示出其作为更优评估方法的潜力。

unset unset Typed-RAG 思路 unset unset

Typed-RAG 的核心在于将非事实性问题(NFQs)分类,并针对每种类型的问题采用不同的处理策略。NFQs 的类型多样,意图不同,回答的角度也不同。

有些问题需要对比,有些需要经验分享,有些则需要辩论。Typed-RAG 通过多方面分解,将复杂的 NFQs 分解为多个单方面子问题,分别处理后再进行聚合,生成全面且精准的回答。

基于证据型(Evidence-based)问题

这类问题通常要求对特定概念、对象或事件的特征或定义进行解释,需要基于事实的回答。例如,“人工智能的定义是什么?”这类问题通常只需要从一个角度回答,因此不需要进行多方面分解。

对于基于证据型问题,Typed-RAG 采用直接的 RAG 方法。检索器(Retriever)以问题为查询,检索相关的段落;生成器(Generator)则基于这些段落生成清晰、简洁且准确的回答。

比较型(Comparison)问题

这类问题用于比较关键词之间的差异、相似性或优劣。例如,“人工智能和机器学习有什么区别?”这类问题需要从多个角度进行回答,因此需要进行多方面分解。

  1. 关键词提取 :首先,关键词提取器(Keyword Extractor)识别比较的目的(compare_type)和目标(keywords_list)。
  2. 检索与去重 :检索器根据每个关键词检索相关段落,并去除重复内容。
  3. 重新排序 :根据相关性对剩余段落进行重新排序。
  4. 生成回答 :生成器结合这些信息,生成符合比较目的的回答。

经验型(Experience)问题

这类问题通常寻求建议或推荐,基于个人经验进行解释。例如,“如何提高编程能力?”这类问题需要从多个角度提供经验分享。

  1. 检索相关段落 :检索器检索与问题相关的段落。
  2. 基于相似性的重新排序 :关键词提取器提取关键词后,根据相似性对段落进行重新排序。
  3. 生成回答 :生成器根据检索到的段落生成符合问题意图的回答。

原因型(Reason)/指导型(Instruction)问题

原因型问题旨在探索特定现象的原因,指导型问题则关注程序或方法的理解。例如,“为什么人工智能发展如此迅速?”或“如何学习人工智能?”这类问题需要清晰、全面且结构化的回答。

  1. 多方面分解 :将问题分解为多个单方面子问题。
  2. 分别处理 :每个子问题分别由检索器检索相关段落,生成器生成回答。
  3. 聚合答案 :答案聚合器(Answer Aggregator)将这些单独的回答合并为一个简洁、准确的最终回答。

辩论型(Debate)问题

这类问题是假设性问题,旨在探索多种视角,包括对立的观点。例如,“人工智能是否对社会有益?”这类问题需要生成一个平衡的回答,反映多种视角。

  1. 多方面分解 :将问题分解为多个单方面子问题。
  2. 分别处理 :每个子问题分别由检索器检索相关段落,生成器生成回答。
  3. 聚合答案 :辩论调解器(Debate Mediator)将主题和各种观点结合起来,生成一个平衡的最终回答。

unset unset 实验设计与效果 unset unset

实验设置

为了评估 NFQA 系统的性能,研究者们采用了 LINKAGE 方法。LINKAGE 是一种基于列表的排名方法,通过比较候选回答与参考回答的质量,对候选回答进行排名。这种方法能够更好地捕捉回答的语义丰富性和质量差异。

评估指标包括:

  • Mean Reciprocal Rank(MRR) :衡量候选回答在排名中的位置,值越高表示回答越接近顶部。
  • Mean Percentile Rank(MPR) :将排名归一化为百分位数,反映回答在其参考列表中的相对位置,值越高表示整体表现越好。

Typed-RAG 的优势

实验结果显示,Typed-RAG 在 Wiki-NFQA 数据集的所有子数据集、问题类别和模型配置中,均优于基于 LLM 和 RAG 的基线方法。具体来说:

  • MRR 和 MPR 指标 :Typed-RAG 的 MRR 和 MPR 分数均高于其他方法,表明其生成的回答不仅排名更靠前,而且在语义相关性和质量上也更胜一筹。
  • 不同模型配置 :无论是使用 Llama-3.2-3B 还是 Mistral-7B,Typed-RAG 均表现出色,尤其是在需要复杂推理的数据集上,优势更为明显。

评分模型的影响

实验还发现,评分模型(scorer LLMs)的选择对结果有显著影响。例如,当使用 GPT-4o mini 作为评分模型时,所有方法的得分普遍较低。这是因为 GPT-4o mini 是一个更强大的模型,对回答的质量要求更高,因此评分更为严格。然而,尽管评分标准更严格,Typed-RAG 仍然保持了对基线方法的优势。

RAG 的局限性与 Typed-RAG 的改进

传统的 RAG 方法在 NFQA 任务中表现不佳,一个重要原因是检索到的事实信息往往会引入噪声,而不是帮助生成回答。

Typed-RAG 通过多方面分解策略,优化了检索过程,减少了无关噪声,确保检索到的信息更具相关性。这使得 Typed-RAG 在生成高质量回答方面表现优异。

unset unset 编辑推荐 unset unset

《StatQuest图解机器学习》,亚马逊4.8分,是本引进版的书。原作者是油管特别知名的账号“StatQuest”,数据、统计、机器学习方向的读者都可以读,因为有很多人看他的视频得以成功拿下offer,被外网用户称为“硅谷守护神”非常有意思的漫画书。

# 留言领书,送三本 #



# 学习大模型 & 讨论Kaggle #

图片


△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

36000+ 来自竞赛爱好者一起交流~ 图片







请到「今天看啥」查看全文


推荐文章
智囊团达人  ·  我想带一个靠谱的人回家
8 年前
ZOL中关村在线  ·  iPhone丢失前一定要做好这些措施
8 年前