专栏名称: Coggle数据科学

Coggle全称Communication For Kaggle，专注数据科学领域竞赛相关资讯分享。

Typed-RAG：非事实问答的问题分解RAG

Coggle数据科学 · 公众号 · · 2025-03-26 16:19

正文

请到「今天看啥」查看全文

在自然语言处理领域，非事实问答（Non-factoid Question Answering，简称 NFQA）一直是一个极具挑战性的研究方向。

与传统的事实问答（Factoid QA）不同，非事实问答问题没有明确的答案，需要从多个方面进行综合推理，这使得传统的问答方法，包括检索增强生成（Retrieval-Augmented Generation，简称 RAG）方法，都显得有些力不从心。

今天，我们将介绍一种新的方法——Typed-RAG，它通过类型感知的多方面分解来解决这一难题。

https://arxiv.org/pdf/2503.15879

https://github.com/TeamNLP/Typed-RAG

unset unset 非事实性问题的挑战 unset unset

非事实性问题（NFQs）与我们常见的事实性问题（Factoid Questions，简称 FQs）有很大的不同。事实性问题通常有一个明确的答案， 比如“法国的首都是哪里？”答案就是“巴黎”。 而 NFQs 的答案往往不是唯一的，比如“人工智能对社会的利弊”，这个问题可能需要从技术、经济、伦理等多个角度来回答。这种复杂性使得传统的问答系统很难满足用户的需求。

现有的非事实性问答方法（NFQA）虽然在某些方面有所改进，但仍然存在一些问题。比如，它们很难处理多样化的 NFQs，也没有充分利用大型语言模型（LLMs）和检索增强生成（RAG）框架。标准的 RAG 方法虽然能够增强回答的上下文相关性，但无法应对 NFQs 的多样性，导致生成的回答过于单一，缺乏多方面的深度。

unset 非事实性问题的分类 unset unset

为了更好地应对复杂多样的问题，研究者们对问题进行了广泛的分类。

事实性问题（FQs）只需要一个简单的、直接的答案，比如“法国的首都是哪里？”答案就是“巴黎”。
非事实性问题（NFQs）。需要更复杂、更主观或更全面的回答。

此外还有更加细致的划分：

指导型（Instruction）
原因型（Reason）
基于证据型（Evidence-based）
比较型（Comparison）
经验型（Experience）
辩论型（Debate）

unset NFQA 的评估指标 unset unset

传统的评估指标，如 ROUGE 和 BERTScore ，通常用于评估 FQA 系统的回答质量。然而，这些指标在评估 NFQA 的回答时往往显得力不从心，因为它们无法捕捉到非事实性回答的语义丰富性和细微的质量差异。

为了克服这一问题， LINKAGE是一个用于 NFQA 评估的列表排名框架。LINKAGE 利用 LLM 作为评分器，对候选答案进行排名，并与按质量排序的参考答案进行比较。

这种方法与人类标注的相关性更强，优于传统指标，显示出其作为更优评估方法的潜力。

unset unset Typed-RAG 思路 unset

Typed-RAG 的核心在于将非事实性问题（NFQs）分类，并针对每种类型的问题采用不同的处理策略。NFQs 的类型多样，意图不同，回答的角度也不同。

有些问题需要对比，有些需要经验分享，有些则需要辩论。Typed-RAG 通过多方面分解，将复杂的 NFQs 分解为多个单方面子问题，分别处理后再进行聚合，生成全面且精准的回答。

基于证据型（Evidence-based）问题

这类问题通常要求对特定概念、对象或事件的特征或定义进行解释，需要基于事实的回答。例如，“人工智能的定义是什么？”这类问题通常只需要从一个角度回答，因此不需要进行多方面分解。

对于基于证据型问题，Typed-RAG 采用直接的 RAG 方法。检索器（Retriever）以问题为查询，检索相关的段落；生成器（Generator）则基于这些段落生成清晰、简洁且准确的回答。

比较型（Comparison）问题

这类问题用于比较关键词之间的差异、相似性或优劣。例如，“人工智能和机器学习有什么区别？”这类问题需要从多个角度进行回答，因此需要进行多方面分解。

关键词提取 ：首先，关键词提取器（Keyword Extractor）识别比较的目的（compare_type）和目标（keywords_list）。
检索与去重 ：检索器根据每个关键词检索相关段落，并去除重复内容。
重新排序 ：根据相关性对剩余段落进行重新排序。
生成回答 ：生成器结合这些信息，生成符合比较目的的回答。

经验型（Experience）问题

这类问题通常寻求建议或推荐，基于个人经验进行解释。例如，“如何提高编程能力？”这类问题需要从多个角度提供经验分享。

检索相关段落 ：检索器检索与问题相关的段落。
基于相似性的重新排序 ：关键词提取器提取关键词后，根据相似性对段落进行重新排序。
生成回答 ：生成器根据检索到的段落生成符合问题意图的回答。

原因型（Reason）/指导型（Instruction）问题

原因型问题旨在探索特定现象的原因，指导型问题则关注程序或方法的理解。例如，“为什么人工智能发展如此迅速？”或“如何学习人工智能？”这类问题需要清晰、全面且结构化的回答。

多方面分解 ：将问题分解为多个单方面子问题。
分别处理 ：每个子问题分别由检索器检索相关段落，生成器生成回答。
聚合答案 ：答案聚合器（Answer Aggregator）将这些单独的回答合并为一个简洁、准确的最终回答。

辩论型（Debate）问题

这类问题是假设性问题，旨在探索多种视角，包括对立的观点。例如，“人工智能是否对社会有益？”这类问题需要生成一个平衡的回答，反映多种视角。

多方面分解 ：将问题分解为多个单方面子问题。
分别处理 ：每个子问题分别由检索器检索相关段落，生成器生成回答。
聚合答案 ：辩论调解器（Debate Mediator）将主题和各种观点结合起来，生成一个平衡的最终回答。

unset 实验设计与效果 unset unset

实验设置

为了评估 NFQA 系统的性能，研究者们采用了 LINKAGE 方法。LINKAGE 是一种基于列表的排名方法，通过比较候选回答与参考回答的质量，对候选回答进行排名。这种方法能够更好地捕捉回答的语义丰富性和质量差异。

评估指标包括：

Mean Reciprocal Rank（MRR） ：衡量候选回答在排名中的位置，值越高表示回答越接近顶部。
Mean Percentile Rank（MPR） ：将排名归一化为百分位数，反映回答在其参考列表中的相对位置，值越高表示整体表现越好。

Typed-RAG 的优势

实验结果显示，Typed-RAG 在 Wiki-NFQA 数据集的所有子数据集、问题类别和模型配置中，均优于基于 LLM 和 RAG 的基线方法。具体来说：

MRR 和 MPR 指标 ：Typed-RAG 的 MRR 和 MPR 分数均高于其他方法，表明其生成的回答不仅排名更靠前，而且在语义相关性和质量上也更胜一筹。
不同模型配置 ：无论是使用 Llama-3.2-3B 还是 Mistral-7B，Typed-RAG 均表现出色，尤其是在需要复杂推理的数据集上，优势更为明显。

评分模型的影响

实验还发现，评分模型（scorer LLMs）的选择对结果有显著影响。例如，当使用 GPT-4o mini 作为评分模型时，所有方法的得分普遍较低。这是因为 GPT-4o mini 是一个更强大的模型，对回答的质量要求更高，因此评分更为严格。然而，尽管评分标准更严格，Typed-RAG 仍然保持了对基线方法的优势。

RAG 的局限性与 Typed-RAG 的改进

传统的 RAG 方法在 NFQA 任务中表现不佳，一个重要原因是检索到的事实信息往往会引入噪声，而不是帮助生成回答。

Typed-RAG 通过多方面分解策略，优化了检索过程，减少了无关噪声，确保检索到的信息更具相关性。这使得 Typed-RAG 在生成高质量回答方面表现优异。

unset 编辑推荐 unset

《StatQuest图解机器学习》，亚马逊4.8分，是本引进版的书。原作者是油管特别知名的账号“StatQuest”，数据、统计、机器学习方向的读者都可以读，因为有很多人看他的视频得以成功拿下offer，被外网用户称为“硅谷守护神”非常有意思的漫画书。

# 留言领书，送三本 #

# 学习大模型 & 讨论Kaggle #

△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+ 来自竞赛爱好者一起交流~

Typed-RAG：非事实问答的问题分解RAG

正文

请到「今天看啥」查看全文

unset unset 非事实性问题的挑战 unset unset

unset (adsbygoogle = window.adsbygoogle || []).push({}); unset 非事实性问题的分类 unset unset

unset unset (adsbygoogle = window.adsbygoogle || []).push({}); NFQA 的评估指标 unset unset

unset unset Typed-RAG 思路 unset unset (adsbygoogle = window.adsbygoogle || []).push({});

基于证据型（Evidence-based）问题

比较型（Comparison）问题

经验型（Experience）问题

原因型（Reason）/指导型（Instruction）问题

辩论型（Debate）问题

unset (adsbygoogle = window.adsbygoogle || []).push({}); unset 实验设计与效果 unset unset

实验设置

Typed-RAG 的优势

评分模型的影响

RAG 的局限性与 Typed-RAG 的改进

unset unset 编辑推荐 unset unset

请到「今天看啥」查看全文

unset 非事实性问题的分类 unset unset

unset NFQA 的评估指标 unset unset

unset unset Typed-RAG 思路 unset

unset 实验设计与效果 unset unset

unset 编辑推荐 unset