在自然语言处理领域,非事实问答(Non-factoid Question Answering,简称 NFQA)一直是一个极具挑战性的研究方向。
与传统的事实问答(Factoid QA)不同,非事实问答问题没有明确的答案,需要从多个方面进行综合推理,这使得传统的问答方法,包括检索增强生成(Retrieval-Augmented Generation,简称 RAG)方法,都显得有些力不从心。
今天,我们将介绍一种新的方法——Typed-RAG,它通过类型感知的多方面分解来解决这一难题。
https://arxiv.org/pdf/2503.15879
https://github.com/TeamNLP/Typed-RAG
unset
unset
非事实性问题的挑战
unset
unset
非事实性问题(NFQs)与我们常见的事实性问题(Factoid Questions,简称 FQs)有很大的不同。事实性问题通常有一个明确的答案,
比如“法国的首都是哪里?”答案就是“巴黎”。
而 NFQs 的答案往往不是唯一的,比如“人工智能对社会的利弊”,这个问题可能需要从技术、经济、伦理等多个角度来回答。这种复杂性使得传统的问答系统很难满足用户的需求。
现有的非事实性问答方法(NFQA)虽然在某些方面有所改进,但仍然存在一些问题。比如,它们很难处理多样化的 NFQs,也没有充分利用大型语言模型(LLMs)和检索增强生成(RAG)框架。标准的 RAG 方法虽然能够增强回答的上下文相关性,但无法应对 NFQs 的多样性,导致生成的回答过于单一,缺乏多方面的深度。
unset
unset
非事实性问题的分类
unset
unset
为了更好地应对复杂多样的问题,研究者们对问题进行了广泛的分类。
-
事实性问题(FQs)只需要一个简单的、直接的答案,比如“法国的首都是哪里?”答案就是“巴黎”。
-
非事实性问题(NFQs)。需要更复杂、更主观或更全面的回答。
此外还有更加细致的划分:
unset
unset
NFQA 的评估指标
unset
unset
传统的评估指标,如
ROUGE
和
BERTScore
,通常用于评估 FQA 系统的回答质量。然而,这些指标在评估 NFQA 的回答时往往显得力不从心,因为它们无法捕捉到非事实性回答的语义丰富性和细微的质量差异。
为了克服这一问题,
LINKAGE是一个用于 NFQA 评估的列表排名框架。LINKAGE 利用 LLM 作为评分器,对候选答案进行排名,并与按质量排序的参考答案进行比较。
这种方法与人类标注的相关性更强,优于传统指标,显示出其作为更优评估方法的潜力。
unset
unset
Typed-RAG 思路
unset
unset
Typed-RAG 的核心在于将非事实性问题(NFQs)分类,并针对每种类型的问题采用不同的处理策略。NFQs 的类型多样,意图不同,回答的角度也不同。
有些问题需要对比,有些需要经验分享,有些则需要辩论。Typed-RAG 通过多方面分解,将复杂的 NFQs 分解为多个单方面子问题,分别处理后再进行聚合,生成全面且精准的回答。
基于证据型(Evidence-based)问题
这类问题通常要求对特定概念、对象或事件的特征或定义进行解释,需要基于事实的回答。例如,“人工智能的定义是什么?”这类问题通常只需要从一个角度回答,因此不需要进行多方面分解。
对于基于证据型问题,Typed-RAG 采用直接的 RAG 方法。检索器(Retriever)以问题为查询,检索相关的段落;生成器(Generator)则基于这些段落生成清晰、简洁且准确的回答。
比较型(Comparison)问题
这类问题用于比较关键词之间的差异、相似性或优劣。例如,“人工智能和机器学习有什么区别?”这类问题需要从多个角度进行回答,因此需要进行多方面分解。
-
关键词提取
:首先,关键词提取器(Keyword Extractor)识别比较的目的(compare_type)和目标(keywords_list)。
-
检索与去重
:检索器根据每个关键词检索相关段落,并去除重复内容。
-
-
生成回答
:生成器结合这些信息,生成符合比较目的的回答。
经验型(Experience)问题
这类问题通常寻求建议或推荐,基于个人经验进行解释。例如,“如何提高编程能力?”这类问题需要从多个角度提供经验分享。
-
-
基于相似性的重新排序
:关键词提取器提取关键词后,根据相似性对段落进行重新排序。
-
生成回答
:生成器根据检索到的段落生成符合问题意图的回答。
原因型(Reason)/指导型(Instruction)问题
原因型问题旨在探索特定现象的原因,指导型问题则关注程序或方法的理解。例如,“为什么人工智能发展如此迅速?”或“如何学习人工智能?”这类问题需要清晰、全面且结构化的回答。
-
-
分别处理
:每个子问题分别由检索器检索相关段落,生成器生成回答。
-
聚合答案
:答案聚合器(Answer Aggregator)将这些单独的回答合并为一个简洁、准确的最终回答。
辩论型(Debate)问题
这类问题是假设性问题,旨在探索多种视角,包括对立的观点。例如,“人工智能是否对社会有益?”这类问题需要生成一个平衡的回答,反映多种视角。
-
-
分别处理
:每个子问题分别由检索器检索相关段落,生成器生成回答。
-
聚合答案
:辩论调解器(Debate Mediator)将主题和各种观点结合起来,生成一个平衡的最终回答。
unset
unset
实验设计与效果
unset
unset
实验设置
为了评估 NFQA 系统的性能,研究者们采用了 LINKAGE 方法。LINKAGE 是一种基于列表的排名方法,通过比较候选回答与参考回答的质量,对候选回答进行排名。这种方法能够更好地捕捉回答的语义丰富性和质量差异。
评估指标包括:
-
Mean Reciprocal Rank(MRR)
:衡量候选回答在排名中的位置,值越高表示回答越接近顶部。
-
Mean Percentile Rank(MPR)
:将排名归一化为百分位数,反映回答在其参考列表中的相对位置,值越高表示整体表现越好。
Typed-RAG 的优势
实验结果显示,Typed-RAG 在 Wiki-NFQA 数据集的所有子数据集、问题类别和模型配置中,均优于基于 LLM 和 RAG 的基线方法。具体来说:
-
MRR 和 MPR 指标
:Typed-RAG 的 MRR 和 MPR 分数均高于其他方法,表明其生成的回答不仅排名更靠前,而且在语义相关性和质量上也更胜一筹。
-
不同模型配置
:无论是使用 Llama-3.2-3B 还是 Mistral-7B,Typed-RAG 均表现出色,尤其是在需要复杂推理的数据集上,优势更为明显。
评分模型的影响
实验还发现,评分模型(scorer LLMs)的选择对结果有显著影响。例如,当使用 GPT-4o mini 作为评分模型时,所有方法的得分普遍较低。这是因为 GPT-4o mini 是一个更强大的模型,对回答的质量要求更高,因此评分更为严格。然而,尽管评分标准更严格,Typed-RAG 仍然保持了对基线方法的优势。
RAG 的局限性与 Typed-RAG 的改进
传统的 RAG 方法在 NFQA 任务中表现不佳,一个重要原因是检索到的事实信息往往会引入噪声,而不是帮助生成回答。
Typed-RAG 通过多方面分解策略,优化了检索过程,减少了无关噪声,确保检索到的信息更具相关性。这使得 Typed-RAG 在生成高质量回答方面表现优异。
unset
unset
编辑推荐
unset
unset
《StatQuest图解机器学习》,亚马逊4.8分,是本引进版的书。原作者是油管特别知名的账号“StatQuest”,数据、统计、机器学习方向的读者都可以读,因为有很多人看他的视频得以成功拿下offer,被外网用户称为“硅谷守护神”非常有意思的漫画书。
#
留言领书,送三本
#
#
学习大模型 & 讨论Kaggle
#
与
36000+
来自竞赛爱好者一起交流~