这篇文章探讨了长上下文大语言模型(LLMs)在列表排序任务中的应用,特别是全排序策略与滑动窗口策略的比较。文章指出,尽管滑动窗口策略在零样本设置中表现更好,但在监督微调设置中,经过适当微调的全排序模型表现更优。为了克服现有方法的局限性,作者提出了一种多遍滑动窗口方法和一种重要性感知的学习目标函数。实验结果表明,这些改进显著提高了模型的性能和效率。
论文:
Sliding Windows Are Not the End: Exploring Full Ranking with Long-Context Large Language Models
链接:
https://arxiv.org/pdf/2412.14574v1
出自
:「深度学习自然语言处理」
研究背景
研究问题:如何在长上下文大型语言模型(LLMs)中进行全文排名,以提高效率并保证有效性。现有的滑动窗口策略虽然有效,但存在重复评估和API成本高昂的问题。
研究难点:滑动窗口策略无法生成完整的排名列表;现有的语言建模损失函数无法强调排名靠前的文档ID。
相关工作:利用LLMs进行信息检索的研究;现有的基于滑动窗口的列表排名方法;以及长上下文LLMs的发展和应用。
研究方法
这篇论文提出了使用长上下文LLMs进行全文排名的方法,以解决现有方法中存在的效率和有效性问题。具体来说,
多遍历滑动窗口方法:首先,采用BM25检索前100个候选文档,然后使用教师模型对这些文档进行重排,生成完整的排名列表。为了克服单次滑动窗口只能保证前10个最相关文档的局限,提出了多遍历滑动窗口方法,逐步生成完整的排名列表。
重要性感知损失函数:其次,提出了一种重要性感知的损失函数
,该函数根据文档ID的排名位置重新加权标签中的ID。具体公式如下:
其中,
表示第i个token对应的文档排名,α表示非文档ID的权重。
实验设计
数据集:实验使用了TREC DL 2019、TREC DL 2020和BEIR基准数据集。BEIR包含18个不同领域的数据集,用于评估模型的零样本能力。
基线模型:除了比较滑动窗口模型和全文排名模型的性能外,还包括几种微调的重排器,如monoBERT、monoT5、RankVicuna和RankZephyr。
实现细节:在零样本设置中,选择了开源和专有模型进行评估。在监督微调设置中,使用BM25检索前20个文档,并使用教师模型进行重排以获得训练标签。选择Mistral-7B-Instruct-v0.3作为主干模型,并使用两种不同的教师模型进行微调。
结果与分析
零样本设置:在零样本设置中,全文排名策略在所有数据集上的表现均不如滑动窗口策略。这表明全文排名显著增加了LLMs的排名难度,导致性能下降。然而,在某些数据集上,全文排名策略的表现优于滑动窗口策略,例如在Touche数据集上。
监督微调设置:在监督微调设置中,全文排名模型RankMistral100在几乎所有数据集上的表现均优于滑动窗口模型RankMistral20。RankMistral100在TREC和BEIR上的平均改进分别约为4和2个百分点。