大语言模型向量检索技术综述：背景知识、数据效率、泛化能力、多任务学习、未来趋势

旺知识 · 公众号 · · 2024-08-24 17:22

正文

预训练语言模型如BERT和T5，是 向量检索 (后续文中使用 密集检索 ) 的关键后端编码器。然而，这些模型通常表现出有限的泛化能力，并在提高领域内准确性方面面临挑战。最近的研究探索了使用大型语言模型（LLMs）作为检索器，实现了各种任务的最新性能。尽管取得了这些进展，LLMs相对于传统检索器的具体优势，以及不同LLM配置—例如参数大小、预训练持续时间和对齐过程—对检索任务的影响仍然不清楚。在这项工作中，我们对包括领域内准确性、数据效率、零样本泛化、长文本检索、基于指令的检索和多任务学习在内的广泛检索任务进行了全面的实证研究。我们评估了超过15种不同的后端LLMs和非LLMs。我们的发现揭示了更大的模型和广泛的预训练一致地提高了领域内准确性和数据效率。此外，更大的模型在零样本泛化、长文本检索、基于指令的检索和多任务学习方面显示出显著的潜力。这些结果强调了LLMs作为密集检索中通用且有效的后端编码器的优势，为未来在这一领域的研究和开发提供了宝贵的见解。

我们翻译解读最新论文：大型语言模型作为密集检索基础，文末有论文链接。作者：张长旺，图源：旺知识

1 引言

密集检索，作为信息检索（IR）的一个新范式，随着深度神经网络的进步而出现。与传统的IR方法不同，密集检索将查询和文档编码为共享潜在空间中的嵌入，通过嵌入相似性捕获它们的语义关系。密集检索模型已成为近期神经检索方法中的主导选择，并广泛应用于各种下游任务，如网络搜索、问答和句子相似性（Karpukhin等人，2020年；Xiong等人，2020年；Muennighoff等人，2022年）。在过去的几年中，密集检索模型广泛采用了BERT（Devlin等人，2018年）和T5（Raffel等人，2020年）等预训练语言模型作为它们的后端编码器。这些模型在识别查询和文档之间的语义相似性方面表现出色。然而，它们在足够通用以处理广泛的检索任务方面仍面临重大挑战（Muennighoff等人，2022年）。它们的领域内检索准确性通常受到其后端编码器容量的限制，例如参数数量（Ni等人，2021年）。此外，密集检索模型通常难以泛化到未见过的数据，需要用大量标记数据进行微调，以便在目标领域表现良好。最后，实现密集检索模型的多功能性需要同时在多个检索任务上进行训练，这要求后端编码器具有足够的容量（Zhang等人，2023年；Xiao等人，2023年）。最近，大型语言模型（LLMs）被提示或微调为密集检索模型，由于它们在语义理解和丰富的世界知识方面的优越能力，因此在广泛的检索任务中取得了改进的性能（Li等人，2023年；Wang等人，2023年；Zhuang等人，2024年；Muennighoff等人，2024年）。这些模型的参数从20亿到560亿不等，预训练充分度从几百亿到数万亿个token不等，包括基础模型和人类偏好对齐的聊天模型。尽管普遍理解更大的模型通常会产生更好的性能（Kaplan等人，2020年；Biderman等人，2023年），但后端LLMs的不同配置（即不同的参数数量、预训练充分度和对齐过程）对不同检索任务的具体益处仍然不清楚。

2 相关工作

相关工作从两个方面进行回顾：密集检索，基于LLM的检索器。首先，在神经检索器领域，密集检索模型一贯展示了在广泛的检索任务中优于传统的稀疏模型如BM25（Karpukhin等人，2020年；Ni等人，2021年；Muennighoff等人，2022年）。密集检索模型成功的关键因素之一是使用强大的预训练语言模型作为它们的初始化。在过去的几年中，像BERT（Devlin等人，2018年）和T5（Raffel等人，2020年）这样的预训练语言模型被广泛用作密集检索的后端编码器。例如，GTR（Ni等人，2021年）突出了基于T5的密集检索模型的领域内准确性和泛化能力，模型参数达到48亿。Fang等人（2024年）探索了密集检索模型的扩展规律，但将他们的研究限制在最多1100万个参数的BERT后端上，并且只探索了领域内的情况。目前，最先进的密集检索器采用超过70亿参数或更多的模型作为后端。Neelakantan等人（2022年）讨论了大规模无监督文本嵌入预训练，观察到当GPT基础的密集检索模型大小从3亿扩展到1750亿参数时，性能持续提高。此外，最近的研究如Wang等人（2023年）已经表明，直接用标记数据进行微调可以实现强大的性能。我们的研究专注于直接使用标记数据进行微调，同时比较各种后端编码器。

大型语言模型（LLMs）最近显示出作为密集检索的后端编码器的显著潜力，这归功于它们大量的参数和广泛的预训练。Repllame（Ma等人，2023年）微调了Llama-2-7B和Llama-2-13B，使它们既可以作为密集检索器也可以作为点式重排器。LLaRA（Li等人，2023年）引入了两个特别设计的预训练任务，以更好地适应后端Llama-27B模型的密集检索，从而在监督和零样本场景中都取得了显著改进。E5-mistral和Gecko（Wang等人，2023年；Lee等人，2024年）使用合成数据增强了基于LLM的密集检索器的训练，采用1.5亿和7亿参数的模型在各种检索任务中取得了显著成果。GRIT（Muennighoff等人，2024年）成功地将文本嵌入和生成统一在一个单一的LLM中，使用一个具有560亿参数（140亿激活参数）的模型，保持了与专门的仅嵌入和仅生成模型相当的性能水平。LLM2Vec（BehnamGhader等人，2024年）提出了一种无监督方法，将仅解码器的LLMs转换为密集检索器，展示了以无监督方式适应LLM后端编码器进行密集检索的巨大前景。PromptReps（Zhuang等人，2024年）利用人类偏好对齐的聊天LLMs产生高质量的密集表示，无监督地进行。

这些模型的参数从15亿到560亿不等，预训练覆盖了数百亿到数万亿个token，包括基础LLMs和人类偏好对齐的聊天LLMs。尽管利用具有不同配置和多样化训练策略的各种LLMs在检索任务中取得了令人兴奋的进展，后端LLMs的参数数量、预训练范围和对齐过程的变化对检索任务的具体益处仍然不确定。

3 预备知识

密集检索利用编码器将查询 q 和候选段落 p 投影到共享的密集嵌入空间中，得到嵌入hq和hp。然后应用一个评分函数，例如内积或余弦相似度，来模拟这些密集向量的相关性：

这允许通过在嵌入空间内执行近似最近邻（ANN）搜索来检索相关文档。在我们的研究中，我们比较了15种以上的后端编码器，它们在模型架构（仅编码器和仅解码器）、模型大小（从0.1B到32B）和预训练充分度（最多15T个token）方面有所不同。与先前的研究一致，我们使用[CLS]标记来获取BERT模型的文本表示，并为T5模型采用均值池化。例如，BERT将输入文本标记化为序列 T: [CLS], t1, ..., tN , [EOS] 。然后BERT对这个标记序列进行编码，生成的输出嵌入被组合以形成文本嵌入，[CLS]标记执行此集成：

当使用大型语言模型（LLM）作为后端编码器时，需要以不同的方式创建文本嵌入。大多数LLM使用仅解码器架构和因果注意力机制，这意味着只有输入序列中的第一个标记可以访问全局上下文。因此，文本嵌入是从特殊标记[EOS]的输出嵌入中取出的：

给定查询-段落对(qi, pi+),，我们采用标准InfoNCE损失在批内负样本和硬负样本上进行训练：

其中 pj − 是负样本集合， s(q, p) 是查询和段落的评分函数。在本文中，我们采用基于温度的余弦相似度函数如下：

温度超参数 τ 在所有实验中固定为0.02。

4 实证研究

在这一部分，我们旨在解决两个关键研究问题：1) 对于不同的检索任务，LLMs作为后端编码器相比非LLMs能提供哪些具体优势？2) 对于具有不同配置的LLMs（即不同的参数数量、预训练充分度和对齐过程），哪些因素更能贡献于不同检索任务的后端编码器。为了回答这些问题，我们在密集检索的六个关键维度上进行了全面的实证研究，每个维度包括几个具体的检索任务。这些维度使用各种预训练语言模型作为后端编码器进行调查，重点关注：领域内准确性（第4.1节）、数据效率（第4.2节）、零样本泛化（第4.3节）、长文本检索泛化（第4.4节）、基于指令的检索（第4.5节）和多任务学习（第4.6节）。

4.1 领域内准确性

设置： 我们使用MS MARCO（Nguyen等人，2016）来训练并评估具有不同后端编码器的密集检索模型的领域内准确性。具体来说，我们采用了BERT（Devlin等人，2018）的110M和330M参数（BERT-base和BERT-large）、T5（Raffel等人，2020）编码器，参数数量从110M到4.8B不等，以及包括Llama、Phi、Gemma和Qwen1.5系列在内的多种LLMs（Touvron等人，2023；Gunasekar等人，2023；Bai等人，2023；Team等人，2024）。需要注意的是，不同的LLMs具有不同的配置。例如，phi-1.5模型是一个轻量级LLM，具有13亿参数，并且在相对较少的token（1500亿）上进行了预训练，表明预训练充分度较低。相比之下，Llama-3-8B模型在超过15T的token上进行了广泛的预训练，远远超过了Llama-2-7B使用的2T token。Qwen1.5系列提供了不同大小的各种模型，所有这些模型都在相同的语料库上进行了预训练，使我们能够直接比较扩大模型大小的效果。所有模型都使用128的批量大小进行训练，并结合了7个硬负样本，以确保在领域内检索准确性方面的公平比较。所有训练操作都在8个A800（80GB）GPU上进行。我们使用Adam优化器，初始学习率为3e-4，并进行线性衰减。对于LLM检索器的训练，我们采用了LoRA（Hu等人，2021），它已被证明在检索任务中与全参数微调具有类似的效果（Ma等人，2023）。使用MS MARCO开发集评估每个模型的领域内准确性，该集包含6980个查询。我们使用NDCG@10、MRR@10、Recall@10和Recall@1000作为评估指标，全面分析领域内性能。

结果与分析： 如图1所示，结果表明，随着参数数量的增加，模型性能普遍提高。这一趋势在同一个系列的模型中尤为明显。例如，Qwen1.5系列展示了这一进展：Qwen1.5-0.5B模型得分为36.7，而Qwen1.5-32B模型达到了42.6，提高了5.9个百分点。这一趋势表明，增加模型大小是获得更好领域内准确性的可行方法。详细结果见表5。

此外，结果表明基于LLM的检索器显著优于基于非LLM的检索器。Gemma-2B的性能已经超过了所有基于BERT和T5的模型，尽管它的参数数量少于T5-xxl模型。这表明LLMs的广泛预训练和先进的语言理解能力作为密集检索的后端编码器提供了显著的优势。一个有趣的观察是，较小的模型有时可以略微优于较大的模型。Qwen1.5-0.5B模型，参数较少，超过了Phi-1.5-1.3B模型，并与Phi-2-2.7B模型竞争非常接近。这种性能差异可能归因于预训练充分度的差异。Qwen1.5模型从更广泛和多样化的预训练数据中受益，总计超过3万亿个token，而Phi模型在较小量的高质量数据上进行了预训练，Phi-1.5有1500亿个token，Phi-2有1.4万亿个token。这种广泛的预训练使Qwen1.5-0.5B模型在微调检索任务时表现更好。从Llama3-8B和Llama-2-7B模型之间，以及LLMs和非LLMs之间的比较中，可以得出类似的结论。后端编码器的广泛和多样化的预训练可以显著提高领域内检索准确性，即使补偿了较小的参数数量。

大语言模型向量检索技术综述：背景知识、数据效率、泛化能力、多任务学习、未来趋势

正文

请到「今天看啥」查看全文