本文提出SaMer,一种场景感知的多维度评估器,可对大模型生成的响应进行细粒度、可解释的评估。SaMer动态识别并优先考虑不同query场景的关键维度,相比固定维度方法,更具情境敏感性。实验表明,SaMer在单一评分与成对比较任务上优于现有基准,并通过维度级得分和权重提供透明评估。
论文题目:
SaMer: A Scenario-aware Multi-dimensional Evaluator for Large Language Models
论文链接:
https://openreview.net/forum?id=aBnVU5DL3I
代码链接:
https://github.com/Irving-Feng/SaMer/
一、引言
在开放式的自然语言生成任务中,评估大型语言模型(LLMs)的响应质量是一项重大挑战,主要原因在于“质量”的主观性和多维性。现有的LLM评估方法大多采用固定维度的评估标准,无法根据具体场景灵活调整,导致难以满足不同类型问题的需求。
为了解决这一问题,我们提出了SaMer,一个场景感知的多维度评估器,旨在通过自动识别与用户query相关的评估维度,动态调整评估标准,以适应不同场景的需求。我们首先构建了一个大规模细粒度偏好数据集,涵盖多个真实场景及其特定的评估维度。然后,我们设计了包含文本嵌入模型与三个专用模块的模型架构,用于维度预测、质量评分和权重融合。最后,通过一个多步骤训练阶段,SaMer可以提供准确性高、解释性强、细粒度的评估。
实验结果表明,SaMer在8个单独评分和成对比较benchmark上的表现均优于现有基线方法,展现出其在多样化评估任务中的鲁棒性和适应性。此外,SaMer的细粒度和场景感知能力为LLM的响应评估提供了更高的透明度和灵活性,支持更广泛的实际应用。
二、数据构建
如图所示,我们通过定义场景和评估维度、收集pairwise偏好数据、标注细粒度偏好等三个步骤构建了一个包含广泛场景的细粒度偏好数据集。
1. 场景和评估维度定义
场景:我们从人类需求的角度定义了 36 种情景,根据马斯洛需求理论的层次结构将它们分为五种主要类型:安全、社会、认知、审美和自我实现需求。我们从现有工作中总结了42个评估常用维度,聘请三位有丰富经验的研究生为每个场景所需的评估维度进行标注。
2. pairwise偏好数据集构建
我们从多个开源数据集获取了种子数据,具体统计值见下表:
然后,我们训练了一个场景分类器,通过输入的query,场景分类器将种子数据进行场景分类。最后,我们为每个场景采样2K~5K的数据,使得所有场景的数据比例相似。这一步共获得135,402条样本。
3. 细粒度偏好数据标注
基于场景标签和场景的特定评估维度,我们利用GPT-4o来执行细粒度的偏好注释。对于每个样本,考虑到LLM执行成对比较比单实例评估更可靠,我们指示 GPT-4o 只关注指定的维度,仔细比较两个模型生成的响应并选择更好的一个或宣布平局。
三、模型与训练
如图所示,模型的架构与训练目标共包含三个部分:
1. 通过多标签分类进行维度预测
我们首先致力于让SaMer自适应地预测每个输入query应该考虑哪些维度。这可以建模为一个多标签分类任务,即从42个维度标签中选择
个所需维度。我们构建了一个42维的MLP作为维度预测层
,用于预测维度标签。我们使用ZLPR (Zero-bounded Log-sum-exp & Pairwise Rank-based)损失训练。
我们然后利用构建的细粒度偏好数据实现多维度评分。具体来说,对于每个特定维度,我们有一个排名,例如
代表回复A好于B。我们构建了一个42维的MLP作为评分层
,用于为各个维度打分,并使用ranking loss进行训练。特别地,我们mask了每个样本的无关维度,只训练所需维度。
要获得总体评估分数,一种简单的方法是线性组合所有维度分数,但这忽略了每个维度的贡献在不同的评估场景中会有所不同的事实。所以,我们加入了权重预测层
,用于预测每个维度的权重,然后对每个维度的分数进行加权平均。我们使用ranking loss进行训练,并冻结了
和
的参数。
最后,我们将上述三个模块插入到一个冻结的预训练LLM(即,ArmoRM,一个基于Llama3-8B的奖励模型)后。由LLM提供文本编码后,分别由三个MLP层预测维度、评分和权重,最后进行加权平均得到最终的评分。
四、实验分析
1. 单响应评分
我们在Vicuna Bench、FLASK Eval、Feedback Bench上评估了SaMer对单个响应输出的质量评分与人类标注之间的相关性。结果表明,SaMer在三个benchmark上表现出显著的改进,特别是在FLASK Eval中。值得注意的是,SaMer的表现与专有模型(包括GPT-4o/4o-mini和Claude3.5-Sonnet)相当,甚至超过了这些模型。不过,可以观察到大多数模型在Vicuna Bench和FLASK上的相关系数并未超过0.5,这表明这些基准的挑战性以及将模型评估与人类评分对齐的复杂性。
2. 成对比较