本文约3100字,建议阅读10分钟
本研究提出了创新性的自对弈框架SPAR,通过改进对训练提升大语言模型的指令遵循能力。
大语言模型的指令遵循能力需要模型能够准确识别指令中的细微要求,并在输出中精确体现这些要求。现有方法通常采用偏好学习进行优化,在创建偏好对时直接从模型中采样多个独立响应。但是这种方法可能会引入与指令精确遵循无关的内容变化(例如,同一语义的不同表达方式),这干扰了模型学习识别能够改进指令遵循的关键差异。
针对这一问题,这篇论文提出了SPAR框架,这是一个集成树搜索自我改进的自对弈框架,用于生成有效且具有可比性的偏好对,同时避免干扰因素。通过自对弈机制,大语言模型采用树搜索策略,基于指令对先前的响应进行改进,同时将不必要的变化降至最低。
主要创新点:
方法论
整体框架
SPAR迭代训练框架如图所示:
数据构建方法
提示构建
模型初始化
其中q代表输入,r代表目标响应,N代表r的长度。执行模型训练中,输入q = x,目标r = y。改进模型训练中,对于DJSFT,输入q = (x, y),目标r = j;对于DRSFT,输入q = (x, ynegative, j),目标r = yrefined。
集成树搜索的自对弈训练机制
a) 负面数据采集流程
b) 树搜索优化方法
c) 执行模型训练方法
其中π tθ表示执行模型Mt,参考模型π ref使用Mt初始化并在训练过程中保持不变。这一过程产生新的执行模型Mt+1,用于下一轮迭代
d) 改进模型训练方法
鉴于改进模型的输入具有模板化特征,论文采用拒绝采样微调(RFT)方法获取新的改进模型Rt+1。RFT训练数据包含两个主要组成部分:
(1) 改进训练数据集
-
改进训练数据集由记录不合格响应改进过程的数据元组构成。
-
对于树搜索改进过程中的每个不合格响应,收集(x, yp, jp, yrefined)格式的数据元组,其中(x, yp, jp)代表改进树中最终合格响应的父节点,yrefined为经过改进的合格响应。
(2) 判断训练数据集
-
判断训练数据来源于负面数据采集过程和树搜索过程中的节点。
-
该数据集由(x, yi, ji)格式的元组组成,其中x为提示,yi为对应响应,ji为与多数投票结果一致的判断。
-
-
对于改进数据集Dtrefine,采用数据元组(x, yp, jp, yrefined),输入q = (x, yp, jp),目标r = yrefined。对于判断数据集Dtjudge,采用数据元组(x, yi, ji),输入q = (x, yi),目标r = ji。
实验研究
执行模型评估结果
SPAR在指令遵循能力方面的显著提升
下表展示了经过迭代训练的大语言模型在指令遵循基准测试上的核心性能指标。
经过三轮迭代训练后,SPAR-8B-DPO-iter3模型在IFEval评测中的表现超越了GPT-4-Turbo(后者的平均准确率为81.3%)。此外,在推理阶段引入树搜索优化技术后,模型性能获得显著提升
值得注意的是,SPAR在模型规模扩展方面表现出优异的特性,这极大地增强了LLaMA3-70B-Instruct模型的指令遵循能力。
SPAR对模型通用能力的影响分析
下表呈现了在通用基准测试上的性能数据
实验数据表明,SPAR不仅保持了模型的通用能力,在某些场景下还带来了性能提升,尤其是在GSM8k和HumanEval基准测试中。这证实了增强的指令遵循能力有助于提升大语言模型的整体对齐效果
SPAR相较于基线方法的优势
下图展示了各轮训练迭代在IFEval评测中的进步情况。
在每轮迭代中,SPAR都展现出明显的优势。特别值得注意的是,其他方法即使经过三轮迭代,其性能仍未能达到SPAR首轮迭代的水平。
改进模型评估结果
SPAR在判断能力方面的迭代提升
下表展示了经过迭代训练的大语言模型在LLMBar评测中的判断能力表现。
实验结果显示,SPAR迭代训练显著提升了模型评估指令遵循任务的能力。
在第三轮迭代后,改进模型SPAR-8B-RFT-iter3的性能超越了用于构建判断SFT数据集的GPT-4o-Mini模型。
SPAR在改进能力方面的持续优化
下表呈现了改进能力的评估结果。其中Acc-GPT采用GPT-4o作为评判标准;Acc-SPAR则使用SPAR-8B-RFT-iter3进行评估。
数据显示,LLaMA3-8B-Instruct模型的改进准确率在每轮训练迭代中均呈现稳定提升趋势,最终达到了与用于SFT数据构建的高性能模型GPT-4o-Mini相当的水平。
总结
本研究提出了创新性的自对弈框架SPAR,通过改进对训练提升大语言模型的指令遵循能力。研究发现,与传统方法采用独立采样响应构建偏好对相比,通过最小化外部因素并突出关键差异的改进对方法,能在指令遵循任务上实现显著性能提升。采用本框架进行迭代训练的LLaMA3-8B-Instruct模型在IFEval评测中展现出超越GPT-4-Turbo的性能。通过推理计算能力的扩展,模型性能还有进一步提升的空间
论文:https://arxiv.org/abs/2412.11605
代码:https://github.com/thu-coai/SPaR
作者:SACHIN KUMAR