摘要
评估大型语言模型 (LLM) 的有效性面临重大挑战。
在在线聊天机器人竞技场中进行人工标注的战斗的方法是一种非常有效的评估技术。
然而,这种方法受到人工标注所需的成本和时间的限制。
在本文中,我们介绍了
Arena Learning
,这是一种创新的离线策略,旨在使用 AI 驱动的标注来模拟这些竞技场战斗以评估战斗结果,从而通过监督微调和强化学习来促进目标模型的持续改进。
Arena Learning
包含两个关键要素。
首先,它通过 WizardArena 确保精确的评估并在离线模拟和在线竞赛之间保持一致性,WizardArena 是一个经过精心设计的离线测试集,用于准确预测各种模型的 Elo 排名。
我们的结果表明,WizardArena 的预测与在线竞技场的预测高度一致。
其次,它涉及根据战斗结果和改进的模型来持续改进训练数据。
我们建立了一个数据飞轮,通过根据目标模型的战斗结果突出显示其弱点来迭代更新训练数据,使其能够从多个不同模型的优势中学习。
我们应用
Arena Learning
来训练我们的目标模型 WizardLM-
β
,并展示了各种指标的显著性能提升。
这种全自动训练和评估管道为通过后训练在各种 LLM 中持续进步奠定了基础。
值得注意的是,
Arena Learning
在 WizardLM-2
1
的成功中发挥了关键作用,本文既是对其有效性的探索,也是未来与 WizardLM-2 及其衍生产品相关的讨论的基础研究。
1
引言
近年来,自然语言处理 (NLP) 领域见证了由大型语言模型 (LLM) 的快速发展推动的巨大变革。
这些模型在海量文本数据上训练,在广泛的任务中展现出理解、生成和与人类语言交互的非凡能力
[1, 2, 3]
.
大语言模型最令人兴奋的应用之一是对话式 AI
[4, 5, 6, 7, 8]
, 其中它们被用来创建能够进行自然对话的强大聊天机器人。
大语言模型驱动的聊天机器人成功的一个关键因素是利用大规模高质量指令遵循数据进行有效的后训练
[9, 10, 11, 12, 13]
.
通过将这些模型暴露于各种对话任务和指令场景中,研究人员能够赋予它们对如何有效地与人类交流和提供帮助的深刻理解。
随着各种大型模型应用的快速实施以及推理成本的降低,企业和消费者对使用大型语言模型服务的兴趣和需求迅速增加。
如图
1
所示,仅 OpenRouter 平台每天将处理超过 600 亿个符元。
同时,随着应用场景的创新和深化,这要求这些模型继续发展以适应用户的新的意图和指令。
因此,构建一个高效的数据飞轮来持续收集反馈并提升模型能力已成为下一代 AI 研究的关键方向。
在这种情况下,LMSYS Chatbot Arena 的出现
[14, 15]
是一项重大发展。
这个平台通过在一系列对话挑战中将不同的聊天机器人模型进行对抗,并使用 Elo 评分系统进行排名
[16]
, 从而促进对不同聊天机器人模型的评估和比较。
通过利用多样化的人类评估者,Chatbot Arena 提供了更强大、更全面的聊天机器人性能评估,超越了传统基准测试方法的局限性。
同时,它也开放了一些真实的直接聊天和战斗偏好数据
[17]
, 这些数据已被证明是模型后训练和开发指导的宝贵资源
[18]
.
然而,基于人类的评估过程也面临着自身的挑战:手动协调和等待聊天机器人与人类评估者之间的互动可能非常耗时且资源密集,限制了评估和训练数据的规模和频率,并开放了循环。
另一方面,由于其优先级限制
[19]
, 大多数模型无法参与竞技场评估,并且社区最多只能获得 10% 的聊天数据,这使得难以直接有效地根据此竞技场指导目标模型的开发。
因此,对更有效、更可扩展的基于竞技场的聊天机器人后训练和评估管道需求变得越来越迫切。
图 1
:
在处理过的符元上 OpenRouter LLM 排名(https://openrouter.ai/rankings)。
图 2
:
竞技场学习
的训练后数据飞轮和 WizardArena 评估概述。
图 3
:
运行示例概述:我们如何使用模拟的 AI 驱动的配对战斗竞技场来生成训练后数据并评估模型。
为了解决这些挑战,本文提出了一种名为
竞技场学习
的新方法,这是一种完全基于 AI LLM 且由 AI LLM 驱动的训练和评估流程,无需人工评估人员。
竞技场学习
的主要目标是建立一个高效的数据飞轮,并减少与训练后 LLM 相关的与人工和时间成本,同时保留基于竞技场的评估和训练的好处。
如图
3
中的运行示例所示,关键在于
竞技场学习
模拟了一个离线聊天机器人竞技场,并且可以基于强大的“评判模型”有效地预测不同竞技场战斗模型之间的准确性能排名,该模型可以自动模仿人工标注者的方式判断两个模型的响应对并提供排名、得分和解释。
在训练后场景中,如图
2
所示,
竞技场学习
在大量的指令数据上模拟了目标模型(称为 WizardLM-
β
)与各种最先进的模型之间的战斗。
然后使用这些合成战斗结果通过一些训练策略来增强 WizardLM-
β
,包括监督微调 (SFT)、直接偏好优化 (DPO)
[20]
和近端策略优化 (PPO)
[21]
,使其能够从其他优秀模型的优势中学习。
此外,
竞技场学习
引入了一种迭代的战斗和训练过程,其中 WizardLM-
β
不断更新并针对 SOTA 模型重新评估。
这使得 WizardLM-
β
可以迭代地改进并适应竞技场不断变化的格局,确保它保持竞争力并与该领域最新的顶尖竞争对手保持同步。
在评估场景中,我们首先贡献了一个精心准备的离线测试集 - WizardArena,它有效地平衡了评估的多样性和复杂性。
通过使用“评判模型”自动执行配对判断过程,WizardArena 显著降低了相关成本和优先级限制,并且可以生成 Elo 排名和详细的胜负平统计数据。
实验结果表明,WizardArena 生成的 Elo 排名与 LMSys 聊天机器人竞技场的一致性平均为
98.79
%
,优于 Arena-Hard-v1.0
8.58
%
和 MT-Bench
35.23
%
。
这一发现不仅验证了 WizardArena 作为人类评估平台的可靠且经济高效的替代方案的有效性,而且进一步证明了使用“评判”模型在模拟竞技场中生成大量战斗训练数据的可靠性。
此外,在
Arena Learning
生成的广泛战斗数据上训练的模型在 SFT、DPO 和 PPO 阶段表现出显着的性能提升。
在三个迭代循环中,我们的模型在每一轮都比上一轮取得了显着的改进,表明
Arena Learning
可以扩展到更多训练数据。
这些结果突出了
Arena Learning
在训练后阶段的价值和力量,它利用多个模型的集体知识和能力将 WizardLM-
β
的性能提升到一个新的高度。
我们的主要贡献如下:
•
我们介绍了
Arena Learning
,这是一种新颖的 AI 驱动方法,它通过模拟离线聊天机器人竞技场来帮助我们为大型语言模型训练后构建一个高效的数据飞轮,该方法利用 AI 标注器来降低人工和时间成本。
•
我们贡献了一个精心准备的离线测试集——WizardArena,并证明了它与来自基于人类的 LMSys Chatbot Arena 的不同 LLM 之间的在线 Elo 排名的高度一致性。
•
实验结果证明了
Arena Learning
在生成大型合成数据飞轮以持续改进 WizardLM-
β
方面的有效性,方法包括各种训练策略,包括 SFT、DPO 和 PPO。
2
方法
在本节中,我们将详细阐述所提出的
Arena Learning
。
如图
2
所示,闭环管道主要包含三个部分:离线成对 LLM 战斗竞技场、迭代后训练和模型评估。
2.1
聊天机器人竞技场和 Elo 排名
聊天机器人竞技场是一个开创性的平台,它彻底改变了聊天机器人模型的评估和比较方式。
它通过在一系列对话挑战中让不同的聊天机器人模型相互对抗来促进对不同聊天机器人模型的评估。
这个竞技场的核心是 Elo 排名的概念,这是一种广泛采用的评分系统,最初是为棋手设计的。
Elo 排名
[16]
用于根据一系列一对一战斗来量化聊天机器人模型的相对性能。
每个模型最初都会被分配一个任意 Elo 评级,然后根据每次战斗的结果(赢、输或平局)以及竞争模型之间的评级差异来更新。
如果一个评分较高的模型战胜了评分较低的模型,那么它的 Elo 评分会略微提高,而失败者的评分则会相应地降低。
2.2
使用强大的 LLM 作为评委来模拟人类标注员
在
竞技学习
中模拟竞技场战斗的核心是一个强大的 LLM,它充当“评委模型”。
我们针对各种对话对数据对该评委模型进行专门的提示和调整,使其能够客观且一致地评估模型响应的质量、相关性和适当性。
评委模型的作用是分析和比较这对战斗模型针对每个对话样本提供的响应。
具体来说,为了评估每个 LLM 的响应质量,我们使用 Llama3-70B-Chat 模型的提示工程
[22]
。
输入包括对话历史、用户指令和两个 LLM 的响应。
输出包括每个 LLM 的得分,以及侧重于各种因素的解释,例如连贯性、事实准确性、上下文感知和整体质量,以确定一个响应是否优于另一个响应。
为了减轻潜在的位置偏差
[14, 23, 24]
,我们采用了双人游戏设置,交替两个 LLM 的位置。
每个模型在 1 到 10 的范围内获得总分,分数越高表示整体性能越出色。
接下来,我们将在
竞技学习
训练后和 WizardArena 评估阶段使用此“评委”模型。
2.3
构建数据飞轮来训练后 LLM
2.3.1
收集大规模指令数据
为了促进利用模型之间的模拟竞技场战斗来训练 WizardLM-
β
,
竞技学习
依赖于一个大规模的对话数据语料库
D
。数据收集过程涉及多个过滤、清理和去重阶段,以确保指令数据的质量和多样性。
然后,模拟竞技场战斗结果用于生成 WizardLM-
β
的训练数据,这些数据针对不同的训练策略:监督微调(SFT)、直接偏好优化(DPO)和近端策略优化(PPO)。
我们将数据平均分成几部分
D
=
{
D
0
,
D
1
,
D
2
,
…
,
D
N
}
,分别用于以下迭代训练和更新。
2.3.2
迭代战斗和模型进化
竞技场学习
采用迭代过程来训练和改进 WizardLM-
β
。
在每一轮模拟竞技场战斗和训练数据生成之后,WizardLM-
β
使用相应的训练策略(SFT、DPO 和/或 PPO)进行更新。
然后,这个更新后的模型被重新引入竞技场,在那里它再次与其他 SOTA 模型进行战斗。
这种迭代过程使 WizardLM-
β
能够不断改进并适应竞技场不断变化的格局。
随着模型变得越来越强大,模拟战斗变得更加具有挑战性,迫使 WizardLM-
β
推动其边界,并从其他模型展示的最新策略和能力中学习。
此外,
竞技场学习
的迭代性质使研究人员能够随着时间的推移监控 WizardLM-
β
的进展和性能,从而为不同训练策略的有效性和进一步改进或完善的潜在领域提供宝贵的见解。
以下是第一次训练迭代
I
1
:在此之前,我们首先使用
D
0
训练 WizardLM-
β
-SFT-
I
0
的初始版本,然后选择一些在 WizardArena 测试集上排名靠前的其他最先进的 LLM
M
,接下来让 WizardLM-
β
-SFT-
I
0
作为竞争对手模型,并在
D
1
上与
M
对战,重点关注提取 WizardLM-
β
的响应被判定为劣于获胜模型响应的实例,如法官模型所确定。
收集这些实例,并将获胜模型的响应用作微调下一个 WizardLM-
β
-SFT-
I
1
模型的目标输出。
对于 DPO,我们使用 WizardLM-
β
-SFT-
I
1
作为竞争对手与
M
在
D
2
上对战,然后我们将赢和输的响应视为 < choice, reject > 对来训练 WizardLM-
β
-DPO-
I
1
。
对于 PPO,我们利用 WizardLM-
β
-DPO-
I
1
和
M
在
D
3
上的相同战斗过程来获取 < choice, reject > 对以训练奖励模型和 WizardLM-
β
-PPO-
I
1
。
在第二次训练迭代
I
2
中,我们选择 WizardArena 上最好的 WizardLM-
β
-PPO-
I
1
作为
I
2
的初始竞争对手模型,并采用类似的过程来训练下一个 SFT、DPO 和 PPO 模型。
表
1
显示了每个阶段使用的数据和模型的详细信息。
表 1
:
不同训练阶段使用的数据和模型
2.4
使用 WizardArena 评估 LLM
为了准确评估聊天机器人模型的性能并预测其Elo排名,
Arena Learning
依赖于精心策划的离线测试集,该测试集旨在平衡多样性和复杂性
[14, 24, 25]
,确保全面评估模型在各种对话场景中的能力。
受WizardLM
[11]
的“广度演化”和“深度演化”的启发,我们构建了以下两个子集:
多样性子集
测试集的多样性子集旨在涵盖广泛的主题、风格和对话语境。
为此,我们对大量指令和对话数据应用文本聚类技术。
聚类过程首先使用最先进的嵌入模型(即 gte-large
[26]
)将对话中的所有指令表示为高维向量。
这些向量捕获文本中的语义和上下文信息,使聚类算法能够将相似的样本分组在一起。
聚类完成后,我们从每个聚类中选择一个代表性样本,确保测试集的多样性子集涵盖各种场景。
这种方法有助于缓解仅仅依靠随机采样而可能产生的潜在偏差或盲点。
困难子集
此子集专门设计来挑战即使是最先进的聊天机器人模型的能力。
为了构建此子集,我们利用LLM的强大功能来预测每个指令的难度级别。
然后,我们根据预测的难度得分选择排名最高的样本,确保测试集的困难子集包含最具挑战性和最复杂的场景。
该数据作为评估聊天机器人模型在处理复杂和细致的对话任务方面的稳健性和能力的严格基准。
在上述“评判”模型和离线WizardArena测试集到位后,我们继续通过一系列配对战斗来评估各种聊天机器人模型的性能。
战斗结果随后用于计算参与聊天机器人模型的Elo排名。
WizardArena采用与LMSYS Chatbot Arena相同的Elo评级系统,该系统已证明在根据玩家或实体的正面交锋表现对其进行排名方面非常有效。
3
实验
3.1
实验设置
训练数据。
我们随机抽取 10k ShareGPT 数据来训练一个初始模型 WizardLM-
β
-
I
0
。
然后,我们从公开可用的数据集
[10, 27, 17, 11, 28]
中收集了一些指令,并使用以下步骤对其进行了优化:首先,我们过滤掉所有非法和有毒的对话;其次,我们删除了指令长度小于 10 的对话;第三,我们消除了具有 10 个前缀的重复指令;接下来,我们采用了 MinHashLSH 技术
[29]
进行数据去重;随后,我们使用一个嵌入模型 gte-large
[26]
来排除与基准(即 WizardArena、Arena-Hard Auto
[24]
、MT-Bench
[14]
、AlpacaEval
[25]
、OpenLLM Leaderboard
[30, 31, 32, 33, 34]
)在语义相似性方面排名前 5 的匹配项的指令,以防止测试数据泄露。
最后,我们删除了所有非英文指令。
完成这些步骤后,我们获得了经过细化的 276K 数据集
D
,并将其随机分成 9 个部分。
图 4
:
WizardArena-Mix 轮次统计
图 5
:
WizardArena-Mix 类别统计
脱机多元 & 困难 WizardArena 测试集。
首先,我们使用 K 均值聚类将源数据处理成 500 个类别。
从每个类别中,我们随机选择两个样本,构建 1,000 个多元样本,命名为脱机多元 WizardArena。
此外,从每个类别中随机选择 20 个样本,形成一个包含 10,000 个条目的数据集,然后我们使用 GPT-4-1106-preview 对每个指令进行难度评分,从 0 到 10 按降序排列,并选择前 1,000 个条目来创建困难测试集,表示为脱机困难 WizardArena。
脱机混合 WizardArena 将多元和困难测试集结合在 2,000 个样本中。
与主要关注单轮对话数据的 Arena-Hard-v1.0
[24]
不同,WizardArena-Mix 包含多轮对话数据。
图
5
和
5
分别显示了 WizardArena-Mix 中对话轮次和类别统计的分布。
数据表明,我们的多轮对话数据占很大比例,话题分布也很多样化。
表 2
:
LMSYS ChatBot Arena 和 WizardArena 的效率比较。
LLM 对战。
我们选择了一些流行的模型,并在离线混合 WizardArena 中进行配对对战。
Llama3-70B-Instruct
[22]
作为“裁判”模型,得分较高的模型被宣布为获胜者。
借鉴 LMSYS Chatbot Arena,我们采用了 Bradley-Terry 模型
[35]
来计算每个模型的最终 ELO 分数。
为了减轻潜在的位置偏差,我们使用了双人游戏设置,在每个实例中交换模型的第一个和第二个位置
[23]
。
我们使用多个自举法(即 100 个),并选择中位数作为模型的 ELO 分数。
95% 的置信区间由置信区间分数的 2.5% 到 97.5% 的范围确定。
表
2
对比了 WizardArena 和 LMSYS Arena 之间的差异。
WizardArena 利用 LLM 进行对战,而 LMSYS ChatBot Arena 则依赖于人工标注。
在相同的对战次数下,如果我们使用 16 个 80G GPU 进行推理和判断,整个过程将在 9 天内完成,与 LMSYS ChatBot Arena 需要的 12 个月相比,速度提高了 40 倍。
实现细节。
我们将我们的方法应用于 Mistral-7B
[36]
和 Mixtral-8x22B 进行后训练,使用 Llama3-70B-Instruct
[22]
作为裁判模型。
对于 WizardLM-
β
-7B,对战模型是 {Command R+
[37]
, Qwen1.5-72B-chat
[7]
, OpenChat-3.5
[12]
},对于 WizardLM-
β
-8x22B,对战模型是 {GPT-4o
[4]
, GPT-4-1106-preview
[4]
, WizardLM-2-8x22B-0415
[11]
}。
在监督微调中,我们以 5e-6 的学习率、128 的批次大小和 4096 的序列长度训练了三个 epochs。
对于 PPO 奖励模型训练,Mistral-7B 以 1e-6 的学习率训练了一个 epoch。
在 PPO 训练中,学习率为 1e-7,持续一个 epoch,KL 系数为 0.4,对于 DPO 训练,学习率为 5e-7,持续两个 epochs,beta 为 0.3。
3.2
离线 WizardArena 与在线 LMSYS ChatBot Arena 密切相关。
图 6
:
跨 MT-Bench、归一化 LMSYS ChatBot Arena 和 WizardArena 的 LLM 性能。
图
6
和 表
4
展示了一些流行模型在多个评估基准上的排名:LMSYS ChatBot Arena-EN
[19]
、MT-Bench
[14]
和 WizardArena。
结果表明,在实际场景中使用 LMSYS ChatBot Arena 作为参考基准,WizardArena 显示出良好的排名一致性,然而 MT-Bench 则表现出较大的波动。
此外,WizardArena 多样性和困难子集的性能之间存在显著差异:Vicuna-33B
[9]
和 Qwen1.5-32B-Chat
[7]
在多样性任务中更有效,而 Tulu-2-DPO-70B
[38]
和 Nous-Hermes-2-Mixt-DPO
[39]
在困难任务中取得了更好的结果。
因此,我们使用 WizardArena-Mix 作为
Arena 学习
的最终评估基准,以平衡不同模型的优势。
表 3
:
与 LMSYS ChatBot Arena 相比,MT-Bench、Arena-Hard-v1.0 和 WizardArena 的一致性。
Llama-3-70B-Chat 是“裁判”模型。
表
3
说明了离线 WizardArena-Mix 在几个一致性指标方面显著优于 MT-Bench,这些指标参考附录
A
中的详细信息:Spearman 相关性高 19.87%,人类一致性(95% CI)提高 73.07%,差异性(95% CI)提高 74.57%。
它通过人工判断,与 LMSYS ChatBot Arena 的平均一致性达到 98.79%,比 Arena-Hard-v1.0
[24]
高 10.91%,比 MT-Bench
[14]
高 55.84%。
与使用专有模型(例如 GPT-4)作为评判模型的 MT-Bench 和 Arena-Hard-v1.0 相比,我们的方法采用了当前最先进的开源模型 Llama-3-70B-Chat,该模型不仅成本显著降低,而且还实现了很高的一致性。
此外,将 Diverse 和 Hard 测试集整合在一起的 Offline WizardArena-Mix,与 WizardArena-Diverse 相比,平均一致性提高了 0.87%,比 WizardArena-Hard 高出 0.82%。
这表明,平衡多样性和复杂性对于大型语言模型的有效离线评估至关重要。
以上结果也进一步证明了在模拟竞技场中使用“评判”模型来判断大型语言模型之间的战斗并生成大量训练后数据的可行性。
表 4
:
LMSYS ChatBot Arena EN(2024 年 6 月)、MT-Bench 和 WizardArena 上的 ELO 排名。
Llama-3-70B-Chat 是“评判”模型。
Llama-2-70B-Chat Elo 是参考。
图 7
:
WizardArena-Mix 中模型的获胜率(不计平局)。
每个模型参与了 2k x 31 场战斗。
图 8
:
探讨 SFT、DPO 和 PPO 迭代训练过程对 WizardLM-
β
-7B 模型在四个基准测试中的性能影响。
3.3
竞技场学习
能否通过训练后构建有效的 data flywheel?
表
4
展示了使用
竞技场学习
方法对 WizardLM-
β
模型进行三次 data flywheel 迭代训练后产生的影响,其中
I
i
代表第
i
次迭代。
从
I
1
到
I
3
的每次迭代中,我们始终使用 90k 数据进行训练后。
从 WizardLM-
β
-7B-
I
0
开始,接下来的 3 次迭代在 Wizardarena-Mix Elo 上分别提高了 343 分、32 分和 28 分。
同时,该模型的 MT-bench 得分也取得了显著提高(从 6.41 到 8.16)。
具体来说,WizardLM-
β
-7B-
I
1
甚至超过了 WizardLM-70B-v1.0,而 WizardLM-
β
-7B-
I
3
也表现出与 Starling-LM-7B-Beta 相当的性能。
值得注意的是,我们还在 WizardLM-
β
-8x22B 模型上观察到了同样的趋势,甚至在 Wizardarena-Mix Elo(+460)和 MT-Bench(+2.07)方面都取得了更显著的提升。
该模型还击败了 Command R+ 和 Claude 3 Haiku。
图
7
展示了 WizardArena-Mix 中 32 个模型的胜率,每个模型都参与了 2k x 31 场战斗。
与这些基准相比,我们的模型在胜率方面从
I
0
到
I
3
取得了显著提升。
具体来说,使用 GPT-4o 作为战斗目标,我们的 WizardLM-
β
-8x22B 的胜率提高了 26%(8% -> 22% -> 27% ->34%),WizardLM-
β
-7B 的胜率也提高了 14%(6% -> 16% -> 18% ->20%)。
以上结果突出了使用
Arena Learning
与 SOTA 模型进行持续战斗并使用新选数据更新权重,可以逐步提高模型的能力,使其比竞争对手更强大。
因此,
Arena Learning
构建了一个有效的 数据飞轮,利用
Arena Learning
可以在训练后显著提高模型性能。
3.4
使用
Arena Learning
扩展迭代式 SFT、DPO 和 PPO。
由于本文的核心问题是
Arena Learning
如何通过训练后提高模型性能,在本节中,我们探讨了不同训练后技术和数据飞轮迭代如何影响性能。
图
8
探讨了 WizardLM-
β
-7B 模型的结果。
如预期,我们观察到,随着我们从更多
Arena Learning
战斗迭代中添加更多选定数据,SFT 和 RL 模型的每项性能都在逐步提高。
具体来说,从 SFT-
I
0
到 PPO-
I
3
,WizardArena-Mix ELO 分数从 871 提高到 1274,获得了 403 分的巨大提升,Arena-Hard Auto ELO 分数也上升了 26.3 分(从 5.2 到 31.5)。
此外,AlpacaEval 2.0 LC 胜率提高了 26%,从 8.2% 提高到 34.2%,MT-Bench 得分提高了 1.75 分,从 6.41 提高到 8.16。
在四个关键基准测试中取得显著改进,突出了
Arena Learning
在 SFT、DPO 和 PPO 阶段提出的迭代训练方法在增强训练后 LLM 方面的有效性和可扩展性。
3.5
消融研究
表 5
:
探讨了 SFT 阶段第一轮中的数据选择策略,每个方法使用 10k 个样本,除了原始
D
1
。
Data Selection
Data
Size
WizardArena-Mix
ELO (95% CI)
MT-Bench
Original Data
30k
1079 (+5/-8)
6.88
Random Sample
10k
1072 (+8/-7)
6.77
K-Means Cluster
10k
1085 (+7/-5)
6.98
Instruction Length
10k
1081 (+5/-9)
6.92
IFD
[42]
10k
1091 (+7/-6)
7.07
INSTAG
[43]
10k
1096 (+5/-8)
7.12
Pair-judge
10k
1108 (+6/-8)
7.23
数据选择策略。
为了探索我们成对评判数据选择方法的效率,我们将它与 SFT 阶段第一轮中一些广泛使用的数据选择策略进行比较。
在表
5
中,我们对每个方法使用 10k 个样本,除了原始
D
1
。
结果表明,通过成对评判方法选择的数据在 WizardArena-Mix ELO 中比所有原始 30k 数据提高了 29 分,超过了基于多样性的 K-Means 聚类方法 23 分,并且超过了基于指令复杂度的 INSTAG
[43]
方法 12 分。
在 MT-bench 上,成对评判方法也表现出优异的性能,比原始数据提高了 0.35 分,比 K-Means 聚类提高了 0.25 分,比 INSTAG 提高了 0.11 分。
这种优势归因于成对评判方法侧重于基础模型表现不佳的指令,尤其是在多样化和复杂的任务中,有效地解决了模型的弱点。
同时,这些结果强调了成对评判方法在 SFT 阶段选择高质量数据以针对和加强基础模型弱点的有效性。
图 9
:
探讨了 SFT 和 DPO 第一轮中阈值 K 对 WizardLM-
β
-7B 模型的影响。
数据大小和性能之间的关系。
一个直观的问题是,模型性能的提高是否仅仅归因于数据大小的增加。
因此,在本节中,我们将讨论数据大小和质量对模型性能的影响。
阈值是
竞技学习
中的一个重要超参数,它控制着 SFT 数据的大小以及
对的 RL 数据之间的差距。
我们对 WizardLM-
β
-7B-SFT-
I
1
和 WizardLM-
β
-7B-DPO-
I
1
进行了实验,其中阈值范围从 0 到 5。
结果如图
9
所示,我们确实观察到
I
1
中SFT和DPO数据的最佳阈值分别为3.0和2.0。
在 SFT 中,与阈值=0 相比,当阈值=3 时,虽然训练数据减少了一半(30k -> 14.6k),但模型的 ELO 实际上提高了 70 分(1047 -> 1117)。
同样在 DPO 中,将阈值设置为 2 将数据减少到 18.1k(与阈值=0 相比),模型的 ELO 提高了 22 分(1165 -> 1187)。
这表明战斗有助于我们过滤掉真正需要的数据,从而构建一个更有效的、规模更精简的数据飞轮。
表 6
:
探索 Llama3-70B-Instruct 和 GPT-4 作为离线混合竞技场中的评判模型之间的一致性。
使用多个引导程序(即 100 个),我们选择中位数作为模型的 ELO 分数,并使用 Llama-2-70B-Chat ELO 分数作为参考点。
Llama3-Chat 评判者还是 GPT-4 评判者?
在大多数之前的工作中,人们习惯使用 GPT-4 作为评估或生成合成数据的评判者,但对于大多数研究和生产场景来说,大规模数据飞轮所需的 GPT-4 API 成本非常高。
因此,我们探索是否可以用先进的开源模型来替代 GPT-4。
表
6
探索了 Llama3-70B-Instruct 和 GPT-4 作为 WizardArena-Mix 竞技场中的评判模型之间的一致性。
以 GPT-4 评判者的 ELO 作为参考基准,Llama3-70B-Instruct 评判者和 GPT-4 评判者之间的斯皮尔曼等级相关系数为 99.26%,人类一致性为 96.15%,95% 置信区间。
两种评判模型之间总体的一致性平均为 97.71%。
此外,将 GPT-4 和 Llama3-70B-Instruct 结合作为评判模型,LMSYS ChatBot 竞技场的总体一致性平均达到 98.40%,与仅使用 Llama3-70B-Instruct 相比略微提高了 0.25%(98.40% 对 98.15%)。
因此,使用 Llama3-70B-Instruct 作为成本效益高的评判模型,在人类判断方面与 GPT-4 和 LMSYS ChatBot Arena 保持高度一致,从而确保了本文中
Arena Learning
评估和后训练的可靠性。
图 10
:
探讨战斗模型规模对 WizardLM-
β
-7B-SFT-
I
1
的影响。
战斗模型数量。
图
10
展示了一项消融研究,调查了其他战斗模型数量的影响。
根据表
4
,模型根据 WizardArena-Mix ELO 分数降序排列。
随后,从 Command R+ 到 OpenChat 3.5 的模型被选为战斗模型。
随着参与战斗的模型数量增加,WizardLM-
β
-7B-SFT-
I
1
模型的性能逐渐提高。
具体来说,在 WizardArena-Mix 上,WizardLM-
β
-7B 的 ELO 评级从 876 提高到 1159,增加了 283 分。
同时,MT-Bench 分数从 6.41 上升到 7.66,增加了 1.25 分。
这证明了我们方法的可扩展性及其与不同模型的兼容性,为
Arena Learning
未来大规模应用奠定了基础。
但是,由于战斗
O
(
⋅
)
的复杂度与模型数量
n
之间的关系
O
(
n
2
)
,为了平衡计算成本和模型性能,我们在本文中选择 3 个其他模型与 WizardLM-
β
进行战斗作为默认设置。
表 7
:
WizardLM-
β
-7B-SFT-
I
1
在不同战斗模式下的 WizardArena Elo。
不同战斗模式的影响。
为了探索使用多个模型成对战斗构建数据飞轮的必要性,我们在
D
1
SFT 数据上设计了各种战斗模式,包括:i) {我们的模型 + 1 个其他模型} 彼此成对战斗,ii) 将
D
1
随机分成 3 部分,我们的模型分别与另一部分的模型战斗,iii) {我们的模型 + 2 个其他模型} 彼此成对战斗,iv) {我们的模型 + 3 个其他模型} 彼此成对战斗。
我们在本节中使用 WizardLM-
β
-7B-SFT-
I
0
、Openchat-3.5、Qwen-1.5-72B 和 CommandR+ 作为战斗组,输出模型为 WizardLM-
β
-7B-SFT-
I
1
。
如表
7
所示,模式 (iv) 在 WizardArena 上取得了最佳性能,超过了 (i) 模式 {仅 Command R+ 战斗} 89 分,超过了 (iii) 模式 {Command R+ & Qwen1.5-72B-Chat 战斗} 22 分。
为此,我们最终利用多个模型两两对战,构建模拟的离线聊天机器人竞技场。
表 8
:
探索 WizardLM-
β
模型在各种基准上的性能。
基准结果来自 Arena-Hard Auto
[24]
、AlpacaEval 2.0 LC
[25]
和 OpenLLM Leaderboard
[30]
。
在更多基准上的性能。
表
8
突出显示了 WizardLM-
β
在经过三次迭代后的各种指标上的性能,包括 LMSYS Arena-Hard Auto、AlpacaEval 2.0 LC 和 OpenLLM Leaderboard。
在 LMSYS Arena-Hard Auto 中,WizardLM-
β
-7B 的得分从 5.2 上升到 31.5,增加了 26.3 分,超过了 GPT-3.5-Turbo-0613 6.7 分,超过了 Llama 3-8B-Instruct 10.9 分,与 Command R+ 非常接近。
WizardLM-
β
-8x22B 的性能超过 Llama-3-70B-Instruct 23.2 分,也优于 GLM-4-0520 和 Yi-Large。
在 AlpacaEval 2.0 LC 中,WizardLM-
β
-7B 的胜率从 8.2% 提升到 34.2%,超过了 GPT-3.5-Turbo-0613 11.5 分,超过了 Mixtral-8x22b-Instruct-v0.1 3.3 分,与 Llama3-70B-Instruct 非常接近。
此外,WizardLM-
β
-8x22B 的胜率甚至超过 Llama-3-70B-Instruct 14.5 分,超过 GPT-4-0314 13.6 分。
在 OpenLLM Leaderboard 上,WizardLM-
β
-7B 的平均得分从 57.75 上升到 68.08,超过 Llama-2-70B-Chat 1.28 分,与 Starling-LM-7B-beta 相当。
WizardLM-
β
-8x22B 也与 Command R+ 相当,超过 Deepseek-LLM-67B-Chat 3.06 分,接近 Qwen1.5-72B-Chat 和 Llama-3-70B-Instruct。
以上结果表明:1) 利用
Arena Learning
方法生成训练数据,通过多次训练迭代显著提高了模型的性能。
2)
Arena Learning
可以提高模型性能的泛化能力和可扩展性。
表 9
:
每次迭代的数据量和难度。
每次迭代的数据量和难度。
在表
9
中,我们详细展示了 SFT 每轮的 数据大小、难度和阈值划分。
随着迭代轮数的增加,我们将阈值从 3 调整到 1,但 SFT 的数据量仍然大幅下降(30k -> 7.8k)。
这是因为随着模型能力的提升,它输掉的对战数量也急剧下降。
我们还发现,每轮数据的难度逐渐增加(4.7 -> 7.4),而我们最终 SFT 只需要大约 1/3 的数据(90k -> 33.7k),平均难度为 6.4。
这表明一个合理的数据飞轮应该更多地关注找到那些对目标模型具有挑战性的数据,以弥补其能力的不足。
表 10
:
探索 SFT 和 DPO 阶段中各个轮次中每个对战模型的选定响应数量。
从每个对战模型中选择的数据量。
表
10
说明了 SFT 和 DPO 阶段中 3 轮中每个对战模型选定的获胜/接受响应的数量。
在 SFT 阶段,数据量随着迭代轮次的进行而持续下降(14.6k -> 7.8k)。
此外,选定数据的量与对战模型的性能密切相关。
例如,Command R+ 一直需要比 Qwen1.5-72B-Chat 和 OpenChat-3.5 更多的数据(16.8k > 12.7k > 4.2k)。
在 DPO 期间,大多数其他对战模型在每次迭代轮次中选定数据都呈下降趋势,除了 WizardLM-
β
,它的数据量出现了增长(1.1k -> 1.6k -> 2.3k),这主要是因为随着我们模型性能的提升,其在正样本中恢复的比例也逐渐增加。