专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
鲁中晨报  ·  霍启刚,有新职 ·  昨天  
山东省交通运输厅  ·  林武会见中国东航客人 ·  昨天  
鲁中晨报  ·  巨匠陨落!曾亮相央视《新闻联播》 ·  2 天前  
德州晚报  ·  免费上幼儿园?山东教育部门回应! ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

WARM:论权重平均奖励模型的好处

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-04-05 06:58

正文

24年1月Google DeepMind的论文“WARM: On the Benefits of Weight Averaged Reward Models”。

通过强化学习 (RLHF) 将大语言模型 (LLM) 与人类偏好保持一致可能会导致奖励黑客行为,其中 LLM 利用奖励模型 (RM) 中的失败来实现看似高额的奖励,但没有达到目标。在设计 RM 来减轻奖励黑客攻击时,发现了两个主要挑战:强化学习过程中的分布飘移和人类偏好的不一致。作为解决方案,提出了 权重平均奖励模型(WARM) ,首先微调多个 RM,然后在权重空间中进行平均。该策略遵循以下观察结果:在共享相同的预训练时,微调权重保持线性模式连接。通过平均权重,与传统的 预测集成法(ENS) 相比,WARM 提高了效率,同时提高了分布变化下的可靠性以及对偏好不一致的鲁棒性。用 best-of-𝑁 和 RL 方法对摘要任务进行的实验表明,WARM 提高了 LLM 预测的整体质量和一致性。


如图是对WARM的示意图:(a) 说明了 WARM 的对齐过程。从 SFT(监督微调)的LLMs开始,用 RL 微调来优化代理(proxy)奖励模型 (RM),与 RLHF [12] 一致。WARM 的创新在于代理RM 的设计,它是𝑀 个 RM 的权重平均值(WA),每个 RM 均根据相同偏向数据集上的共享预训练 LLM 进行微调,但存在细微差异,例如不同 超参数。这种 WA 方法非常高效,同时增强了分布漂移下的可靠性和不一致偏向下的稳健性。(b) 显示了 RL 对齐期间的影响。控制奖励最初会增加,但最终会恶化,这种现象称为奖励黑客 [19]。然而,当 WARM 作为代理 RM 时,增加𝑀(平均 RM 的数量)可显着改善绝对结果,同时延迟了崩溃,正如控制奖励在训练期间长时间保持较高值所表明的那样。

WARM 是一种简单而高效的策略,它结合了多个模型,无需如预测集成(ENS)必要的内存和推理开销,从而增强奖励可靠性(在分布漂移下)和鲁棒性(在嘈杂的偏好数据中)。与 ENS 相比,WARM 主要区别在于如何组合不同的 RM:通过权重空间中的线性插值来实现。它依赖于微调权重的 线性模式连通(LMC) [44, 45]属性,即插值模型的精度至少与各个精度的插值一样好。

一方面,WARM 需要共享预训练,以便微调后的权重保持线性连接。另一方面,权重不能相同:实际上,这些微调权重的多样性极大地有助于在WA [47]可观察的准确性增益。总体而言,有效的 WARM 需要在确保 LMC 和权重多样性之间进行微妙的权衡。

在实践中,用以下多样的源[94],将 RM 微调到多样化但线性连接模型。首先,不同的微调会以不同的顺序看到数据样本。其次,对略有不同的超参数进行采样,特别是不同的学习率和dropout概率。第三,Baklava 的初始化多样源,如图所示Baklava多样性程序:从预训练的 LLM 开始,考虑在不同数量的 SFT 训练步骤中收集的单个 SFT (虚线箭头)中不同检查点。这些检查点充当偏向数据集(粗实线箭头)𝑀次RM 微调的初始化,以学习权重。最后,这些 RM 被加权平均(虚线箭头)到最终模型中。遵循模型汤(model soups)[46]和模型料理鼠王(model ratatouille)[48]的类比,这种方法命名为果仁蜜饼(Baklava),因为它的菱形几何形状原因。

具体来说,从沿着给定 SFT 轨迹收集的在不同检查点初始化 RM 的特征器。 Baklava 放宽了模型汤(model soups) [46] 的共享初始化约束,以简单地共享相同的预训练: Baklava 实际上是模型料理鼠王 (ratatouille)[48] 的有效替代品,但不需要多个辅助任务。 总体而言,与仅从最后一个 SFT 检查点进行初始化相比,Baklava 增加了多样性,同时遵守 LMC 的共享预训练要求,而不会产生任何开销。


益处。WARM 代表了一种灵活务实的方法,可以提高AI与人类价值观和社会规范的一致性。本文详细介绍了几个优点, WARM 遵循可更新的机器学习范式 [114],消除了服务器间通信的需要,从而实现了 RM 的极其简单的并行化 [115]。这有利于其在联邦学习场景[116]中的使用,其中数据应保持私有;此外,WA (加权平均)将通过减少私人偏好的记忆来增加一层隐私和偏见缓解[52]。然后,WARM 的直接扩展将结合在不同数据集上训练的 RM,例如来自不同标记器(集群)的 RM。这种多样性可以帮助 WARM 表现,而且从多目标的角度来看也是如此 [117];通过 RM 的非均匀插值,可以学习一组个性化策略 [39]。此外,由于 WA 已被证明可以限制灾难性遗忘 [118, 119],WARM 可以无缝支持迭代和不断发展的偏好。最后,一个有前景的研究方向是将 WARM 扩展到直接偏好优化 (DPO,direct preference optimization) 策略 [120],其中对 RM 进行平均会回归到对 DPO 策略进行平均 [121]。







请到「今天看啥」查看全文