奖励汤：根据插值各种奖励微调的权重实现Pareto-最优对齐

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-04-06 06:23

正文

23年10月巴黎Sorbonne大学、Meta AI和Valeo AI的论文“Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards”。

基础模型首先在大量无监督数据集上进行预训练，然后在标记数据上进行微调。强化学习，特别是来自人类反馈（RLHF）的强化学习，可以进一步使网络与预期用途保持一致。然而，代理（proxy）奖励的不完美可能会阻碍训练并导致次优结果；现实世界任务中的目标和人类观点的多样性加剧了这个问题。本文建议遵循多-策略方式来接受多样化奖励的异质性。目标不是关注单个先验奖励，而是在整个偏向空间中实现Pareto-最优泛化。为此作者提出奖励汤（reward soups），首先独立地专门化多个网络（每个代理奖励一个），然后线性插值它们的权重。这在经验上是成功的，因为共享预训练初始化下对多样奖励进行微调时，权重保持线性的连接。该方法在文本-到-文本（摘要、问答、助手、评论）、文本-到-图像（图像字幕、文本-到-图像生成、视觉落地、VQA）和控制（运动）任务的有效性得到证明。

强化学习通常被认为比监督训练更具挑战性[28]，特别是因为真正的奖励（理想地反映用户的偏好）通常在训练时并未指定。因此，开发代理奖励来指导学习，无论是作为手工设计的指标 [29,30,31]，还是最近在 RLHF 中作为经过训练反映人类偏好的模型 [15,32,33]。尽管如此，设计可靠评估的代理奖励仍然很困难。代理奖励和用户实际奖励之间的奖励错误指定 [9, 34] 可能会导致不可预见的后果 [35]。此外，现实应用中目标的多样性使挑战变得更加复杂。特别是，在美学[39]、政治或公义[40]等主题上，人类的观点可能存在很大差异[36,37,38]。人类对机器也有不同的期望：例如，虽然[41]强调让LLMs朝着无害的反馈方向调整，但[42]要求提供有用的、非回避的回应，而其他人[43]的兴趣是让LLMs具有吸引力和乐趣。即使是手工设计的指标也可能面临压力：生成更短且更高精度的描述可以增加 BLEU [29] 分数，但由于召回率降低而降低 ROUGE [30] 分数。

实际上，奖励汤这个名称遵循模型汤 [67]，因为结合各种成分，每种成分都有不同的奖励。与之前专注于监督学习的工作不同，在 RL 中探索线性模式连接（LMC），从共享的预训练初始化中微调权重保持线性连接，因此可以进行插值。在一个具有挑战性的设置中，每次训练运行都使用不同的奖励。也许令人惊讶的是，可以在单个最终模型中权衡多个权重的能力，从而无需任何计算开销。

考虑到这些挑战，单一模型无法满足每个人的偏好[13]。现有的方法面向基于共识的用户 [47, 48]，依赖于“群体的智慧”[49]，本质上优先考虑某些原则 [42, 50]，导致边缘群体的不公平表征 [51, 52] 。权衡[53]是在训练之前先验决定的，将责任转移给工程师，降低透明度和可解释性[54]，并实际上与“设计研究的人员”保持一致[13, 55]。单一策略对齐的方式无法应对人类多样性。然而，“人性化的AI是一个多目标问题”[56]。因此，从多目标强化学习（MORL）文献[45、46、57、58、59、60、61、62]和[54]中汲取灵感；他们认为，解决多样化奖励问题需要从单一策略方法转向多-策略方法。由于最优性取决于这些奖励的相对偏好，因此目标不是学习单个网络，而是学习一组Pareto-最优网络 [63]。

如图是奖励汤（RS）的示意图：(a) 详细介绍了奖励汤中的不同步骤。经过无监督预训练和有监督微调后，对代理奖励 {Ri} 启动 N 个独立的 RL 微调。然后通过权重空间中插值来组合训练后的网络。最终权重在测试时选择系数 λ 进行调整。(b) 显示结果，LLaMA-7b [44] 在斯坦福的LLaMA指令跟随模型Alpaca [22] 上进行指令微调，其中 RL 微调用于新闻摘要 [12]，奖励 N = 2 评估摘要的不同偏向模型。仅进行两次训练，即(b) 的 R1 和 R2 奖励，λ-插值 (0 ≤ λ ≤ 1) 揭示了Pareto-最优解的绿色前沿，即在不牺牲一个奖励的情况下无法改进另外一个奖励。RS 与多目标 RL(MORL) [45, 46] 的昂贵黄色前沿相匹配，需要对奖励 (1 − μ) × R1 + μ × R2 的不同线性权重进行多次训练，其中 0 ≤ μ ≤ 1。

事实上，用户的真实奖励在训练之前是高度不确定的。这种“半盲”[54]手动过程迫使人们对所需的权衡做出先验且不确定的决定。它将责任从问题相关者迁移到系统工程师身上，系统工程师需要预测他们的选择对最终性能的影响。至关重要的是，RLHF 流程可能会导致“众包者的暴政”[52]，因为模型“是为了满足主要是美国的少数众包者的期望而定制的，几乎没有代表更广泛的人类文化、地理或语言。” [52]。此外，偏差是由混乱的工程选择引起的，并且“由于缺乏[...]文档而加剧”[52]。相反，正如[52]所述，本文方法使个性化变得明确。此外，还可以支持决策，在（潜在冲突的）各方利益之间找到良好的平衡。这种价值多元化（ pluralism ） [157] 可以带来更公平的结果 [56, 158]。单一策略无法适应测试时间要求；相比之下，奖励汤（RS）有助于个性化帮助[155]。随着人类偏好不时变化，这一点变得更加重要。在这种

奖励汤：根据插值各种奖励微调的权重实现Pareto-最优对齐

正文

请到「今天看啥」查看全文