专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
宛央女子  ·  不想工作!不想工作!不想工作! ·  2 天前  
女神汇  ·  理想的恋爱模式: ·  4 天前  
女神汇  ·  没见过面的相亲男说我神经病?太下头! ·  4 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

奖励汤:根据插值各种奖励微调的权重实现Pareto-最优对齐

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-04-06 06:23

正文

23年10月巴黎Sorbonne大学、Meta AI和Valeo AI的论文“Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards”。

基础模型首先在大量无监督数据集上进行预训练,然后在标记数据上进行微调。强化学习,特别是来自人类反馈(RLHF)的强化学习,可以进一步使网络与预期用途保持一致。然而,代理(proxy)奖励的不完美可能会阻碍训练并导致次优结果;现实世界任务中的目标和人类观点的多样性加剧了这个问题。本文建议遵循多-策略方式来接受多样化奖励的异质性。目标不是关注单个先验奖励,而是在整个偏向空间中实现Pareto-最优泛化。为此作者提出 奖励汤(reward soups) ,首先独立地专门化多个网络(每个代理奖励一个),然后线性插值它们的权重。这在经验上是成功的,因为共享预训练初始化下对多样奖励进行微调时,权重保持线性的连接。该方法在文本-到-文本(摘要、问答、助手、评论)、文本-到-图像(图像字幕、文本-到-图像生成、视觉落地、VQA)和控制(运动)任务的有效性得到证明。


强化学习通常被认为比监督训练更具挑战性[28],特别是因为真正的奖励(理想地反映用户的偏好)通常在训练时并未指定。因此,开发代理奖励来指导学习,无论是作为手工设计的指标 [29,30,31],还是最近在 RLHF 中作为经过训练反映人类偏好的模型 [15,32,33]。尽管如此,设计可靠评估的代理奖励仍然很困难。代理奖励和用户实际奖励之间的奖励错误指定 [9, 34] 可能会导致不可预见的后果 [35]。此外,现实应用中目标的多样性使挑战变得更加复杂。特别是,在美学[39]、政治或公义[40]等主题上,人类的观点可能存在很大差异[36,37,38]。人类对机器也有不同的期望:例如,虽然[41]强调让LLMs朝着无害的反馈方向调整,但[42]要求提供有用的、非回避的回应,而其他人[43]的兴趣是让LLMs具有吸引力和乐趣。即使是手工设计的指标也可能面临压力:生成更短且更高精度的描述可以增加 BLEU [29] 分数,但由于召回率降低而降低 ROUGE [30] 分数。

实际上,奖励汤这个名称遵循 模型汤 [67],因为结合各种成分,每种成分都有不同的奖励。与之前专注于监督学习的工作不同,在 RL 中探索 线性模式连接(LMC) ,从共享的预训练初始化中微调权重保持线性连接,因此可以进行插值。在一个具有挑战性的设置中,每次训练运行都使用不同的奖励。也许令人惊讶的是,可以在单个最终模型中权衡多个权重的能力,从而无需任何计算开销。

考虑到这些挑战,单一模型无法满足每个人的偏好[13]。现有的方法面向基于共识的用户 [47, 48],依赖于“群体的智慧”[49],本质上优先考虑某些原则 [42, 50],导致边缘群体的不公平表征 [51, 52] 。权衡[53]是在训练之前先验决定的,将责任转移给工程师,降低透明度和可解释性[54],并实际上与“设计研究的人员”保持一致[13, 55]。单一策略对齐的方式无法应对人类多样性。然而,“人性化的AI是一个多目标问题”[56]。因此,从 多目标强化学习(MORL) 文献[45、46、57、58、59、60、61、62]和[54]中汲取灵感;他们认为,解决多样化奖励问题需要从单一策略方法转向多-策略方法。由于最优性取决于这些奖励的相对偏好,因此目标不是学习单个网络,而是学习一组Pareto-最优网络 [63]。

如图是 奖励汤(RS) 的示意图:(a) 详细介绍了奖励汤中的不同步骤。经过无监督预训练和有监督微调后,对代理奖励 {Ri} 启动 N 个独立的 RL 微调。然后通过权重空间中插值来组合训练后的网络。最终权重在测试时选择系数 λ 进行调整。(b) 显示结果,LLaMA-7b [44] 在斯坦福的LLaMA指令跟随模型Alpaca [22] 上进行指令微调,其中 RL 微调用于新闻摘要 [12],奖励 N = 2 评估摘要的不同偏向模型。仅进行两次训练,即(b) 的 R1 和 R2 奖励,λ-插值 (0 ≤ λ ≤ 1) 揭示了Pareto-最优解的绿色前沿,即在不牺牲一个奖励的情况下无法改进另外一个奖励。RS 与多目标 RL(MORL) [45, 46] 的昂贵黄色前沿相匹配,需要对奖励 (1 − μ) × R1 + μ × R2 的不同线性权重进行多次训练,其中 0 ≤ μ ≤ 1。

在奖励汤中,单一策略方法不合适。 主要原因是它们针对一组偏向进行优化。 相反,奖励汤构建了一组Pareto-最优策略的覆盖范围。 原因如下(在 Kirk [52] 和 Hayes [54]中首先讨论):

事实上,用户的真实奖励在训练之前是高度不确定的。这种“半盲”[54]手动过程迫使人们对所需的权衡做出先验且不确定的决定。它将责任 从问题相关者迁移到系统工程师 身上,系统工程师需要预测他们的选择对最终性能的影响。至关重要的是,RLHF 流程可能会导致“众包者的暴政”[52],因为模型“是为了满足主要是美国的少数众包者的期望而定制的,几乎没有代表更广泛的人类文化、地理或语言。” [52]。此外,偏差是由混乱的工程选择引起的,并且“由于缺乏[...]文档而加剧”[52]。相反,正如[52]所述,本文方法 使个性化变得明确 。此外,还可以 支持决策 ,在(潜在冲突的)各方利益之间找到良好的平衡。这种价值 多元化 pluralism ) [157] 可以带来更公平的结果 [56, 158]。单一策略无法适应测试时间要求;相比之下,奖励汤(RS)有助于个性化帮助[155]。随着人类偏好不时变化,这一点变得更加重要。在这种







请到「今天看啥」查看全文