论文地址:
https://arxiv.org/pdf/2502.04327
【导读】
数据和计算能力的扩展对现代机器学习的成功至关重要。然而,扩展需要可预测性:不仅希望方法在增加计算能力或数据量时表现良好,还希望能够从小规模实验中预测其性能,而无需进行大规模实验。该论文证明了基于价值的离线策略强化学习方法是可预测的,这与学术界普遍认为的病态行为特性的观点相反。
首先
,证明了达到特定性能水平所需的数据和计算资源位于帕累托前沿,这个前沿由更新与数据比率(UTD)控制。通过估计这个前沿,可以在给定更多计算资源时预测所需的数据量,也可以在给定更多数据时预测所需的计算资源。
其次
,确定了在给定性能目标下,如何在数据和计算资源之间最优分配总体资源预算,并用它来确定在给定预算下实现最佳性能的超参数。第三,这种扩展能力的实现首先基于对超参数之间可预测关系的估计,这种关系用于管理强化学习中特有的过拟合和可塑性损失的影响。最后使用三种算法:SAC、BRO和PQL,在DeepMind Control、OpenAI gym和IsaacGym环境中验证了方法,并在更高水平的数据、计算、预算或性能上进行了外推验证。
评估外推性能
评估预算外推。所有环境的结果如图1(中)所示。估计了几条对应于预算等量变化点的帕累托前沿。在排除两个最大预算的情况下执行σ*(ℱ0)拟合。这两个外推预算的拟合质量可以在图中看到。
评估帕累托前沿外推。OpenAI Gym的结果如图6所示。作者拟合数据效率方程𝒟J(σ),同时分别排除了数据需求最大的两个UTD值σ(左图)或计算需求最大的两个σ值(右图)。这两个外推σ值的拟合质量可以在图中看到。
超参数拟合外推。OpenAI Gym的结果如图6(右)所示。我们绘制了使用根据发现的依赖关系B*(σ)、η*(σ)确定的超参数时的数据效率拟合曲线(橄榄色显示)。这些拟合是从σ = 1,...,8估计得出,并外推到σ = 0.5。我们将其与在线强化学习中调整超参数的典型方法进行比较,即在σ = 2的单一设置下调整超参数,并将该设置用于所有UTD值(蓝色显示)。我们发现,我们提出的超参数拟合方法在σ ≠ 2的值上改善了结果。此外,这种改善在σ值较大时更为显著,表明考虑超参数依赖关系是至关重要的。
关于计算效率的关系
主要实验结果
结论
在本论文中,我们证明了基于价值的深度强化学习算法具有可预测的扩展性。我们首先建立了基于价值的强化学习中超参数优良取值之间的关系。然后,我们建立了在特定性能要求下所需数据量和计算资源之间的关系。最终,这使我们能够确定在数据和计算资源之间的最优分配方案。尽管这些实证模型仅基于小规模实验进行估计,但它们能够可靠地推广到大规模计算、数据、预算或性能场景。据我们所知,这是首次证明可以使用小规模实验来预测基于价值的离线策略强化学习算法在更大规模下的行为表现。
同时,这项首创性研究也提出了一些开放性问题和挑战:
-
虽然简单的幂律模型表现良好,但这些规律是否有理论基础,以及是否存在更好、更精细的函数形式仍是一个开放性问题。
-
我们的研究仅关注了三个超参数(B、η和σ)。我们没有关注模型规模和UTD之间的最优权衡,这对计算扩展很重要。对于数据效率型强化学习,分析权重衰减和权重重置频率与UTD的依赖关系很重要,这些都是文献中许多高性能方法常用的技巧。
-
虽然我们关注在线强化学习,但研究离线到在线转换以及纯离线强化学习的扩展性也很重要,这将使扩展规律的发现能直接应用于大模型训练。
-
最后,虽然我们研究的是相对较小的模型,未来的工作将专注于验证我们的结果在更大模型规模、更大规模任务上的适用性,研究现代架构的影响,并覆盖跨越多个数量级的更大计算规模范围。
我们的工作仅是研究基于价值的强化学习方法扩展规律的第一步。进一步的研究有潜力提升我们对大规模基于价值的强化学习的理解,为研究人员提供工具以便将创新重点放在更重要的组件上,并最终为基于价值的强化学习提供扩展指导方针,使其能够像其他现代深度学习方法一样实现良好的扩展性。
https://arxiv.org/pdf/2502.04327