【斯坦福博士论文】非平稳环境中的深度强化学习算法

数据派THU · 公众号 · 大数据 · 2024-12-16 17:53

正文

请到「今天看啥」查看全文

来源：专知
本文约1000字，建议阅读5分钟
在本论文中，我们聚焦于为这种动态环境设计算法。

强化学习通常假设代理的学习环境是静态且不变的。然而，这一假设在强化学习的实际应用中很少成立。例如，在机器人应用中，非平稳性可能以多种方式表现出来，如需要在不可预测的地形中导航，或帮助人类用户处理其随时间变化的偏好。因此，快速适应环境变化的能力对于成功的决策系统至关重要。为了更正式地建模这种非平稳性，我们考虑一个在决策时间步上不断发展的学习环境。 更具体地说，学习环境中存在随时间变化的特征，并且这些特征可能会随着代理的行为而变化 。为了应对这种动态性，代理必须学会最终独立应对这种非平稳性，并根据环境变化调整其行为，例如做出不同的决策以更好地帮助具有新偏好的用户。

在本论文中，我们聚焦于为这种动态环境设计算法 。具体而言，我们首先提出一个统一的框架，将环境的相关特征捕捉到一个紧凑的表示中。我们证明，在环境具有某些特性的情况下，这种表示可以仅通过与环境的交互来学习，而无需在训练过程中额外访问潜在特征。通过将环境视为一个顺序潜变量模型，其中随时间变化的特征为潜变量，我们可以利用无监督表示学习技术的进展，从数据中学习这一表示。此外，在可以建模这些特征的动态性的情况下，我们学习它们的预测模型，以预测它们如何变化，特别是在代理采取不同动作时如何响应。

在获得这样的表示后，我们可以设计学习目标来塑造代理的行为 。本论文中我们刻画了几种非平稳性类型，如被动性与主动性，以及变化的频率，并利用这些特性设计更有效的策略学习算法。具体来说，利用所学的表示，我们提出了能够使代理（i）预测未来环境特征，从而实现更快速和更稳健的适应，和（ii）影响或塑造这些特征变化，以获得更高的长期奖励的目标。最后，当未来的潜在特征不可预测时，我们设计了能够通过探索环境主动收集有关这些特征信息的代理。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号： 数据派THU

今日头条： 数据派THU