专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  报名 | ... ·  2 天前  
数据派THU  ·  报名 | ... ·  2 天前  
软件定义世界(SDX)  ·  DCMM、DAMA、DGI数据治理模型比较分 ... ·  2 天前  
数据派THU  ·  图卷积网络入门:数学基础与架构设计 ·  1 周前  
大数据分析和人工智能  ·  陈果:数据归IT,分析归业务 ,重构业务价值视角 ·  1 周前  
51好读  ›  专栏  ›  数据派THU

【斯坦福博士论文】非平稳环境中的深度强化学习算法

数据派THU  · 公众号  · 大数据  · 2024-12-16 17:53

正文

来源:专知

本文约1000字,建议阅读5分钟

在本论文中,我们聚焦于为这种动态环境设计算法


强化学习通常假设代理的学习环境是静态且不变的。然而,这一假设在强化学习的实际应用中很少成立。例如,在机器人应用中,非平稳性可能以多种方式表现出来,如需要在不可预测的地形中导航,或帮助人类用户处理其随时间变化的偏好。因此,快速适应环境变化的能力对于成功的决策系统至关重要。为了更正式地建模这种非平稳性,我们考虑一个在决策时间步上不断发展的学习环境。更具体地说,学习环境中存在随时间变化的特征,并且这些特征可能会随着代理的行为而变化。为了应对这种动态性,代理必须学会最终独立应对这种非平稳性,并根据环境变化调整其行为,例如做出不同的决策以更好地帮助具有新偏好的用户。
在本论文中,我们聚焦于为这种动态环境设计算法。具体而言,我们首先提出一个统一的框架,将环境的相关特征捕捉到一个紧凑的表示中。我们证明,在环境具有某些特性的情况下,这种表示可以仅通过与环境的交互来学习,而无需在训练过程中额外访问潜在特征。通过将环境视为一个顺序潜变量模型,其中随时间变化的特征为潜变量,我们可以利用无监督表示学习技术的进展,从数据中学习这一表示。此外,在可以建模这些特征的动态性的情况下,我们学习它们的预测模型,以预测它们如何变化,特别是在代理采取不同动作时如何响应。
在获得这样的表示后,我们可以设计学习目标来塑造代理的行为。本论文中我们刻画了几种非平稳性类型,如被动性与主动性,以及变化的频率,并利用这些特性设计更有效的策略学习算法。具体来说,利用所学的表示,我们提出了能够使代理(i)预测未来环境特征,从而实现更快速和更稳健的适应,和(ii)影响或塑造这些特征变化,以获得更高的长期奖励的目标。最后,当未来的潜在特征不可预测时,我们设计了能够通过探索环境主动收集有关这些特征信息的代理。


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU