专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据文摘  ·  Sam Altman ... ·  2 天前  
数据派THU  ·  大数据能力提升项目|学生成果展系列之一 ·  3 天前  
软件定义世界(SDX)  ·  中国工程院发布中国工程科技2040发展战略研究 ·  3 天前  
人工智能与大数据技术  ·  OpenAI量子计算大神Scott ... ·  4 天前  
51好读  ›  专栏  ›  数据派THU

【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

数据派THU  · 公众号  · 大数据  · 2024-12-28 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

我们提出了一种新的训练记忆模型的方法,从而提高了时间、空间和数据的效率。


强化学习是一种优化决策的框架,考虑到行动的长期后果。
强化学习的深度变种已成为在复杂环境中进行决策的强大工具。以往的工作已经在复杂游戏如围棋和Atari中取得了突破,甚至超越了地球上一些最优秀的人类选手。然而,这些令人印象深刻的成就通常局限于游戏或仿真环境。那么,是什么阻碍它们进入现实世界呢?在本文中,我们解决了一个主要的瓶颈:有限和不完美的感官信息。
在许多现实任务中,感官信息往往是噪声或不完整的,这打破了强化学习的核心假设。解决这一挑战的方案实际上是众所周知的——即使用记忆。记忆是感官信息的存储与回忆,用于决策过程,这类似于人类和许多其他生物体内记忆的功能。记忆使得这些生物体能够建立并更新世界的内部表征,做出合理的猜测,并在不确定性面前取得成功。然而,尚不清楚的是,如何以可靠和可处理的方式建模记忆。本文的目标是让记忆建模变得稍微不那么难以处理,并稍微更具实用性。
首先,我们提出了一种利用我们对任务已有的先验知识的记忆形式。通过使用这些知识,我们动态构建一个记忆图,与标准记忆模型相比,提高了数据和参数的效率。接着,我们讨论了对记忆模型的大规模研究。我们设计了一系列程序化生成的任务,然后在这些任务上实现并评估各种记忆模型。我们采取实践性的方法,确定哪些模型具有潜力,从而为未来的研究人员节省时间和计算资源。然后,我们探讨了计算心理学家所提出的人类记忆模型。基于这些原则,我们开发了一种记忆模型,达到了比标准模型更好的时间和空间效率。我们进一步展示了该方法优于以往的研究,同时还展现了有趣的理论特性。最后,我们发现了一个统一的理论框架,用于高效的记忆建模,涵盖了许多现有的记忆模型。通过这个框架,我们提出了一种新的训练记忆模型的方法,从而提高了时间、空间和数据的效率。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU