【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

数据派THU · 公众号 · 大数据 · 2024-12-28 17:00

正文

请到「今天看啥」查看全文

来源：专知
本文约1000字，建议阅读5分钟
我们提出了一种新的训练记忆模型的方法，从而提高了时间、空间和数据的效率。

强化学习是一种优化决策的框架，考虑到行动的长期后果。

强化学习的深度变种已成为在复杂环境中进行决策的强大工具。以往的工作已经在复杂游戏如围棋和Atari中取得了突破，甚至超越了地球上一些最优秀的人类选手。然而，这些令人印象深刻的成就通常局限于游戏或仿真环境。那么，是什么阻碍它们进入现实世界呢？在本文中，我们解决了一个主要的瓶颈：有限和不完美的感官信息。

在许多现实任务中，感官信息往往是噪声或不完整的，这打破了强化学习的核心假设。解决这一挑战的方案实际上是众所周知的——即使用记忆。记忆是感官信息的存储与回忆，用于决策过程，这类似于人类和许多其他生物体内记忆的功能。记忆使得这些生物体能够建立并更新世界的内部表征，做出合理的猜测，并在不确定性面前取得成功。然而，尚不清楚的是，如何以可靠和可处理的方式建模记忆。本文的目标是让记忆建模变得稍微不那么难以处理，并稍微更具实用性。

首先，我们提出了一种利用我们对任务已有的先验知识的记忆形式。通过使用这些知识，我们动态构建一个记忆图，与标准记忆模型相比，提高了数据和参数的效率。接着，我们讨论了对记忆模型的大规模研究。我们设计了一系列程序化生成的任务，然后在这些任务上实现并评估各种记忆模型。我们采取实践性的方法，确定哪些模型具有潜力，从而为未来的研究人员节省时间和计算资源。然后，我们探讨了计算心理学家所提出的人类记忆模型。基于这些原则，我们开发了一种记忆模型，达到了比标准模型更好的时间和空间效率。我们进一步展示了该方法优于以往的研究，同时还展现了有趣的理论特性。最后，我们发现了一个统一的理论框架，用于高效的记忆建模，涵盖了许多现有的记忆模型。通过这个框架，我们提出了一种新的训练记忆模型的方法，从而提高了时间、空间和数据的效率。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号： 数据派THU

今日头条： 数据派THU