【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

数据派THU · 公众号 · 大数据 · 2024-09-26 17:00

正文

来源：专知
本文为论文介绍，建议阅读5分钟




    
本论文的重点是开发应对复杂环境中探索问题的有原则且实用的方法。

强化学习是机器学习中专注于序列决策问题的范式。与机器学习和统计学的许多其他领域一样，数据效率常常是一个主要关注点；即，一个序列决策的智能体需要多少试验与错误的交互数据才能学习到所需的行为？数据效率低下的强化学习面临的一个关键障碍是探索问题，即智能体必须在获取新知识与利用当前知识以最大化近期性能之间找到平衡。传统的探索与利用平衡的文献主要针对智能体能够在相关的时间框架内接近最优性能的环境。然而，现代人工决策智能体所面对的复杂环境（例如万维网）使得在任何相关的时间框架内接近最优性能几乎无望。

本论文的重点是开发应对复杂环境中探索问题的有原则且实用的方法。我们的方法基于一个简单的观察，即面对如此复杂的环境时，智能体不应致力于获取足够的信息以实现最优行为，而应瞄准一个较为适中的信息集，虽然该信息集可以促进行为改进，但本身不足以实现接近最优的性能。我们设计了一个能够以这种方式调节探索的智能体，并对其行为进行了理论和实证分析。实际上，该智能体在每个时间段都会决定学习什么，以在信息需求和性能之间取得所需的权衡。正如本论文所阐明的那样，这类智能体的设计核心在于信息论和有损压缩的经典工具，这些工具不仅能够提供有原则的理论保证，也有助于在大规模实践中实现。

数据高效的强化学习

强化学习（Reinforcement Learning，RL）[Sutton 和 Barto, 1998；Kaelbling 等人, 1996] 是机器学习中专注于序列决策问题的范式。与机器学习和统计学的许多其他领域一样，数据效率常常是一个主要的关注点；即，序列决策的智能体需要通过多少试错交互数据才能学习到所需的行为？然而，与其他任何机器学习范式不同的是，RL 中的数据效率要求同时应对三个基本挑战：

探索：明智地优先收集环境中的数据，以提高长期性能。
泛化：稳健地提取可迁移的信息，这些信息可以扩展到尚未见过的观测中。
信用分配：准确地将每步决策的长序列与延迟的未来结果关联起来。

与传统的监督学习不同，监督学习中的学习者会被提供一个固定的、静态的数据集，而强化学习的智能体通过与环境的交互自适应地收集数据。广义上讲，探索挑战归结为一个序列决策智能体面对的二元选择：是获取关于世界的新知识，还是利用现有知识以最大化即时性能？虽然泛化和信用分配带来的挑战通常也很重要，但本论文将专注于应对强化学习中的探索问题。尽管如此，我们的解决方案概念设计使得未来的研究可能会发现，将这些想法与处理另外两个挑战的方法结合起来，能够构建一个更全面的数据高效RL智能体。

复杂环境中的探索

学习识别最优行为的智能体是序列决策文献的主要关注点。事实上，强化学习算法有着悠久的历史，这些算法引导探索性决策，目的是学习最优行为。然而，学习是一个获取信息的过程，因此，智能体想要学习的任何内容都需要从与环境的交互中获取足够精确的信息；自然地，以这一必要信息量来衡量，有些事情比其他事情更容易学习。

在与复杂环境交互时，识别最优策略可能是一项极其困难的挑战，因为在任何合理的时间框架内需要学习的内容都过多。因此，有限的智能体必须进行优先排序。一种简单的方法是指定一个学习目标，可以被视为一个信息集，虽然不足以在环境中实现最优性能，但足以引导有效决策并促进行为改进。然后，智能体可以重新调整其探索，优先收集有关该学习目标的信息，而不是最优行为。

与其让智能体设计者为智能体设计一个学习目标，本论文中所探讨的每个智能体都被设计为能够以自动化、数据驱动的方式选择其自己的学习目标。这将智能体设计者的角色从指定目标转变为赋予智能体确定并适时调整学习目标的能力。设计者可以将学习目标的一般形式作为学习算法的框架的一部分进行指定。传统的、固定目标的学习算法可以重新用作智能体实现其自身目标的子程序。我们在本论文中引入了一条连贯的研究路线，涵盖了从多臂赌博机问题到深度强化学习，以解决一个基本问题：

智能体在与复杂环境交互时，应该如何决定学习什么？

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU