本文约1000字,建议阅读5分钟
本论文的重点是识别一些阻碍RL代理在特定环境中学习的关键挑战,并改进现有方法,以提高代理的性能、样本效率以及学习到的策略的泛化能力。
强化学习(RL)是一种框架,代理通过与环境交互获取数据驱动的反馈,利用奖惩机制学习如何做出决策。深度强化学习(Deep RL)将深度学习与强化学习相结合,利用深度神经网络的强大功能来处理复杂的高维数据。在深度RL框架下,我们的机器学习研究社区在使机器能够在长时间范围内做出连续决策方面取得了巨大的进展。这些进展包括在Atari游戏中达到超越人类的表现[Mnih等,2015],掌握围棋并击败世界冠军[Silver等,2017],提供强大的推荐系统[Gomez-Uribe和Hunt,2015,Singh等,2021]。本论文的重点是识别一些阻碍RL代理在特定环境中学习的关键挑战,并改进现有方法,以提高代理的性能、样本效率以及学习到的策略的泛化能力。
论文的第一部分 我们关注单智能体RL环境中的探索问题,在这种环境中,代理必须与复杂环境交互以达成目标。如果一个代理无法充分探索其环境,它不太可能达到高性能,因为它会错过关键的奖励,从而无法学习到最优行为。一个关键挑战是稀疏奖励环境,在这种环境中,代理只有在任务完成后才会收到反馈,使得探索更加困难。我们提出了一种新的方法,能够实现语义探索,从而在稀疏奖励任务中提高样本效率和性能。
论文的第二部分 我们聚焦于合作的多智能体强化学习(MARL),这是对传统RL设定的扩展,考虑了多个代理在同一环境中为完成共享任务而进行的交互。在需要多个代理高度协调且对失误有严格惩罚的多智能体任务中,当前的最先进MARL方法往往无法学会有用的行为,因为代理容易陷入次优均衡。另一个挑战是所有代理的联合动作空间的探索,其规模随着代理数量呈指数级增长。为了解决这些挑战,我们提出了创新的方法,如通用价值探索和可扩展的基于角色的学习。这些方法促进了代理之间的更好协调、更快的探索,并增强了代理适应新环境和新任务的能力,展示了零样本泛化能力,并提高了样本效率。最后,我们研究了合作型MARL中的独立策略方法,在该方法中,每个代理将其他代理视为环境的一部分。我们展示了这种方法在流行的多智能体基准测试中表现优于最先进的联合学习方法。
总之,本论文的贡献显著改善了深度(多智能体)强化学习的现状。论文中开发的代理能够高效地探索其环境,提高样本效率,学习需要显著多智能体协调的任务,并实现跨不同任务的零样本泛化。
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU