强化学习是机器学习的重要分支,通过试错或模仿专家的方式学习可靠策略,解决序列决策问题。其应用领域包括视频游戏AI、无人驾驶、机器人控制、物流管理和仓储调度等。粗略统计,本届ICML有40余篇强化学习相关论文,涵盖了收敛性分析、连续控制、搜索与探索、多智能体与博弈论、模仿学习与转导、端到端深度强化学习等多个方面。
这次会议的研究中体现出三大特点:一、深度学习范式被广为采用,研究者将对问题的理解和先验知识做成了复杂网络模型的子模块,并采用端到端的方式训练;二、来自机器人领域的学者持续影响连续控制方面的研究;三、团队配合多智能体方面的研究吸引了越来越多的注意力。另外,「视频游戏与机器学习」研讨会(Workshop)环节发布了新的强化学习模拟器平台。我们重点关注了以下文章:
1) FeUdal Networks for Hierarchical Reinforcement Learning
本文由Google DeepMind发表。策略网络被划分为两个模块:管理者和工作者。管理者模块在低时间分辨率工作,产生中长期子目标;工作者模块在高时间分辨率工作,从管理者模块拿到子目标,并上原始的环境观测一起输出当前时刻的决策动作。本文这种精巧设计的网络结构能自动「发现」子目标,并自动学出相应的「子策略」,而之前的工作都采用了手调子目标的方式,在灵活性和通用性不如本文所提出的算法。