当地时间12月10日—15日,全球AI顶级会议NeurIPS(神经信息处理系统大会)在加拿大温哥华举办,这一大会涵盖了机器学习、深度学习、神经科学等多个智能计算相关研究方向。在此次大会上,Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning被NeurIPS 2024接收为Spotlight文章(中稿率2.08%)。论文一作为之江实验
室研究专家、香港中文大学在职博士李蓝青,指导老师为香港中文大学计算机科学与工程系王平安 (Pheng Ann Heng) 教授。同济大学硕士生张海为共同第一作者,指导老师赵君峤教授为论文通讯作者。
论文链接:
https://openreview.net/pdf?id=QFUsZvw9mx
这项研究系统性地提出了一个名为UNICORN(UNIfied Information Theoretic Framework
of Context-Based Offline Meta-ReiNforcement
Learning)的理论框架,它专注于强化学习中的任务表示学习。UNICORN利用基于任务表征的通用互信息作为优化目标,整合了现有强化学习领域的相关主流方法,并在离线及元强化学习领域中取得了新的突破。
在传统的强化学习中,智能体通过与外部环境的实时交互来收集反馈,并在不断试错中积累经验。然而,在自动驾驶、疾病治疗等许多现实场景中,实时交互收集数据可能成本高昂或因安全隐患而不可行。因此,人们开始探索“离线强化学习”,即仅从历史数据中学习的方法。另一方面,复杂多变的真实场景要求智能体具备处理多任务的能力,这种能力被称为“元强化学习”(meta-RL)。
为了发挥两者优势,以李蓝青于2021年提出的FOCAL算法为代表,人们开始尝试结合两种范式来训练更加强大的智能体,其中主流的一类方法被称为“基于语境的离线元强化学习”(Context-Based Offline Meta-RL,COMRL),其可以帮助智能系统从以往的多种环境的离线经验中学习,以提高在新环境下的泛化能力。
离线强化学习与元强化学习两种范式的特点,本文研究的新范式(离线元强化学习)扬长避短地结合了两者的优势
在COMRL框架下,如何学习鲁棒且有效的任务表征成为核心问题,其中最大的挑战是语境偏移,即由于任务本身或采样策略不同而导致的数据分布偏移。现有的主流方法多采用度量学习、对比学习等思想进行算法的经验性改进,但在任务表示尤其是语境偏移方面缺乏系统性的理论支持和算法设计指导。
针对这一问题,本研究提出的UNICORN算法,借助信息论,从数学定义、因果关系分解、中心定理三个层面系统性地定义和解构了COMRL中的任务表示学习问题。通过严格的理论证明,该研究将现有方法的优化目标进行了统一,并提出了有监督和自监督两种新的UNICORN算法实现。
UNICORN的算法流程
这一理论框架的普适性在多种智能体连续控制任务中得到了广泛实验验证,在同分布或不同分布测试集、不同质量的数据集、不同模型架构间的可迁移性以及对分布外任务的泛化性等多种设定下均优于或媲美现有方法。