强化学习,凭借其独特的试错与优化机制,与智能决策问题的需求天然契合,被视为开启决策大模型新纪元的智慧之钥。随着大语言模型的迅猛发展,其高效的语言理解和生成能力赋予了智能决策系统卓越的信息处理和知识推理能力,使得基于大语言模型的智能决策成为研究焦点,而针对基于强化学习的决策大模型研究尚处于初期探索阶段,仍然面临着诸多技术挑战。在此背景下,YEF2024专门举办“强化学习:解锁决策大模型新纪元的智慧之钥”专题论坛。论坛由CCF YOCSEF太原分论坛和山西大学计算机与信息技术学院承办,CCF杰出会员、山西大学教授魏巍担任主席,华为诺亚方舟推理决策实验室主任和天津大学副教授郝建业担任本次论坛共同主席。
论坛开始由
魏巍
教授主持,他首先介绍了本次专题论坛的背景和特邀报告嘉宾相关情况,同时对前来报告的嘉宾和相关听众表示感谢,并预祝会议圆满成功。本次论坛邀请到国防科技大学
徐昕
教授、南京大学
俞扬
教授、同济大学
王昊奋
研究员、中国科学院自动化研究所
张俊格
研究员以及北京大学
彭佩玺
助理教授五位强化学习、大模型研究领域的专家学者,共同探讨强化学习与大模型的未来。
在特邀报告环节上,徐昕教授以“机器人系统的高效强化学习研究进展”为题,从强化学习样本效率问题出发,结合机械臂控制和无人车规划等示例,生动形象地阐述了其课题组在特征正则化,基于模型的强化学习以及迁移学习等领域的相关最新工作,并从特征学习理论,鲁棒学习控制,安全强化学习以及参数敏感性研究等方面对强化学习未来发展进行前瞻性展望。
俞扬教授以“大模型与强化学习融通演进的一些进展”为题,从强化学习助力大语言模型以及大语言模型赋能强化学习两个角度出发,分别介绍了其团队在大模型对齐以及世界模型研究上的相关研究进展,并在最后对未来强化学习以及大模型的结合进行了展望。
王昊奋研究员以“知识增强大模型:垂域落地的最后一公里”为题,介绍了大模型,知识问答以及推荐系统领域的相关挑战,同时从工业落地的角度系统阐述了如何推动知识增强型大模型在专业垂直领域的应用,通过多个生动形象的例子来阐述大模型如何能做好落地的“最后一公里”。
张俊格研究员以“面向智能决策的强化学习与大模型智能体研究”为题,从强化学习微调大语言模型、大语言模型辅助下的强化学习以及大语言模型决策模型三个方面对基于强化学习与大模型的智能决策进行介绍,并在报告最后深入探讨了强化学习与大模型在面向智能决策任务中的协同演进关系与趋势。
彭佩玺助理教授以“开放环境智能博弈及大模型思考”为题,针对现实博弈任务存在的参与单位不固定、决策时机不明确、对手策略难预知等挑战,分享了团队在多人博弈,去中心化学习以及大规模机器学习等领域上取得的最新研究成果。在报告最后探讨了大模型在智能博弈问题上的如交通流控制以及无人驾驶领域的潜在应用。
在特邀报告之后,
郝建业
主持了接下来的PANEL环节。与会嘉宾围绕“垂域大模型的涌现?”,“如何看待未来强化学习在通往决策大模型道路上的角色和作用?”,“未来在决策领域应该重点关注和突破哪些技术方向?”,“梯度流和prompt流之间的关系”等议题进行热烈的讨论。PANEL嘉宾和主持人分享了许多精彩观点和独到的见解。
与会嘉宾思辨讨论
此次论坛历时四个半小时,魏巍教授对本次论坛进行了总结。通过此次论坛,听众对强化学习以及大模型的未来发展产生了许多新的认识,也对强化学习未来如何赋能大模型的发展路径也更加清晰。最后,论坛在一片热烈的氛围中圆满结束。
合影
在YEF2024思想秀上,嘉宾栾家带来了一份特殊的“礼物”,他在演讲中分享了一首由AI作词作曲和演唱的原创音乐。让我们来欣赏这首作品吧!