专栏名称: 智慧交通
记录行业发展,分析新闻热点,数读市场投资,与智慧交通网、智慧交通杂志两大平台联动,欢迎您的关注!
目录
相关文章推荐
51好读  ›  专栏  ›  智慧交通

强化学习在交通信号控制算法中的应用探索

智慧交通  · 公众号  ·  · 2025-01-16 08:30

正文



2024年11月3日~6日,2024中国智能交通大会在杭州隆重召开。2024年11月6日,在道路交通控制与优化论坛上,东南大学交通工程研究所副所长王昊就《强化学习在交通信号控制算法中的应用探索》做主题分享,本文系现场演讲整理而来,未经本人审核,如有错漏,敬请谅解。




0 1


一、研究背景



目前,深度学习,特别是深度强化学习在信号控制领域饱受关注,经团队初步统计发现,仅仅是深度强化学习这一项技术,在信号控制领域的优化研究从2014年到2024年已有十年时间,起步阶段相关论文的年发表量大概有20篇,而到2022年就已突破300篇,这也说明深度强化学习的研究十分活跃。

然而,基于深度强化学习的信号控制方法在现实中仍未能得到广泛应用,深度强化学习算法的迁移性差、早期学习效率低等问题未能得到很好解决,并且在实战中应用很难确保它的可靠性,强化学习算法的根本原理是要跟环境互动,要在跟环境的不同试错中逐渐靠机器归纳出一套策略,跟环境互动交互的风险相对较高,早期模型不成熟时可能会产生很多不靠谱的控制方案。

此外,我们在研究过程中无法直接与实际环境互动,所以大部分工作是在仿真环境下展开,仿真环境跟现实环境存在差异,即便在仿真环境下效果不错的算法,也没把握把它直接部署到实际道路中,因为它的表现可能还是会不尽如人意,存在迁移性差的问题。


0 2


二、探索实践



为突破深度强化学习技术的研究瓶颈,我们团队进行了一些探索与实践,接下分享下我们的心得体会。

引入对抗 网络 提升泛化能力

针对强化学习控制方法面临的迁移性差的问题,在仿真环境加干扰因素,通过添加干扰的方法让策略生成的过程变得更加可靠。

具体来说,在学习过程中采用对抗网络形式增加干扰,对抗网络会对仿真环境输出的状态进行干扰,让输出状态变得不确定或出现噪声,并且对抗网络是朝着优化的反方向而设计,希望在施加干扰的情况下控制策略依然表现优异,因为干扰后的状态不同于原状态,因此原智能体基于干扰后的状态执行动作,此时智能体会对干扰产生一定的抵抗能力。添加干扰为什么会给强化学习带来提升?因为在干扰的作用下,强化学习为了找到更好的策略会增加搜索空间,所尝试的控制方案空间会变大。

此外,基于多个转移方程中优化可能会使智能体学习混乱,为了平衡模型的泛化能力和训练效率,我们特意收集较差的轨迹纳入采样数据集中,让对抗网络有意识地去认识较差的轨迹,帮助提高抗干扰性。

为证明所提出的策略设计了实验进行验证,单点路口控制等的机理已经非常清晰,不需要再去用复杂的强化程序去实验,因此我们采取了相对复杂、干扰因素较多的案例去验证。

例如某个城市高架匝道,匝道上去是蓝色区域,跟匝道相连的是地面道路,其中有三个黄色区域是信号控制路口,三个连续匝道和地面三个交叉口的整体协调控制问题相对复杂,而用交通流的模型化控制效果相对较差,所以我们尝试用强化学习去生成策略,其主要目的是仅通过调整地面十字路口的信控方案,对快速路、高架、高架匝道等实现协同控制,基于安全性和排队容易溢出等方面的考虑,不在快速路匝道上安装信号灯,把控制点往前延伸到相接的地面交叉口去控制,通过地面交叉口的流量控制间接调节匝道汇入流量。

从定时控制、反馈控制、普通强化学习控制、引入对抗网络的强化学习控制的实验结果来看,定时控制和反馈控制中间的绿色区域会出现蓝色的堵塞波,运用强化学习,特别是加入对抗网络后,堵塞波会逐渐消失,确实能够缓解快速路交通拥堵,比定时控制和反馈控制拥有更好的控制效果。

我们还进行了目标域迁移实验,提高迁移性。真实环境跟仿真环境的差异主要体现在驾驶行为上,具体的测试方法是仿真环境的基本设施不变,但替换交通流模型等模块,通过调整参数的方式来模拟人类驾驶的不一致。据实验结果得出,引入对抗网络在不同目标域中显著优于普通强化方法,面对从未见过的交通场景,策略具有较强的泛化能力。

另外,引入对抗网络的强化学习方法显著扩展了状态收集的探索边界,减少了重复采样的次数,如图所示,普通强化学习的探索空间始终在某个较亮的区域反复采样,引入对抗网络后的采样明显会更加分散,尝试去不同区域采样,能够找到更好的控制策略。

基于参考机制的

强化 学习信号控制模型

强化学习用到实际控制中,一种是离线在仿真环境下训练后再去部署,一种是不在仿真环境下训练直接部署,但它的学习过程会非常长,因为实际环境中产生的数据和方案有限,存在训练时间长、安全风险高等一系列挑战。

为解决此问题,研究团队在强化学习中增加参考机制,基本思路是将在强化学习过程中产生的策略再传送给参考机制,让参考机制进行评价,如若策略的效果比参考机制生成的要差就不采用,让智能体继续探索生成,如若策略的效果比参考机制生成的要好,就认可这个动作,也就是通过这一系列流程来过滤强化学习早期会产生的一些不成熟的策略。

我们选取了扬州市某个路网的7个路口进行测试,将固定信号配时策略、自适应控制策略、周期式背压信号配时策略三种控制方案结合强化学习训练,发现引入参考机制可以快速梳理方案,并能避免采用早期不成熟的策略,总体上提升了强化学习方法在早期应用的安全性和可靠性。

如图所示,引入参考机制后早期的探索空间不会特别发散,而是固定在相对合理的位置,没有引入参考机制的探索空间会变大,在离线训练中有优势,获得优化方案的概率高,但在实际部署中存在隐患。

引入离散与连续

动作空间优化信号方案

现有强化学习控制策略往往是step-by-step的控制,要么是保持原有相位,要么是切换相位推进,擅长处理连续动作空间动作和离散空间动作,而现实中的信号交叉口往往是周期式控制,两者的不统一导致强化学习大量的算法无法落地实施。我们的做法是将离散周期和连续动作同时纳入一个计算框架,并通过引入参数模型和注意力机制提升分布式控制效果,比如每1个路口相邻的4个路口上引入注意力机制,可以得知哪些路口被高度关注,哪些路口不被关注,从而得知哪些路口值得协调,哪些路口不值得协调。

具体来看,路口C相邻有4个路口,这4个路口的OD需求上南北向是大需求量,东西向是小需求量,引入注意力机制优化后,发现它会更关注南北向,这本质上也代表一种协调方向,最终路口的二次、三次排队减少,提升了通行效率,初步形成了绿波效果。

以上是我们基于强化学习进行的一些探索与实践,做法是通用的,无论运用什么样的结构,都可以通过引入对抗网络、参考机制,以及离散与连续动作空间计算框架来改进强化学习方法。

往期精彩回顾

*相关推荐

数据——城市交通控制系统之痛

道路交通控制应用技术的发展趋势

马林:问题导向与城市交通治理







请到「今天看啥」查看全文