专栏名称: 深度强化学习实验室
主要介绍深度学习、强化学习、深度强化学习环境、算法原理与实现、前沿技术与论文、开源项目、场景应用等与DRL相关的知识
目录
相关文章推荐
51好读  ›  专栏  ›  深度强化学习实验室

控制系统可控性检验理论的变革:从模型驱动到数据驱动

深度强化学习实验室  · 公众号  ·  · 2024-11-25 09:00

正文

请到「今天看啥」查看全文


数据是人工智能的三大支柱之一。近年,随着人工智能的崛起与应用,以数据为核心的系统表征方法快速进入控制领域,这导致控制系统的设计正经历从模型驱动控制(modelic control,即model-driven control)到数据驱动控制(datatic control,即data-driven control)的范式变革(如图1)。对于控制系统而言,可控性是它的一项基本特性,判定可控性是控制理论的核心问题之一。以模型驱动的控制系统为例,其可控性检验依赖于已知的动力学模型,这些模型可以在状态空间上提供系统行为的连续描述。然而,对于真实世界中多数高维度、高复杂、非线性系统而言,它们的动力学模型通常无法直接获取,只能通过一定数量的状态转移数据点进行描述。例如,将强化学习方法用于求解工业对象的最优控制器时,本身就是解决一个数据驱动控制问题,典型的例子包括赛车控制 [2] 和无人机控制 [3] 。对于数据驱动的控制系统(datatic control system),数据点只能给出离散化的系统行为描述,而数据点之间的系统信息无法直接得知,因此传统基于模型的可控性检验方法并不适用于数据驱动的控制系统。

图1 模型驱动和数据驱动范式对比

在基于模型的系统中,已有广泛的研究关注可控性判定理论。可控性概念最早由卡尔曼滤波的发明者Rudolf Kalman教授在20世纪60年代提出,其后控制理论学者波波夫(Popov)、贝列维奇(Belevitch)和豪特斯(Hautus)共同提出了适用于线性时不变系统的PBH检验方法,构建了线性系统可控性检验的统一框架。虽然模型驱动的控制系统在可控性检验理论上已相对完善,但对于数据驱动的控制系统,由于只能依赖离散数据点,系统行为描述的完整性受到限制,用于datatic system的可控性判定理论仍然是缺失的。

针对上述问题,清华大学李升波教授团队首次提出了 微域可控性(即 ϵ -可控性) 概念及其检验方法,专注于解决数据驱动控制系统空间描述不完整带来的可控性检验挑战。传统的可控性是指系统状态能在有限时间内从任何初始点精确地转移到目标状态,又称精确可控性 (exact controllability) 。与之不同, ϵ -可控性将精确的点对点可控性延伸至点对邻域的形式,关注系统状态是否能够转移到目标状态附近的一个小邻域内,而非精确转移到目标点。这一概念将状态转移信息从离散数据点延拓到数据点之间的连续空间中。

2 ϵ -可控性与精确可控性的区别

那么我们称状态 对目标状态 ϵ -可控的。所有 ϵ -可控的状态组成的集合 称为 ϵ -可控集。

微域可控性,即 ϵ -可控性是对精确可控性的一种推广。特别地,当 ϵ 等于 0 时, ϵ -可控性退化为精确可控性。 ϵ -可控性允许系统状态靠近目标点时存在一定范围的误差,这一特点尤其适合状态转移信息离散的数据驱动系统,同时也符合实际控制任务中带容许误差范围的要求。由 ϵ -可控性的定义可以推出一项重要定理,它是数据驱动系统可控性检验的理论基础,即 可控性反向传播(controllability backpropagation)定理

这一定理给出了 ϵ -可控性检验的基本原理:从目标状态出发,沿系统轨迹的反方向递推,不断利用前一个 ϵ -可控状态推出后一个 ϵ -可控邻域,直到找到所有 ϵ -可控状态。从这一原理出发,研究团队提出了 ϵ -可控性的首个检验算法——MECS(Maximum Expansion of Controllable Subset) 。MECS算法是一个树搜索算法,它通过迭代执行四个步骤搜索给定数据集中所有的 ϵ -可控状态。第一步是 选择(Selection) :选出半径最大的未访问邻域。第二步是 扩展(Expansion) :找出单步可达选定邻域的所有状态,并加入搜索树中。第三步是 评估(Evaluation) :利用可控性反向传播定理,计算上述状态的邻域半径。第四步是 修剪(Pruning) :移除被包含在其他叶节点中的邻域以减少冗余扩展。

图3 MECS算法的四个步骤

研究团队在典型数据驱动控制系统上对MECS算法进行了测试验证。下图展示了MECS算法在一个跟车系统(car-following system)中的可控性检验结果。该系统是一个二维线性系统,其状态为,为前后两车的距离与期望距离之差,是对时间的导数。系统的目标状态位于原点。实验结果表明,MECS算法可以有效识别出数据集内的 ϵ -可控状态。此外,系统的可控度(可控状态的占比)随 ϵ 的增大而提升。

图4 跟车系统的数据轨迹及 ϵ -可控状态

图5 跟车系统的可控度随 ϵ 的变化

综上所述,该研究为数据驱动系统的可控性检验提供了理论基础和实用工具,对分析数据驱动系统的特性具有重要价值,为数据驱动控制算法的设计奠定了基础。未来的研究方向包括进一步降低可控性检验算法的时间复杂度,并探讨在系统存在扰动或观测噪声时的可控性检验方法。团队同时在数据驱动系统的稳定性和标准型方面取得了重要进展,并已在arXiv平台发布了两篇相关论文 [4][5] ,进一步完善了数据驱动控制的理论基础。

参考文献

[1] Yang, Y., Tao, L., Wang, L., & Li, S. E. (2024). Controllability test for nonlinear datatic systems. Communications in Transportation Research , 4 , 100143.

[2] Wurman, P. R., Barrett, S., Kawamoto, K., MacGlashan, J., Subramanian, K., Walsh, T. J., ... & Kitano, H. (2022). Outracing champion Gran Turismo drivers with deep reinforcement learning. Nature , 602 (7896), 223-228.

[3] Kaufmann, E., Bauersfeld, L., Loquercio, A., Müller, M., Koltun, V., & Scaramuzza, D. (2023). Champion-level drone racing using deep reinforcement learning. Nature , 620 (7976), 982-987.

[4] Yang, Y., Zheng, Z., & Li, S. E. (2024). On the stability of datatic control systems. arXiv preprint arXiv:2401.16793 .

[5] Zhan, G., Zheng, Z., & Li, S. E. (2024). Canonical form of datatic description in control systems. arXiv preprint arXiv:2403.01768 .








请到「今天看啥」查看全文