控制复杂物理系统的演化是科学和工程领域的一项重要任务。经典控制技术存在适用性有限的问题,而近期基于深度学习和强化学习的方法在系统动力学约束下,往往难以优化长期控制序列。西湖大学助理教授吴泰霖课题组近期针对复杂物理系统提出了一种新的生成式控制方法。该方法引入了物理系统的扩散控制
(Diffusion Physical Systems Control,简称DiffPhyCon),通过在整个状态轨迹和控制序列上同时最小化控制目标和学习到的生成能量模型,可以在物理系统动力学约束下,对控制目标进行全局优化。此外,该方法还引入了先验重加权技术,用于发现与训练分布显著偏离的更优控制序列。多个控制任务上的效果验证了该方法优于经典控制方法以及现有的深度学习和强化学习方法。有趣的是,DiffPhyCon 揭示了 “快闭慢开” 是一种高效的水母拍动模式,这与流体动力学领域的已有发现一致。该工作发表于即将在加拿大温哥华召开的人工智能领域国际顶级会议NeurIPS 2024上。
关键词:
复杂物理系统控制,人工智能,能量模型,扩散模型,先验重加权
魏龙
| 作者
论文题目:DiffPhyCon: A Generative Approach to Control Complex Physical Systems
论文地址:https://arxiv.org/abs/2407.06494
GitHub:https://github.com/AI4Science-WestlakeU/diffphycon
论文作者:魏龙*,胡佩炎*,冯睿琪*,冯浩东,杜奕轩,张涛,王锐,汪跃,马志明,吴泰霖†
复杂物理系统的动力学建模是科学和工程领域中的一类重要问题。通常,我们不仅关心物理系统的演化行为,还希望注入时变信号来引导其演化,并且优化特定的目标,这就是
复杂物理系统控制问题
。
这个问题在科学和工程领域广泛存在,例如,可控核聚变控制、流体控制、水下设备和航天控制等
(如图1所示)
,具有重要的科学价值和广泛的应用前景。
该问题具体描述为:对于给定的控制目标
,系统的动力学约束
和系统初始状态u
0
,求解最优的控制序列w
*
,使得由w
*
产生的系统状态轨迹u(w
*
)和w
*
共同最优化控制目标
,即
这里u和w的长度T是通过时间离散化后得到的系统轨迹或控制序列的长度,
表示系统动力学约束。这篇论文考虑更为一般的数据驱动场景,即
的具体表达形式可以是已知的,也可以是未知的。在第一种情况下
,
通常由一组偏微分方程
(Partial differential equation, PDE)
表示,通过数值仿真来生成训练数据;在第二种情况下,只能通过离线收集的观测数据作为训练集。第二种情况在实际控制问题中更为常见,在控制效果方面也更有挑战性,因为不能在线训练控制模型。每条训练轨迹包含如下四元组:初始状态u
0
、控制序列w=[w
1
,…,w
T
]、状态轨迹u=[u
1
,…,u
T
]、控制目标值
(u,w)。问题的设置具体见图2。
求解该问题面临多重挑战。首先,物理系统通常是高度非线性的,并且经过时空离散化后,收集到的状态轨迹数据往往是高维的。此外,与机器人控制领域不同,物理系统控制领域的专家轨迹难以获得,训练集中的控制序列通常远非最优。因此,求解该问题的关键在于
如何在训练分布之外找到接近最优的解,同时确保控制序列和生成的状态轨迹符合物理系统的动力学
。
尽管已有多种控制技术试图解决物理系统控制问题,但都未能完全应对上述挑战。传统PID控制虽然高效,但适用范围有限,尤其不适用于多输入多输出系统。模型预测控制
(MPC)
虽然更通用,但计算成本高且需要显式的系统动力学模型,这在我们的假设下难以获取。近年来,基于监督学习和强化学习的方法取得显著进展,但这些方法要么存在短视缺陷,即长时间范围内控制效果不佳;要么产生不符合物理系统动力学的不合理轨迹。
这篇论文提出一种全新的生成式控制方法 DiffPhyCon 用于求解问题(1)。它借助能量模型
(Energy-based model)
对物理系统约束建模,全局求解控制序列与系统状态。接着用扩散模型学习该能量模型,并以控制目标为生成条件或引导手段采样控制序列,最后将控制序列输入到求解器或者真实环境中测试。此外,还提出先验重加权技术,以此生成比训练集更优的控制序列。
DiffPhyCon 的创新之处在于:利用扩散模型善于学习高维数据分布的优势,解决系统动力学的高维非线性挑战;并通过
先验重加权
技术,解决训练集中控制序列远离最优解的挑战。该方法示意图见图 3。
图3. 论文提出的 DiffPhyCon 方法示意图。该方法通过学习去噪模型,能够从噪声开始,在控制目标的引导下和先验重加权技术的辅助下,同时采样到控制序列和状态轨迹,取得显著优于训练集的控制效果。
2.1 能量模型
DiffPhyCon 从能量模型优化的角度来解决问题(1)。它将物理约
束
建模为一个参数化的能量模型 E
θ
(u,w,c) ,这里c表示控制条件,即初始状态u
0
、边界条件等。能量模型和数据的观测概率之间存在如下的对应关系:p(u,w|c)∝exp{(-
E
θ
(u,w,c))},即
E
θ
(u,w,c)越低,或者等价地,p(u,w|c) 越高,意味着w和u更好地满足物理约束。通过引入能量模型,问题(1)可以转换为:
其
中λ是一
个超参数。也就是说,我们希望求解出来的控制序列及其产生的状态轨迹既具有尽可能低的能量,又能最小化控制目标。
但是直接优化能量模型是困难的,我们转而利用扩散模型来估计
E
θ
的梯度
∇
z
E
θ
[1],这里z=[u,w]来表示u和w拼接起来的变量。然后,用参数
为θ的
去噪网络
ϵ
θ
来近似
∇
z
E
θ
,学习每个去噪步骤中应该去除的噪声。
ϵ
θ
采用和扩散模型DDPM[2]中相似的损失函数训练。
在去噪网络
ϵ
θ
训练完成后,问题(2)可以通过Langevin采样过程进行优化。我们从一个初始样本
开始,在控制目标的的引导下,从k=K到k=1迭代运行以下采样过程,就得到优化问题(2)的最终解:
其中z
k
=[u
k
,w
k
]。这里
是从z
k
估计出的无噪声样本,并且这里采用训练完成的去噪网络
ϵ
θ
替换了
∇
z
E
θ
。
2.2 先验重加权
如上所述,在物理系统控制中,一个关键挑战在于获得远优于训练数据集中的控制序列。尽管公式(3)的采样过程包含了控制目标的引导,但生成的控制序列仍然受限于训练数据集中控制序列的先验分布 p(w|c) 的影响,这促使我们探索减轻这种先验影响的策略。
从概率分解p(u, w|c)=p(w|c)p(u|w,c)出发, 我们引入一个可调节的超参数
γ
>0作为指数来调整 p(w|c) 的影响,从而得到 p(u, w|c) 的一个
先验重加权
版本的概率分布:
其中Z是一个归一化常数,这里“重加权”的含义即是先验分布p(w|c) 能够发挥的影响取决于超参数
γ
。通过将原始的能量模型
E
θ
(u,w,c) 替换为与p
γ
(u, w|c) 对应的先验重加权的能量模型E
(
γ
)
(u, w, c),问题(2)可以转换为:
这样一来,问题(2)相当于问题(5)在
γ
=1时的退化版本。我们假设问题(2)的全局最优解位于联合分布p(u, w|c)的低概率区域
(这个假设与前文中训练集里面控制序列普遍远非最优的设置一致,因此是合理的)
。当取0
图4. DiffPhyCon方法中的先验重加权技术的示意图。通过将重加权的超参数
γ
设置为小于1,能够使得先验重加权的概率分布p
γ
(u, w)更加平坦,从而增加优化过程中在全局最优解(下图中红色点)处采样的概率。
为了学习
E
(
γ
)
(u, w, c),我们对等式(4)的两边先取对数,再关于(u, w)取梯度,就可以将其梯度参数化为两部分之和:
其中
是-
∇
log p(w|c)的参数化模型。注意这里
∇
log Z消失了,因为Z是一个常数。由于
∇
E
θ
(u, w, c)已经通过上文中学习到的去噪网络
ϵ
θ
近似,因此只需要引入一个新的去噪网络
ϵ
Φ
来近似
。
ϵ
Φ
的训练损失函数和
ϵ
θ
类似。
在
ϵ
θ
和
ϵ
Φ
都训练完成之后,通过迭代以下采样过程优化问题(5):
其中z
k
=[u
k
,w
k
]。这个迭代方案与公式(3)的区别在于它使用了一个额外的采样步骤,即在每一个迭代步,根据
ϵ
Φ
预测的噪声来二次更新w
k
。
论文在三个具有挑战性的任务上评估了 DiffPhyCon 方法的效果:
(1)
一维 Burgers 方程控制
:通过控制外力项,使系统的最终状态与目标状态一致。
(2)
二维水母运动控制
:通过控制水母的张开角度,最大化水母平均运动速度并最小化能量消耗,同时满足周期性条件。
(3)
二维烟雾间接控制
:通过间接控制外部力场,最小化从非目标出口逸出的污染物比例。
实验设置详见论文。对比方法包括经典控制方法
(PID、MPC)
、最新的监督学习方法
(SL)
、常用的模仿学习方法
(BC)
和强化学习方法
(SAC、BPPO)
。为了增加挑战性,实验不仅包括常规的全区域可观测
(FO)
和全区域可控制
(FC)
,还设置了部分区域可观测
(PO)
和部分区域可控制
(PC)
的场景。此外,实验评估了带有先验重加权的完整版 DiffPhyCon 和不带此技术的退化版 DiffPhyCon-lite,即
γ=
1的效果。
结果显示,DiffPhyCon 方法在这三个任务中均表现出色,相比基准方法,优势明显,尤其在部分观测和部分 / 间接控制场景中,表现出更强的泛化性。这些结果证实了生成式控制是实现物理系统控制的有效路径。例如在水母运动控制中,验证了“快闭慢开”是一种高效的控制方法,这和流体力学的已有研究结论一致 [3]。通过进一步使用先验重加权技术,DiffPhyCon能够在测试集上得到与训练集中显著不同的控制序列模式。例如在水母运动控制中,取得最好控制效果的控制序列在训练集中没有出现过,表现出更为激进的快速闭合模式。
图5. 一维 Burgers 方程控制的可视化对比结果。相比对比方法,DiffPhyCon能够在最终时刻(t=10)取得和目标状态(黑色虚线)之间更小的误差。
表1. 二维水母运动控制任务的实验对比结果。在全区域可观测和部分区域可观测两种设置下,DiffPhyCon都能获得显著优于对比方法的平均运动速度和控制目标。特别地,先验重加权技术的提升效果显著。
图6. 二维水母运动控制任务的可视化对比结果。上图展示了3个测试样例,横轴表示一个运动周期,纵轴表示水母张开的角度,DiffPhyCon取得了符合预期的“快闭慢开”运动模式。下图展示了上图位于中间的水母的运动过程和将控制序列输入到求解器中产生的流场可视化。
图7. 二维烟雾间接控制的实验设置(左上图)、对比结果(右上表)和我们方法的控制可视化结果(下图)。
复杂物理系统控制有着非常广阔的应用前景。火箭的成功控制,将加速商业航天的步伐;可控核聚变若能被有效控制,更有望为人类提供无穷无尽的能源。然而,实际应用场景中存在诸多挑战:如何确保控制效率满足实时要求?如何在每一步引入系统反馈,实现闭环控制?如何进行在线训练或模拟在线环境训练,以增强模型的探索能力?这些问题亟待解决。
本文展示了生成式控制技术在复杂物理系统中的巨大潜力。尽管基于扩散模型的模仿学习在机器人控制领域已取得显著进展,但在复杂物理系统控制这个具有自身独特挑战性的领域,生成式控制的研究才刚刚起步。未来需要更深入的研究来挖掘其潜力和优势,以应对上述现实挑战。
[1] Yang Song et al. "How to Train Your Energy-Based Models."
arXiv preprint arXiv:
2101.03288.
[2] Jonatha Ho et al. "Denoising diffusion probabilistic models."
NeurIPS
2020.
[3] Linlin Kang et al. "Propulsive performance and vortex dynamics of jellyfish-like propulsion with burst-and-coast strategy". Physics of Fluids, 35(9), 2023.