专栏名称: 集智俱乐部
本公众号用于发布与集智俱乐部有关的活动信息、文章以及关于俱乐部的基本介绍。
51好读  ›  专栏  ›  集智俱乐部

Nat. Commun. 速递:基于机器学习噪音诱导动力学

集智俱乐部  · 公众号  ·  · 2025-02-10 20:00

正文


概要


近日,电子科技大学基础与前沿研究院的汤迎教授课题组,联合北京师范大学珠海校区复杂系统国际科学中心的狄增如教授在 Nature Communications 上发表了题为“Learning noise-induced transitions by multi-scaling reservoir computing”的研究论文。论文报道了利用多尺度化储备池计算学习噪音诱导的随机转移的最新进展。基础院汤迎教教授为通讯作者,团队学生林泽群为共同第一作者,电子科技大学基础与前沿研究院为论文第一作者单位。 本周四晚上19点, 汤迎教授会带来主题为“机器学习应用于随机动力学”的分享 ,欢迎大家预约读书会报名。


为了探讨统计物理学的前沿进展,集智俱乐部联合西湖大学理学院及交叉科学中心讲席教授汤雷翰、纽约州立大学石溪分校化学和物理学系教授汪劲、德累斯顿系统生物学中心博士后研究员梁师翎、香港浸会大学物理系助理教授唐乾元,以及多位国内外知名学者共同发起 「非平衡统计物理」读书会 。读书会从12月12日开始,计划每周四晚20:00-22:00进行,持续时间预计12~15周。欢迎感兴趣的朋友一起讨论交流!

汤迎 | 作者

电子科大基础与前沿研究院
| 来源

论文题目:Learning noise-induced transitions by multi-scaling reservoir computing

论文地址:https://www.nature.com/articles/s41467-024-50905-w





内容介绍




噪声通常被认为会影响从时间序列中提取有效的动力学模型,因此传统方法通常需要减轻噪声对学习动力学的影响。另一方面,噪声有驱动稳定态之间随机转移的作用。为了从数据中捕捉和预测噪音诱导的随机转移,作者首先尝试应用当下流行的机器学习方法 SINDy、FORCE,但发现即使对于最简单的白噪音双稳态系统这些方法也不准确。因此,作者推广了另一类机器学习模型,储备池计算,并通过重点关注一个控制时间尺度的超参数,设计了可以学习随机转移的新方法。这种方法在一系列例子中展现出良好效果,比如对蛋白质折叠的实验,从仅含有几次状态转移的数据中便能学习到准确的转变动力学。这项研究表面预测噪声诱导的现象还有广泛的探索空间,需要系统地推广主流的机器学习方法。


具体而言,噪声诱导的转变在自然界中普遍存在,并且发生在具有多稳态的各种系统中。例如,电路中不同电压和电流状态之间的切换、噪声驱动的基因开关、噪声诱导的早期生命自我复制体的生物手性、蛋白质折叠态转变[1]、以及具有多稳态概率分布的化学反应。学习噪声诱导的转变对于理解这些系统的关键现象至关重要。在许多情况下,只有时间序列可用,而事先并不知道数学方程。为了有效地从时间序列中学习和预测噪声诱导的转变,有必要区分慢时间尺度和快时间尺度:在不同稳定状态周围的快速弛豫和它们之间的慢速转变,其中快速时间尺度的信号通常被视为噪声。从时间序列中学习随机转移仍然是一个难题。


近年来,有许多机器学习方法致力于从数据中学习动力学。一种方法使用稀疏识别非线性动力学 (SINDy) 来识别非线性动力学、对时间序列数据去噪并从数据中参数化噪声概率分布。由于优化问题的非凸性,该方法可能难以稳健地处理大型函数库的回归。另一类方法则采用物理启发神经网络进行数据驱动的偏微分方程求解和发现,或从数据中提取Koopman特征函数。然而,这些方法需要大量的数据来训练深度神经网络,并对网络进行精细调整。


尽管上述方法具有广泛的应用,但它们尚未被用于研究噪声诱导的转变。为了学习噪声诱导的转变,作者首先利用SINDy [2, 3] 和循环神经网络 (RNN) [4] 对含有噪声的数据进行处理。作者发现,即使在具有高斯白噪声的一维双稳系统中,SINDy和RNN也无法准确预测随机转移。作者还对数据应用了滤波器 [5, 6],获得平滑的时间序列,然后使用SINDy 处理滤波后的数据,但这种方法仍未能准确捕捉噪声诱导的转变。同样,First-Order, Reduced, and Controlled Error (FORCE) 学习方法 [7],包括其各种版本如full-FORCE和尖峰神经元模型 [8],在实验数据中也未能完全捕捉随机转移,并且需要相对较高的计算成本。这些尝试表明,这些传统方法主要设计用于对噪声数据进行去噪,以学习确定性动力学,而非捕捉噪声诱导的现象。因此,需要开发一种新方法来预测随机转移。


作者注意到一种机器学习架构——储备池计算 (RC) [9-11],可能适合这一任务。储备池计算的训练只需要线性回归,这比需要反向传播的神经网络在计算上更为快速。研究发现,储备池计算在学习动力系统方面效果显著,包括混沌系统。此前曾有一个工作尝试使用RC来处理噪声诱导的转变 [12],但依赖于事先知道确定性动力学方程的假设,这在实际问题中过强。实际上,确定性动力学的先验知识往往缺乏,有时甚至无法通过方程直接描述。那么能否仅基于数据,在没有任何确定性方程的先验知识的情况下预测噪声诱导的转变呢?



在本研究中,作者开发了一种多尺度储备池计算框架,用于在无模型的情况下学习噪声诱导的转变。该方法的灵感来自于研究发现储备池中的超参数  决定了储备池动力学的时间尺度 [13]。鉴于多尺度时间序列,可以调节超参数  以匹配慢时间尺度的动力学。当储备池通过拟合输出层矩阵捕捉到慢时间尺度的动力学后,可以将快时间尺度的序列分离为一个噪声分布。在预测阶段,作者利用训练好的储备池计算机来模拟慢时间尺度的动力学,然后将从分离的噪声分布中采样的噪声 (对于白噪声) 或从第二个储备池中学习的噪声 (对于彩色噪声) 加回。这个方法与之前将噪声仅视为干扰因素的方法有所不同。



为了证明当前方法的有效性,作者将其应用于两类场景。第一类场景的数据来自于随机微分方程 (SDE) ,用于测试该方法;第二类场景的数据则是实验数据 [6]。对于第一类场景中的白噪声,包含一维 (1D) 双稳梯度系统、二维 (2D) 双稳梯度和非梯度系统、具有倾斜势的一维和二维梯度系统、二维倾斜非梯度系统以及二维三稳系统。该方法能够捕捉转变时间的统计特征和转变次数。对于第一类场景中的彩色噪声,作者研究了具有Lorenz噪声 (Lorenz-63模型和Lorenz-96模型 [12]) 的双稳梯度系统,能够在不假设知道动力学确定性部分的前提下准确预测特定的转变时间,这区别于 [12] 中的要求。对于第二类场景,作者将该方法应用于蛋白质折叠数据,并探索了准确训练所需的最少数据量,这有助于减少实验中对广泛测量的需求。这里展示了该方法在部分例子中的结果,包括含白噪音的一维双稳态系统 (图2) 和实验上的蛋白质端到端长度数据 (图3) 的结果。



总的来说,作者提供了一个基于随机时间序列数据的通用框架,用于学习噪声诱导的随机转换。作者将这种方法应用于随机微分方程和实验数据的例子中,该方法能够从小规模的训练集中准确学习转换统计量。本项研究能够推动对噪声诱导现象的系统性研究,超出现有在提取确定性动力学时单纯降低噪声影响的范畴。例如,通过拓展SINDy算法和FORCE学习方法的框架,深化对噪声诱导现象的认识和应用。



参考文献:

[1] R. Tapia-Rojo, M. Mora, S. Board, J. Walker, R. Boujemaa-Paterski, O. Medalia, and S. Garcia-Manyes, Enhanced statistical sampling reveals microscopic complexity in the talin mechanosensor folding energy landscape, Nat. Phys. 19, 52 (2023).

[2] S. L. Brunton, J. L. Proctor, and J. N. Kutz, Discovering governing equations from data by sparse identification of nonlinear dynamical systems, Proc. Natl. Acad. Sci. 113, 3932 (2016).

[3] K. Kaheman, S. L. Brunton, and J. N. Kutz, Automatic differentiation to simultaneously identify nonlinear dynamics and extract noise probability distributions from data, Mach. Learn.: Sci. Technol. 3, 015031 (2022).

[4] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural Comput. 9, 1735 (1997).

[5] R. R. Labbe, Filterpy documentation (2018).

[6] P. Virtanen, R. Gommers, T. E. Oliphant, M. Haberland, T. Reddy, D. Cournapeau, E. Burovski, P. Peterson, W. Weckesser, J. Bright, et al., Scipy 1.0: fundamental algorithms for scientific computing in python, Nat. Methods 17, 261 (2020).

[7] D. Sussillo and L. F. Abbott, Generating coherent patterns of activity from chaotic neural networks, Neuron 63, 544 (2009).

[8] L. B. Liu, A. Losonczy, and Z. Liao, tension: A python package for force learning, PLOS Comput. Biol. 18, e1010722 (2022).

[9] H. Jaeger, The “echo state” approach to analysing and training recurrent neural networks-with an erratum note, Bonn, Germany: German National Research Center for Information Technology GMD Technical Report 148, 13 (2001).

[10] J. Pathak, B. Hunt, M. Girvan, Z. Lu, and E. Ott, Model-free prediction of large spatiotemporally chaotic systems from data: A reservoir computing approach, Phys. Rev. Lett. 120, 024102 (2018).

[11] T. L. Carroll, Using reservoir computers to distinguish chaotic signals, Phys. Rev. E 98, 052209 (2018).

[12] S. H. Lim, L. Theo Giorgini, W. Moon, and J. S. Wettlaufer, Predicting critical transitions in multiscale dynamical systems using reservoir computing, Chaos 30, 123126 (2020).

[13] G. Tanaka, T. Matsumori, H. Yoshida, and K. Aihara, Reservoir computing with diverse timescales for prediction of multiscale dynamics, Phys. Rev. Res. 4, L032014 (2022).


论文链接:

https://www.nature.com/articles/s41467-024-50905-w


作者介绍

汤迎 ,电子科技大学基础与前沿研究院教授,研究领域为随机动力学、机器学习、统计物理、开放量子系统等,国家级青年人才项目入选者。近期研究成果包括,提出了演化神经网络的方法追踪高维随机反应网络演化;发展了时间序列动力学互信息的计算框架;发现非平衡量子系统中磁场不做功却仍能增大自由能等。欢迎有物理、数学、计算机学科背景的优秀本科、硕士、博士生加入团队。



汤迎老师的读书会分享

欢迎扫码报名



非平衡统计物理读书会启动!


2024年诺贝尔物理学奖授予人工神经网络,这是一场统计物理引发的机器学习革命。统计物理学不仅能解释热学现象,还能帮助我们理解从微观粒子到宏观宇宙的各个层级如何联系起来,复杂现象如何涌现。它通过研究大量粒子的集体行为,成功地将微观世界的随机性与宏观世界的确定性联系起来,为我们理解自然界提供了强大的工具,也为机器学习和人工智能领域的发展提供了重要推动力。







请到「今天看啥」查看全文