专栏名称: 集智俱乐部

本公众号用于发布与集智俱乐部有关的活动信息、文章以及关于俱乐部的基本介绍。

Nat. Commun.前沿：从实验数据中学习可解释的随机复杂系统动力学

集智俱乐部 · 公众号 · · 2024-12-08 20:42

正文

关键词： 复杂网络系统，随机动力学，图网络，集群动力学，Vicsek模型

赵沐阳 | 编译

论文题目：Learning Interpretable Dynamics of Stochastic Complex Systems from Experimental Data

论文地址：https://www.nature.com/articles/s41467-024-50378-x

具有众多交互节点的复杂系统本质上是随机的，最佳描述方式为随机微分方程。尽管观测数据日益增多，从实验数据中推断这些方程依然充满挑战。近期发表在 Nature Communications 上的研究[1]提出了一种 Langevin 图网络方法（Langevin Graph Network Approach，LaGNA），用于学习复杂网络系统的隐藏随机微分方程。并将该方法应用于两个实际系统：鸟群运动和大脑中 tau 病理扩散。推断出的鸟群方程与二阶 Vicsek 模型高度相似，首次提供了 Vicsek 模型能够捕捉真实集群动态的证据。此外，该方法揭示了tau蛋白在小鼠大脑中传播的控制方程，使得早期预测各脑区的tau占据情况成为可能，并揭示了突变小鼠的不同病理动态。

1. LaGNA 框架

图1. LaGNA 框架

首先，各个节点的动力学方程满足这种上图形式。在LaGNA的第一阶段，本文中设计了消息传递的机制。消息传递机制由三个神经网络（NN）模块组成：自动态模拟器、交互动态模拟器和扩散模拟器，这些模块旨在分离隐藏在节点活动数据中的动态源。

由于系统存在随机性，直接最小化与x _i (t+dt)的差值会造成过拟合的情况。所以本文考虑 , 其中以及为了对网络进行端到端训练，使用所有节点在时刻t的状态 x _t 作为输入。基于网络拓扑A _ij ，使用函数 g(x _i (t), x _j (t)) 映射节点j到节点i的信息流。估计的信息值随后按元素进行聚合，汇总接收节点在所有相应发送节点上的值。此外，使用函数f(x _i (t))映射每个节点i的自动态。节点i的活动分布的估计均值和方差可以分别写为和函数g,f和 Φ分别由可训练的参数、 θ _g 和 θ _Φ 决定。

2. 自动力学、交互动力学、扩散过程的推理

在图1所示的LaGNA模型经过充分训练并分离了自动力学、交互和扩散部分后，这项研究采用之前提出的两阶段[2]推断方法的核心思想，以推导每个部分的简明形式。具体来说，使用预先构建的包含常用基本函数的三个广泛的库 L _F 、L _G 和 L _Φ ，将时间序列数据 x _i (t)（其中i∈ n）引入L _F 、L _G 和L _Φ ，并得到时间变化的矩阵、和。然后，推理问题可以用如下估计值表示：

随后通过稀疏回归找到方程的显式表达式。

图2. 以随机洛伦兹网络动力系统作为基准，与现有的五种主流的符号学习方法进行对比，可以发现LaGNA最准确。

3. 真实场景数据

3.1 从真实数据中推理鸟群的动力系统

通过在鸽子身上装置GPS，鸽子在距离鸽舍大约 15 公里的地方放飞，GPS 设备以 0.2 秒的采样率记录了他们在回程中的位置。利用本文所提出的框架，可以发现其结果符合Vicsek模型。著名的 Vicsek 模型长期以来一直是集群动力学研究的主要内容，通常被视为一种简单的表示形式。这些发现提供了全新的证据，证明Vicsek模型不仅是约化的理论模型，更有能力捕捉真实集群的动力学过程。

图3. a ：20只鸟在二阶Vicsek模型下生成的3维轨迹。 b–e ：显示第一维度的扩散、自动态、凝聚和对齐强度，分别由函数 Φ (·)、f(·)、g _a (·)和 g _c (·)估计，并与Vicsek模型真实值进行对比。 f ：通过推断出的随机Vicsek动力学生成的鸟群轨迹。 g–p ：从四个实测数据集推断鸟群聚集动力学。 g 对比了推断的SDE生成的力场与从实测数据中计算出的力场。 h 为使用推断出的SDE生成的8只鸽子在不同时间点t=25,50,100的轨迹，子图显示了实测数据中的第一维轨迹。 i–j 为推断SDE的对齐和凝聚强度函数的可视化结果。 k–p 分别显示推断SDE生成的第二、三和四个鸟群数据的轨迹和力场对比。

3.2 推理 tau 病理学在小鼠大脑中的传播动力学

Tau 蛋白在维持轴突微管的稳定性方面起着至关重要的作用，这对于大脑的正常运作至关重要。在小鼠大脑中学习tau病理扩散动力学的研究中，本文应用LaGNA方法成功推断了控制tau蛋白扩散的随机微分方程。研究首先获取了tau蛋白在小鼠大脑中扩散的实验数据，捕捉了病理扩散过程中的不同脑区活动。LaGNA将这些扩散数据与神经解剖学连接相匹配，并推断出控制tau病理扩散的方程，能够早期预测每个脑区的tau病理占据情况。研究还揭示了不同突变小鼠的病理动态差异，为理解阿尔茨海默病中tau蛋白的传播机制提供了新的见解。

图4. a ：实验数据: 非转基因（NTG）小鼠在3-4个月大时被单侧注射了阿尔茨海默病（AD）PHF tau，注射部位包括iDG、iCA1、iCA3、iVSt/iam和iRSPagl。小鼠在注射后1、3、6和9个月（MPI）被安乐死，并记录病理扩散情况。 b ：神经解剖学连接图，包括逆行（上）和欧几里得近端连接（下）。 c ：实际和预测的tau病理占据面积（AO）随时间的对比，显示了在iSUM、cCA1和cCOAa部位的tau病理扩散情况，阴影区域表示标准差。 d ：不同时期（1、3、6和9 MPI）的log尺度下tau病理预测与真实值的对比，展示了皮尔逊相关系数R ² 和P值。 e ：随机选择5个注射部位（500次独立运行）的预测扩散模式（紫色点）与从真实注射部位开始的预测结果（绿色点）的对比。 f ：隐式有效模型和显式异质模型之间的预测对比，误差条表示标准差。 g ：LRRK2 ^G2019S 突变小鼠病理数据中推断扩散方程的有效性。

4. 总结

从观测数据中推断复杂系统的控制方程是实现科学发现自动化的重要方向。过去的研究主要集中在对已知模型系统进行算法基准测试，而本文深入研究了两个重要的真实系统（鸟群聚集与tau蛋白病理扩散），成功提取了它们的隐含网络化随机微分方程（SDEs），展示了方法的适用性并带来了新的见解。LaGNA方法只需要一次节点活动序列试验和快照数据（而非连续时间序列），提高了其灵活性和适应性。

尽管LaGNA相较于现有方法展现了优越性能并对真实复杂系统提供了有价值的洞见，但仍存在需要未来研究关注的局限性。首先，在某些场景中，部分节点的时间序列可能无法获得，因此需要确定揭示系统动态的最小子网络结构。其次，真实数据中常包含内在和外在噪声，区分这些噪声类型极具挑战性。在外在噪声较大时，可以通过去噪预处理步骤（如Kalman-Takens滤波器）来增强推断能力。第三，尽管LaGNA的第二阶段使用的预构建库包含大量基本函数项，但仍有可能遗漏某些特征，因此需要进一步提升方法的自动化。最后，近年来对复杂系统中的高阶交互研究兴趣增加，LaGNA可以通过引入第三阶交互项扩展到高阶系统，但这也增加了识别最佳方程的复杂性，为未来的研究提供了有前景的方向。

参考文献

[1]Gao, Ting-Ting, Baruch Barzel, and Gang Yan. “Learning Interpretable Dynamics of Stochastic Complex Systems from Experimental Data.” Nature Communications 15, no. 1 (July 17, 2024): 6029. https://doi.org/10.1038/s41467-024-50378-x .

[2]Gao, Ting-Ting, and Gang Yan. “Autonomous Inference of Complex Network Dynamics from Incomplete and Noisy Data.” Nature Computational Science 2, no. 3 (March 2022): 160–68. https://doi.org/10.1038/s43588-022-00217-0 .

复杂系统自动建模读书会第二季

“复杂世界，简单规则”。

集智俱乐部联合复旦大学智能复杂体系实验室青年研究员朱群喜、浙江大学百人计划研究员李樵风、清华大学电子工程系数据科学与智能实验室博士后研究员丁璟韬、美国东北大学物理系Albert-László Barabási指导的博士后高婷婷、北京大学博雅博士后曹文祺、复旦大学数学科学学院应用数学方向博士研究生赵伯林、北京师范大学系统科学学院博士研究生牟牧云，共同发起「复杂系统自动建模」读书会第二季。

读书会将于9月5日起每周四晚上20:00-22:00进行，探讨四个核心模块：数据驱动的复杂系统建模、复杂网络结构推断、具有可解释性的复杂系统推断（动力学+网络结构）、应用-超材料设计和城市系统，通过重点讨论75篇经典、前沿的重要文献，从黑盒（数据驱动）到白盒（可解释性），逐步捕捉系统的“本质”规律，帮助大家更好的认识、理解、预测、控制、设计复杂系统，为相关领域的研究和应用提供洞见。欢迎感兴趣的朋友报名参与！