机器学习框架NIS+：通过最大化有效信息识别“因果涌现” | NSR

知社学术圈 · 公众号 · · 2024-10-22 11:29

正文

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

机器学习技术难以捕捉复杂系统中的涌现现象（比如鸟群的集群行为、生命游戏中出现的复杂模式等），这阻碍了对复杂系统演化的预测。

近日，北京师范大学系统科学学院 张江课题组提出了一套可以识别“因果涌现”的机器学习框架——强化版神经信息压缩器（Neural Information Squeezer Plus, NIS+） 。该框架结合样本重加权和反向动力学训练两项技术，可以通过有效信息（Effective Information，简称EI）最大化，实现从观测时间序列中提取最优的粗粒化策略，建立宏观动力学预测模型，并判断是否发生因果涌现。相关研究成果以“Finding emergence in data by maximizing effective information”为题发表于《国家科学评论》（ National Science Review ，NSR）。

NIS+框架图

经典因果涌现理论中的“观察者效应”

因果涌现在2013年被正式提出，是一套定量刻画涌现现象的理论框架。对于一个系统不同的观察者来说，他们可能在微观或宏观两种不同的尺度来观察、刻画同一个系统，从而分别得到微观动力学和宏观动力学，其中后者是前者的一种粗粒化的近似。同时，这些动力学可能具备不同的因果效应强度，这一强度可以用定量指标：有效信息（EI）来刻画。如果宏观的EI大于微观的EI，则我们可以判定该系统发生了因果涌现。下图左展示了因果涌现的概念框架，右展示了在一个马尔可夫链上发生因果涌现的例子。

因果涌现理论示意图

然而，经典因果涌现理论需要事先指定从微观到宏观的粗粒化方式，不同的粗粒化方案就会导致完全不同的因果涌现结果，这便体现了一种“观察者效应”。

NIS+的做法

不同于经典方法， NIS+通过最大化有效信息，优化一个机器观察者，从而能够找到最优的粗粒化方法和宏观动力学 ，还能够匹配微观观测数据。这不仅以数据驱动方式构建了复杂系统模型，还在一定程度上避免了观察者效应。研究团队分别在模拟和真实数据上对NIS+进行了验证。

在模拟模型上的验证

Boid 是一个经典的鸟群模拟模型 ，它通过个体之间的局部相互作用，在宏观涌现出集群运动模式。团队发现，利用大量Boid生成的数据训练NIS+模型，就能让它找到有效信息最大的粗粒化策略和宏观动力学，从而很好地捕捉鸟群质心的运动变化规律。

最大化有效信息还能提升NIS+的分布外泛化能力。研究团队将NIS+与没有最大化EI的模型进行对比，发现NIS+能够在训练数据区域外更大的范围内进行更精确的预测。

鸟群实验结果

研究团队还在 元胞自动机类复杂系统：生命游戏 的生成数据上进行了实验。为了捕获宏观尺度的集体运动模式，团队采取了时空粗粒化扩展NIS+模型。通过对比传统模型，NIS+在不同数据集上都有更高的预测准确性。

生命游戏实验结果

在真实数据上的验证

研究团队还在 真实的fMRI数据 上进行了实验验证。数据来自830个被试，记录了他们分别在看视频时和静息状态下的大脑fMRI时间序列。

在观看视频的数据中，NIS+经过训练便可以提炼出一个一维的宏观动力学来概括描述100维的fMRI时间序列，从而实现EI最大化，并发现了明确的因果涌现。使用积分梯度法，NIS+还可以提炼出与这一维宏观动力学最相关的微观维度，结果发现大脑视觉区对宏观动力学贡献占比最高。

与其对比，在静息态下，NIS+必须使用3到7个维度来概况被试的fMRI数据，并且因果涌现特性减弱。

大脑fMRI实验结果

综上所述，研究团队开发出了NIS+机器学习框架，对复杂系统进行数据驱动的多尺度建模。在理论上，它可以最大化宏观动力学有效信息，识别出因果涌现；在实验上，它具有更强的分布外泛化预测能力。

机器学习框架NIS+：通过最大化有效信息识别“因果涌现” | NSR

正文

请到「今天看啥」查看全文