专栏名称: 哲学园
哲学是爱智慧, 爱智慧乃是对心灵的驯化。 这里是理念的在场、诗意的栖居地。 关注哲学园,认识你自己。
目录
相关文章推荐
哲学王  ·  中国一百年来的新年贺词! ·  18 小时前  
慧田哲学  ·  王朔写的意味深长的年终小文:像猪而生 ·  2 天前  
慧田哲学  ·  许锡良:罗素为何极度厌恶尼采? ·  4 天前  
51好读  ›  专栏  ›  哲学园

因果涌现与“时间倒流”:基于可逆性的因果涌现新理论|集智科学研究中心最新成果

哲学园  · 公众号  · 哲学  · 2025-01-29 00:00

正文


背景


近日,北京师范大学系统科学学院、集智科学研究中心张江课题组在 NPJ Complexity 发表最新研究论文《动力学可逆性与一种基于SVD的新因果涌现理论》(Dynamical Reversibility and a New Theory of Causal Emergence based on SVD),文章指出,时间倒流与因果涌现存在深刻联系。智能体构建世界的模型,与其说是在追求涌现的因果,不如说在追求“时间倒流”的可能性。


近年来,张江带领北师大研究组以及集智科学研究中心开始聚焦在基于新兴AI技术进行基于数据驱动的自动建模研究,并立志破解复杂系统的涌现之谜。课题组希望构建名为“复杂AI次方”的开放实验室,欢迎对因果涌现有热情,且认可这个领域发展前景的朋友一起来合作,促进这一领域的快速发展!


集智科学研究中心是门头沟民政局批准成立、门头沟科信局主管的民办非企业,致力于营造跨学科探索小生境,催化复杂性科学新理论。集智研究中心长期关注复杂科学中的核心问题,如涌现、因果、自指、意识、生命起源等等,并充分结合人工智能机器学习技术尝试解决这些问题。目前已有十多篇篇文章发表于国际期刊,其中包括一篇因果涌现综述、因果涌现理论框架NIS+等新进展。这里的文章大部分产生于集智社区读书会(访问集智科学研究中心网站了解详情:www.research.swarma.org/research


研究领域:因果涌现,动力学可逆性,信息论,马尔科夫链,奇异值分解,世界模型

张江 | 作者





论文题目:Dynamical reversibility and a new theory of causal emergence based on SVD
论文作者:张江,陶如意,梁京昊,杨明哲,袁冰
论文地址:https://www.nature.com/articles/s44260-025-00028-0


目录

1. 动力学即信道

Shannon的通讯模型

动力学即信道

马尔科夫链

2. 动力学可逆性

什么是动力学可逆性

近似动力学可逆性与因果性

近似可逆性的本质

3. 基于可逆性的因果涌现

什么是因果涌现理论?

动力学可逆性的涌现

扩展讨论


我们都知道,这个世界中,时间和空间最大的不同,就是时间从来不可能倒流,但你却可以在空间中双方向行走。时间的这种不可逆性起源于一个非常深刻的物理学定律——热力学第二定律:时间流动与熵增似乎永远是同方向的


另一方面,智能的本质特征之一就是在追求一种涌现的因果(Emergent Causality)。它通过过滤掉大量无用的观测信息,而获得一个描述真实世界的有效模型——即具有较强因果效应的世界模型。


近期我们在《NPJ Complexity》上的一篇研究论文《动力学可逆性与一种基于SVD的新因果涌现理论》(Dynamical Reversibility and a New Theory of Causal Emergence based on SVD)指出,时间倒流与因果涌现其实存在着深刻的联系。智能体构建世界的模型,与其说它在追求涌现的因果,还不如说在追求“时间倒流”的可能性。


这一听起来非常科幻的想法来源于我们提出的全新因果涌现理论框架:本质上讲,智能体的内部世界模型就是一个动力系统,而动力系统可以被看做是现在状态到未来状态的一个通信信道。那么,如果这个信道存在着冗余通路,则该系统中就会发生因果涌现。而系统最大可能的每个通路的信息传输效率的提升,也就是可逆性的提升就是因果涌现的强度。从实际应用的角度讲,我们的理论不依赖于任何具体的粗粒化策略,我们只需要通过奇异值分解,就可以了解系统内在的因果涌现特性。




1. 动力学即信道


要理解可逆性和因果涌现,让我们首先进入Shannon的通讯世界。


Shannon的通讯模型


1948年,正当通讯技术蓬勃发展的时候,Claude Shannon写下了一篇经典文章《通讯的数学理论》(A Mathematical Theory of Communication),奠定了信息论的基础。在这篇文章中,他提出了一个数学模型用以定量地刻画人们的信息传递过程,包括打电话、发消息等。其中,最核心的概念就是信道(Information Channel)。所谓的信道(Information Channel),如下图所示,可以看作是信号的发送,信号沿通道(例如,电话线)的传输,以及信号的接收这三个前后耦合在一起的过程。




信息在传输的过程中很容易受到各种未知因素的影响,而产生变化。这一过程就被概括为图中的噪声影响过程。也就是说,通讯过程往往是一个随机过程。


动力学即信道


根据今天的物理学知识,我们寄居的整个宇宙就是一个巨大的动力系统,它的演化过程可以由一个动力学所描述。


本质上讲,一个动力学过程可以被看作是一个黑箱模型。你输入一个t时刻的状态,动力学就会吐出一个t+1时刻的状态。不过,在很多实际应用场合,动力学并非是完美确定性的,总是存在着很多我们尚不清楚的因素对系统产生影响,于是,我们就需要在动力学中加入噪声项。一个动力学过程就可以被表述为:



通过比较图1和图2,你会发现,二者完全一样。因此,动力学就是一个信道:系统正在把自己t时刻的状态信息传递给t+1的未来时刻。


马尔科夫链


然而,如何处理噪音呢?普通的系统动力学已经很难奏效,取而代之的是使用马尔科夫过程这一数学工具。其本质在于将描述对象从状态提升为了状态空间上的概率分布,而普通的动力学方程就变成了状态概率转移矩阵。


最简单的一种马尔科夫动力学就是马尔科夫链(时间和状态都离散),它的动力学就是一张状态概率转移图(见下图),在该图上,每个节点就是一个可能的状态,连边代表状态转移,其上的数值为转移概率,如下图所示:



这是一个四状态的马尔科夫链,它也可以被理解为一个“黑箱”,输入上一时刻的状态分布,输出下一时刻的状态分布。转化过程可以由状态概率转移图(即转移概率矩阵)决定。状态概率转移图(中间的灰框)中,节点代表系统的状态,连边代表从一个状态到另一个状态的跳转,连边上的数值代表这个跳转的概率。动力学过程就是让初始的状态分布沿着概率转移图的连边分配概率,从而得到下一时刻的状态分布。


事实上,当年Shanon引入通信信道模型的时候,也是用马尔科夫链来描述包含噪声的信道的。所以,马尔科夫动力学与通信信道本质上就是一回事儿。




2. 动力学可逆性


所谓的可逆性其实是一个非常广泛的概念。我们知道,在数学上,如果一个函数是一一映射的,那么这个函数就是可逆的。例如,假设函数关系是2x,则这是一个可逆的函数,它的逆函数是x/2。


什么是动力学可逆性


动力系统可以看做是一个函数映射,即将t时刻状态映射到t+1时刻的状态。当这个函数映射是可逆的时候,则我们称这个动力学是可逆的。


例如,一个无摩擦的弹簧振子模型(如图)所对应的动力学就是一个可逆的动力学,这是因为,它的前后两个时刻的状态映射是个一一映射。


如果一个动力学是可逆的,则意味着它所描述的动力学过程是可以沿着时间逆转运行的——即时间可以倒流,我们只需要在物理上逆转动力学,就可以让过程逆转。比如,对于这个弹簧振子来说,如果我们将它的速度反向,则会得到一个反向运动的弹簧振子。在这个逆动力学的支配下,振子能够沿着时间流转的反方向退回到原点和一开始的初速度。


然而,绝大多数动力学过程是不可逆的,特别是对于有随机噪声因素影响的动力学过程。那么,在所有的动力学中,必然有的是更加接近可逆的动力学,而有些则更加的不可逆,于是这便有了近似动力学可逆性这样的概念。


近似动力学可逆性与因果性


我们论文的核心,就是为任意的马尔科夫链,提出了一个新的指标Γ,可以用来刻画马尔科夫链离可逆的动力学的接近程度。


直观例子


让我们先来看几个例子:



这里有三个马尔科夫链,都是四个状态,它们的动力学就是它们的状态转移图,如图上一排所示。然而,仅仅从这三个状态转移图中,我们很难看出哪一个马尔科夫链更可逆。我们可以将这些状态转移图转换成二分图的形式,如下一排所示。在这张二分图上,左边一列代表的是系统在t时刻的所有可能状态,右边一列则是t+1时刻的状态。中间的连线代表的是随机转移,连边上的数字则是跳转概率。上下两幅图是对同一个马尔科夫过程的完全等价的表述方式。但是在下面的二分图上,我们能够更容易地比较哪一个更可逆。


从二分图上看,图a展示了一个完全确定性的可逆动力学,左侧的每个节点有且仅有一条连边,同样的道理,右侧的节点也是有且仅有一条指向自己的连边。


图b虽然不是完全可逆的,但是它与图a靠近,只不过在2、3两个节点上有权重为0.1的额外连边分别指向4和3。因此,它虽然不满足可逆性,但是与图a可逆的动力学很接近。


图c则是一个完全不可逆的动力学,因为从任何一个节点出发的连边指向了三个节点,并且都是1/3概率的跳转。这说明,从系统1、2、3中任意一个节点出发都等概率地转移到1、2、3节点上,这是一个高度不确定性的跳转。反过来,从右边的任何一个节点出发都有三条连边。这说明,从右侧节点反推上一时刻的状态几乎是不可能的。


那么,能不能用一个定量的指标来衡量动力学的这种可逆性呢?答案是肯定的,我们发现如果把这张二分图看作是一个矩阵,那么这个矩阵所有奇异值(Singular Value)之和就能很好地刻画这种近似可逆性,我们将这一指标命名为Γ


近似可逆性指标Γ在完全可逆的动力学上会达到最大值(即状态数),如图a所示;当二分图靠近一个可逆动力学的时候,Γ也会接近最大值,如图b所示;而当这个二分图远离可逆的情况,则近似动力学可逆性指标就会很小,如图c所示。


在图中下方,我也列出了有效信息的度量,你会发现,有效信息和近似可逆性一样可以在可逆的动力学上有最大值,接近可逆的值也会很大,远离可逆的有效信息也是最低的。我们知道,有效信息是刻画一个动力学的因果效应强度的指标,衡量的是如果我对输入做了干预,则输出有多大程度上会对这个干预做出响应。如果有效信息和近似动力学可逆性如此相关,也就说明,因果效应强度就等价于一个动力学是可逆动力学的近似程度,这种关系是普遍的吗?


可逆性与因果性


所谓的因果性,是指某个事物A对另一个事物B实施的影响。因果性是区分于相关性的。当我们看到A事物发生了变化,紧跟着B也发生了变化,这就是一种相关性的体现,但是这并不能说明A会真的,以因果的方式影响B。具体要考察A是否能够影响B,还需要看当A不发生的时候,是不是B会发生。如果A不发生的时候,B依然发生,那么A与B之间就没有因果关系。但是,如果A不发生的时候B也不发生,是不是就一定能判断它们之间有因果关系呢?答案是不一定。因为,很有可能存在着一个事物C同时影响了A和B,这样当C发生的时候,A和B就同时发生;C不发生的时候,A会和B一样都不发生。这个时候,A和B仍然是一种相关关系,而并非因果。


如何判断A和B之间有因果联系呢?最终的审判标准是干预实验。即我可以人为地控制A的发生与否,这个时候再看是不是B也跟着发生。因此,关键点在于干预操作!在我们干预了A以后,我们实际就切断了任何可能的C对A的影响。在这种控制下,我让A发生,则这个时候B发生,让A不发生,则B也不发生,那么A和B就存在着因果关系。


我们这里所谈论的因果性主要是指对已经存在的因果关系的一种强度度量,即因果效应强度。也就是当A与B具有明确因果关系的时候,我们对A实施干预以后,B的响应程度。这种因果性的强度其实就和可逆性有关系了。为什么呢?


如果我们把A与B之间的因果关系看作是一个函数,那么A发生则B也发生,A不发生则B也不发生就可以用一个函数映射来表示,如下图:



在这个函数关系中,每个变量都只能取0(代表不发生)和1(代表发生)两种可能值。则如果A发生,B确定性地发生;且A不发生,B确定性地不发生,那么A和B之间就建立了一个一一映射关系,f这个函数就是可逆的。这种可逆性可以体现为,如果我看到了B是否发生,我必然能够推断出A是否发生。由此可见,因果性本身就暗含了一种可逆的函数映射。


假如当A发生的时候,B有很大的概率会发生,但是也会以一定小的概率(例如0.1的概率)不发生;反过来A不发生的时候,B会以较大的概率不发生,但仍然会以小的概率发生,如下图所表示:



这个时候,A和B的因果性没有那么强了。而这个时候,系统就不那么可逆了。这是因为,当我看到了B是否发生,我不能一定地推断出A是否发生,但是我会以较大的概率推断A会发生。


由此可见,当我们确保A与B存在着因果关系,且不存在其它影响变量的时候,“A与B的因果关系的因果效应强弱”其实就是“与A到B的函数映射是否是可逆的”有着非常强的等价性。


我们还可以把这种猜想推广到一个变量能够取多个状态值的情况。事实上,在2022年Hoel等人发表的一篇论文《因果涌现在各种因果度量指标上广泛存在(Causal emergence is widespread across measures of causation)中,作者发现许多度量因果性的指标都包含了两部分,一部分是充分性,另一部分是必要性。所谓的充分性,可以理解为从A的发生而推导B的发生,而所谓的必要性则是指从B的发生来推导A的发生。当A和B之间因果效应明显的时候,则充分性和必要性就都非常强,即我们既可以从A是否发生推导出B是否发生,又能够从B的发生反推出A是否发生。这不就是一种可逆的函数映射吗?


所以,A与B之间的因果性就等价于它们之间映射关系的可逆性。


换句话说,近似可逆性和有效信息存在着等价的关系。这种观察不是偶然的,在论文中,我们从数学推导和数值实验两种途径验证了这一等价关系的存在。



该图是不同生成的马尔科夫链之间有效信息(EI)和近似动力学可逆性Γ的比较。(a) 显示了随机生成的马尔科夫链转移概率(TPM)矩阵的近似关系 EI∼log Γ,这些TPM是通过不同程度地对完全可逆动力学进行软化得到的。(b) 展示了通过类似软化方法生成的TPM之间EI和Γ的相同关系,但这些TPM是基于 N×N 单位矩阵的某种变异而生成的。变异是将单位矩阵的 N−r 行向量更改为相同的独热向量(One-hot vector,即存在唯一元素的值为1,其它为0的向量),其中r是矩阵的秩,N = 50。N−r 的数量可以控制TPM的退化性。在该图中,所有的EI与log Γ关系的上界和下界都以虚线形式显示。(c) 显示了对于不同大小(N ∈ {2, 3, · · · , 100})的随机采样归一化行向量组合的TPM的相同关系。在每个大小上,我们随机采样了100个这样的随机矩阵以获得散点。我们选取了特定大小N = 20、30、50的散点用红色渲染,以显示EI和Γ之间几乎是对数的关系,且理论上界也以虚线形式显示。(d) 展示了生成的矩阵中EI和Γ之间差异(logΓ−EI)对软化幅度σ的依赖关系。(e) 和(f) 显示了针对参数化的最简单TPM:P = {{p,1-p};{1 - q, q}},计算得到的EI(c)和Γ(d)的数值密度图。


不过,这又引发了一个新的问题:既然有效信息和近似可逆性等价,那又何必要发明近似可逆性这一新的指标呢?


近似可逆性的本质


这就要回归到近似可逆性指标 Γ 的本质是什么,以及它和有效信息的区别是什么等问题。


信道的拆分——信息通路


让我们再次回到信道模型。首先,近似可逆性指标是信道的一个函数。也就是说,如果信道变了,那么 Γ 有很大的概率也会发生变化。


那么,Γ 究竟刻画了信道的什么属性呢?这就要将这个信道拆分成若干信息通路(information pathway),然后从信息通路的角度来看了。



如图所示,信息要从信道的左侧传递到右侧,所谓的信息通路就是指从任意一个左侧节点(状态)出发发出去的所有连边。因此,一个信道中左侧,也就是发出端,有几个发送节点,这个信道中就有几个信息通路。


信道的信息几何


我们可以用一种几何的方式来表示信道中的信息通路。在图中,任意一个节点(状态)有多条发出的加权连边,连边上还有一个附加的转移概率,且这些概率加起来等于1,于是我们便可以将每一个节点对应到N维空间中的一个向量(N为总状态数),这样图上面的三个信息通路就对应了N维空间的三个不同的向量,如下图(a)所示:



然而,对于这个马尔科夫链来说,由于三个状态发出的概率都相同,所以三个向量很不幸地重合在了一起。让我们对图中的另外两个马尔科夫链应用这种方法,把它们的信息通路都可视化为向量,我们分别得到图(b)和(c)下方的向量图。


我们知道(b)是一个可逆的信道,(c)是一个非常靠近可逆的通道,而(a)则是一个完全不可逆的信道。这三者在信道不同通路的向量空间中也是有明显差距的。(b)中的三个向量撑起了一个三维空间中的立方体;(c)的三个向量则几乎撑起了立方体,但由于它不可逆,所以这个立方体还有所欠缺,成为了一个平行立方体。而(a)的向量完全重合,则它们仅仅能撑起一条直线。


由此可见,越是可逆的信道,它们的信息通路就越是能够撑出一个大的向量空间,否则越不可逆的信道,它们所撑出的空间就越小。所以,Γ 刻画的就是这组向量撑起的空间大小。


另一方面,有效信息在某种程度上也在刻画这些信息通路的可逆性,然而,它却是从这些向量彼此之间的不相似性来刻画的。也就是说,这些向量彼此越是相似(重合或平行),则有效信息越小。你会发现,当向量彼此相似的时候,它们自然会靠在一起,所撑出来的空间也就越小。这就是为什么 Γ 和有效信息相似。


那么,Γ和有效信息的区别又是什么呢?答案就在于,当向量彼此之间线性相关的时候,它们所撑起来的空间就很小(你可以想象这三个向量没有重合,但是却都落在同一张平面上),因此Γ的数值也很小。但是,此时它们的有效信息却有可能很大,因为有可能这三个向量彼此不相似(比如有两个向量彼此垂直构成平面的直角坐标系,但第三根向量却落在二者中间,此时有效信息就可能比较大,但Γ就不一定大,因为三者落在了一张平面上)


当系统中的状态数很少的时候,我们可以通过绘制向量来直观理解。但是当状态数很多以后,我们必须借助奇异值分解这个数学工具了。





方框1:奇异值分解


那么,什么是奇异值分解呢?你暂且可以把它理解为一种数据降维的工具。当我们面对复杂问题的时候,往往会面临各种各样的因素相互交织在一起,非常庞杂。于是,我们往往会对数据进行降维,让这些相互纠缠的因素能够彼此拆分开,让它们能够尽可能地相互独立。

那么,什么是降维呢?广义的来看,就是用更少的维度去描述同样一组数据或对象,以使得被描述的对象中的最主要信息能够被尽可能地保留下来,而那些无关紧要的信息则需要抛弃掉。


比如,你通过拍摄照片,从而把本是三维世界的信息压缩到了一张二维的图片中,这就是我们日常生活中最常见的一种降维操作。当然,这种拍照也并不是瞎拍的,你需要通过各个角度的旋转,从而找到一个拍摄物体的最佳角度,以使得你的照片能够把三维物体中你最关心的那部分信息保留下来,而把不相关的信息抛弃掉。角度选的好,原始物体的绝大部分的主要信息就能被拍下来,但是如果角度选不好,则可能什么都看不到。

所以,问题的关键就是这个拍照的角度如何去选?答案就在于奇异值分解。如果我们将一组原始数据看作是一个高维空间中的几何体,那么将这些原始数据所组成的数据矩阵做奇异值分解,就能够找到那个最主要的投影方向。让我们还是来看一个例子。


如上图所示,这是一组二维数据点所形成的散点图,我们的任务是将这组二维数据点降维到一个一维空间。那么,我们应该选择怎样的投影轴来降维这群数据点呢?

显然,如果我们选择的投影轴能够让这些数据点在投影后仍能更好地区分开,则这个投影轴就越好。在图中,这样的投影轴可以大致上从数据所形成的类似椭圆的形状的长轴来作为我们的投影轴(也就是图中的长箭头)。往这个方向做数据投影就能尽可能地区分不同数据点,因而保留最关键的特征。与此形成鲜明对比的是与这个长轴垂直的另外一个短箭头,如果把数据往这个方向投影,则几乎所有的数据都集中在了一起,导致我们无法将它们分开。

假如原始数据是超过两维的,比如是三维的,同时我仍然希望把数据降到一维直线上。那么我们就可以先寻找到一张最佳投影的平面,把数据投影上去。然后在这个平面上,我们再来寻找一条最优的投影直线,最终把数据投影到这条直线上。也就是说,我们可以递归地来寻找这条最佳直线。

所谓的奇异值分解方法就是从一组原始数据的坐标特征,找到一组最佳投影方向的过程。奇异值分解方法的输入输出如下图所示:


输入原始数据,奇异值分解就可以给我们输出两组奇异值向量和一组非负的奇异值。其中,右奇异向量就代表了每次投影的坐标轴。左奇异向量则代表了每次投影后这些数据的降维表示。这些奇异向量与奇异值是一一对应的,越大的奇异值所对应的方向就是越重要的投影轴。比如,对于三维数据来说,最大奇异值所对应的右奇异向量就是第一次投影的那张最重要的平面。奇异值大小本身则刻画了这个方向的相对重要性程度。




对信道做奇异值分解


如果你已经对奇异值分解很了解了,下面让我们再次考虑信道模型。这个时候,被奇异值分解的对象变成了一条条的信息通路,也就是信息几何中的一根向量。因此,当我们对这个信道做奇异值分解的时候,我们其实是在寻找一种对信息通路向量做降维,也就是压缩这些信息通路的方法。奇异向量就对应了支撑这组向量所张成的向量空间的一组最主要的基向量。

更有意思的是,各个奇异值向量上的奇异值刚好对应了分配在这些奇异向量对应通道上的信息量大小。如果奇异值越大,则对应方向上的信息传递也就越多。那么,把所有的奇异值加起来,也就是Γ,就对应了整个信道上面的传输效率。这个传输效率越高,显然信道也就越可逆,因为没有信息的损失,当然我们可以由果导因。因此,这是对近似可逆性指标的另外一种理解方式。




3. 基于可逆性的因果涌现





方框2:什么是因果涌现理论?


因果涌现理论的核心思想可以被概括为下图:

因果涌现示意图

因果涌现理论是对涌现现象进行量化的一个框架。它将涌现的发生归因到系统的动力学层面,而非现象层面。如果一个系统的微观层次的动力学没有很强的因果性的时候(比如,存在着较大的噪音,或存在着吸引子),我们便转而在宏观层面来描述系统,即通过一组粗粒化规则忽略信息,从而将微观态映射为宏观态,得到一个宏观动力学。当宏观动力学具有比微观动力学更强的因果效应的时候,则称系统发生了因果涌现现象。其中,因果效应的强弱是通过有效信息(Effective Information,EI)来度量的,有效信息越大,因果效应就越强。关于因果涌现的更多介绍,请参考“因果涌现”词条,和“有效信息”词条。

这张图又可以被看作是一个智能体的运作模型,其中微观动力学就是指智能体所观察的外部世界,宏观动力学则是指智能体为了理解世界而构建的内部模型,即人们常说的“世界模型”。粗粒化过程即智能体不断观察世界而构建内部世界模型的过程。那么,因果涌现理论告诉我们,好的世界模型一定具有更强的因果效应,至少要远大于对世界的直接观察(微观动力学),这样才可以预测、模拟,乃至规划未来。也就是说,好的智能体应该是在因果涌现的模式下运作的(参考NIS+论文:“涌现”发现之旅:人工智能观察者与涌现的量化|集智科学研究中心NSR最新成果

这张图还可以概括我们人类构建有效理论的过程。面对真实问题(微观世界),我们会选取一个合适的尺度(宏观世界),构建一个有效的理论(宏观动力学),从而使得我们能得到一组有用的因果规律。例如生物学研究关注的是分子和细胞的尺度,而忽略了原子、原子核的尺度。这里,原子尺度以下的物理学即是微观动力学,而细胞和分子尺度的因果规律就是涌现的宏观动力学。

所以,无论是人类还是人工智能体,都是在追求一种涌现的因果




动力学可逆性的涌现


那么,有了动力学的近似可逆性Γ这个指标,我们又如何来理解因果涌现这一现象呢?一种简单的理解方法是,既然Γ和有效信息在绝大多数情况下是相关的,那么我们只需要在因果涌现的定义中用Γ替换有效信息就可以了。于是,所谓的因果涌现其实就是一种可逆性的涌现,即如果存在一种最优的粗粒化策略,使得宏观动力学的近似可逆性大于微观动力学的近似可逆性,那么,这个系统就会发生涌现现象。


这种对涌现的认识自然没错,但是它并没有任何信息的增量。而且Hoel等人理论的缺陷也会被保留下来:需要找到一个最优的粗粒化策略,只不过这个时候是要优化近似可逆性Γ指标,而不是有效信息。然而,我们期待的是,动力学可逆性这个全新的概念可以带来对涌现的全新理解。


冗余的信息通路


一种全新认识是,所谓的因果涌现现象,其实就是系统的动力学信道里面存在着冗余的信息通路:即有些信息通路彼此相似。这些彼此相似或彼此关联在一起的通路本质上讲降低了系统的可逆性:相似或关联的信息通路越多,则我们从t+1时刻的状态就越难以反推t时刻的状态。


换句话说,不可逆的动力学作为一种通信信道存在着被压缩的可能性。我们可以考虑一种极端的情况,即所有的信息通路都是一样的,这个时候你选择从第一条通路还是第二条通路来传递信息,达到的效果都是一样的。于是,从接收端(t+1时刻的状态)看来,它不可能知道信息是从哪一个通路上传递过来的。因此,这个信道就是不可逆的。而根据奇异值分解理论,这种情况下的奇异值只有一个为正数,而其它都是0。


我们可以定义如果一个信道存在着0或接近于0的奇异值,那么就称该动力学存在着因果涌现。这是因为那些0奇异值所对应的奇异向量就是那个没有必要存在的信息通路。


进一步,如果我们能够通过粗粒化的方式砍掉那些奇异值为0或接近0所对应的奇异向量,那么我们就可以对信道进行去冗余化,即压缩。压缩之后,从近似动力学可逆性的角度来看,信道在每个信息通路方向上的平均传输效率,也就是动力学可逆性也就会提升。因此我们可以根据这种最大可能的平均每条信息通路上的近似动力学可逆性的提升程度来定量刻画该动力学因果涌现的强弱


奇异值谱


其实,无论是对因果涌现的判断还是对因果涌现强度的计算,我们都仅仅需要知道系统的奇异值就可以了。而奇异值谱是一种让我们能对所有奇异值一目了然的图形化工具。



如图所示,我们可以通过将所有的奇异值从大到小排序,从而绘制出这条奇异值谱曲线。从该图中,你会看到奇异值谱在中间第3大奇异值和第4大奇异值之间存在着一个明显的数值上的差距。于是,我们便可以在这个位置做截断,从而忽略掉截断右侧的那些小的接近于零的奇异值,而保留左侧那些明显大于零的奇异值。


从这张图上,我们便很容易判断出系统中是否存在着因果涌现。具体做法就是看截断的右侧是否有接近或等于零的奇异值就可以了。如果存在,则系统中发生了因果涌现,否则就没有发生。


从该图上我们也可以很容易地计算出因果涌现的强度。具体计算方法就是求出被保留奇异值(黑色柱子)的平均值,然后减去所有奇异值的平均值。


由此可见,使用了奇异值谱以后,无论是对于因果涌现的判断还是计算定量化的强度,都会变得非常简单。


总结一下,从近似动力学可逆性出发,我们得到了一整套对因果涌现的全新认识。首先,所谓的因果涌现更应该解释为动力学可逆性的一种涌现,即因果性越强,其实意味着它的动力学越接近是可逆的。这种可逆的动力学可以保证其作为一个信息通路,能够最无保留地传递信息到未来。其次,因果涌现现象其实就是指一个复杂系统背后的动力学中存在着冗余的信息通路,这些通路彼此线性相关,阻碍了信息的无损传递,使得动力学可逆性降低。最后,因果涌现的强度可以通过该系统最大可能的平均信息通路可逆性的提升来衡量。


合理性


然而,如果从上述定义的角度来看,你可能会觉得,这是在讨论涌现吗?怎么没有看到像“突然出现”或“整体大于部分之和”这样的描述呢?换句话说,这套因果涌现的新定义是合理的吗?


我们论文提交以后,审稿人也给我们提出了类似的质疑。最终,经过努力理解自己提出的这套新框架,我终于可以从理论分析和数值实验上在一定程度上“证明”了这套框架的合理性。


最重要的一个原因是,其实我们这套新的对因果涌现的定义是与Hoel等人的定义一致的。这种一致性就在于,我们对因果涌现的定义其实是Hoel等人定义的一个必要条件


也就是说,对于任何一个马尔科夫动力学,如果我们要找到最大化有效信息的粗粒化策略,其实完全可以先来对动力学做奇异值分解。那些非零奇异值所对应的那些奇异向量其实就近似对应了我们要找的那个最优的粗粒化策略。虽然这种对应关系并不是严格的,但从实际的例子上看,二者的重合度还是相当高的。


尽管重合度的可能性很高,但二者并不是完全相等。也就是说,存在着一种情况是,如果粗粒化策略与奇异向量完全一致,仍然不能保证我们已经把宏观动力学的有效信息最大化了。当粗粒化策略接近那些奇异向量的同时,还需要进一步地做细微调整,才有可能最大化有效信息。


然而,事实证明,往往这样的粗粒化策略是不合格的,因为它过大的忽略了原始动力学信息,导致新的宏观动力学和粗粒化操作不满足可交换性。


我们知道,所谓的合格的粗粒化操作,不仅仅能将系统状态进行压缩,而且还要尽可能保持原系统的一切关系,包括动力学演化。因此,粗粒化映射应是一个同态映射。然而,通过有效信息最大化得到的粗粒化策略就有可能不是同态的。


数值例子


前面的讨论的确过于抽象,接下来,我就给你展示几个例子,从而说明我们提出的新的定义是合理的。



这个例子来源于Hoel 2013的论文,可以算是因果涌现的最小例子了。这是一个四节点的布尔网络(图a),它们彼此互联。并且每个节点都遵循如图(b)所示的同样的节点动力学规则:如果邻居在上一时刻处于00,我就在下一时刻以0.7概率处于0,以0.3的概率处于1,……。


系统的状态概率转移矩阵如图(d)所示,对这个矩阵做奇异值分解,得到图(e)的奇异值谱。从图e中,我们可以看到,这个系统中一共有16个奇异值,其中只有4个是非零的,因此系统存在着很大的冗余,事实上很多状态的概率转移都是完全相同的,因此系统明显地存在着因果涌现。因果涌现的强度为0.75。


在论文中,我们验证了Hoel 2013和2017两篇论文中的几乎所有的例子,都得到了和Hoel等人理论一样的判断结果。例如,下图是一个类似的6个节点布尔网络的例子。



图中(a)是一个六节点的布尔网络,(c)是对应的概率转移矩阵,(b)是该网络粗粒化的结果,(d)是奇异值谱,我们可以从这个奇异值谱直接判断因果涌现发生,强度为2.23,这种判断是和基于有效信息的理论一致的。


接下来,我们又在复杂网络和一维元胞自动机上应用了我们的方法,发现该方法不仅可以对复杂网络做社区划分,而且还可以识别一维元胞自动机中的涌现结构。



该图分别展示了我们理论在复杂网络和一维元胞自动机上的应用。图(j)的复杂网络采用的是随机块模型 (SBM) 生成的,然后再由奇异值谱 (图k) 找到截断位置,这个位置刚好对应了原始网络的一种社区划分——即一种粗粒化(图(l))。右侧图(g)则展示了40号一维元胞自动机的演化结果,我们以每三个格子作为一个邻域来看它们的局域动力学以及奇异值谱,如图(h)所示,并据此判断这个局部区域是否发生了局部的因果涌现。局部因果涌现的判断结果如图(i)所示,其中红色点代表的是对局部动力学判断因果涌现发生,蓝色为元胞自动机演化的背景。


虽然说这套新的方法不需要粗粒化就能刻画因果涌现,但是,为了与Hoel论文中的布尔网络的例子进行进一步的比较,我们也提出了一种粗粒化方案。这个方案的想法非常简单,那就是将粗粒化策略视作一个分组向量,并让这个向量尽可能与最大的奇异值向量平行对齐。我们发现,这种粗粒化方法能够本质上和Hoel等人提出的最大化有效信息的粗粒化方法结果是完全一致的。事实上,我们对Hoel论文中的所有布尔网络上面的因果涌现的例子都做了验证,结果也都是完全一致的。这再次说明我们的方法对于因果涌现的判断的确是有效的。


然而,尽管最终结果是一致的,但由于我们的这套方法是完全不依赖于粗粒化策略的,因此也就省去了费时费力的最优化粗粒化策略的过程。


扩展讨论


我们提出的新因果涌现理论框架不仅可以重新以一种更加清晰、简洁的方式定义因果涌现,并更容易地找到最优的粗粒化策略,而且还能为我们理解涌现的本质,甚至于智能体的运作方式提供理论洞察。


涌现依赖于观察者吗?


长期以来,人们针对涌现就在争论一个问题:涌现现象的出现是否需要观察者的界定?在Hoel等人的因果涌现理论框架中,似乎这个问题是肯定的。这是因为,因果涌现的定义以及量化都需要我们事先定义一个粗粒化策略,而不同的粗粒化策略就会引发我们对因果涌现的结果判断完全地不同。不过,这种主观性可以被最优化粗粒化策略而消除。也就是说,如果涌现是依赖于观察者的一种外在于系统的现象,那么观察者自身也并不是那么的任意。这体现为,他(她)的粗粒化策略并不能随意地选取,而应该是以一种最优化的方式来选取。最优化的标准就是有效信息的最大化。


也就是说,有效信息最大化并不是关于动力学系统自身的一种要求,而是对外在观察者的一种要求。或者说,所有的观察者背后存在着一个普适性的原理:这就是有效信息的最大化,即观察者构建的模型应该能够满足较强的因果特性。正是因为这种观察者的普适原理的存在才使得我们所有的观察者对同一个系统有了共识:即因果涌现发生了。


然而,在我们的理论框架中,似乎不需要观察者的界定,而是一个纯客观的因果涌现理论。为什么这么说呢?因为一个系统的马尔科夫动力学是确定的,那么该动力学的奇异值谱也就确定了,它显然是该系统的一种天然特性的反映。那么,由此定义的因果涌现的判断条件和强度度量显然也就是客观的,不依赖于观察者的。特别是当奇异值谱中有明确的零奇异值的时候,则系统中必然存在着因果涌现,我们称这样的因果涌现为清晰的因果涌现(Clear Causal Emergence)。这样,因果涌现的存在性就完全是系统本身的一种内在的属性。因此可以说,我们的理论框架更支持涌现是客观存在的,与观察者无关。


但实际情况并没有那么简单。对于绝大多数实际系统来说,它们的奇异值谱并不是那么明确分明地存在着零特征值。往往是系统最小的奇异值非常接近于零,但并不严格等于零。这个时候我们判断涌现是否发生的标准就变得模糊起来。我们给出的办法是,需要在奇异值谱上找出一个明显的截断点,在该点两侧的奇异值会有一个较为明显的跳跃。那么,这个时候,我们叫做系统中存在着模糊的因果涌现(Vague Causal Emergence),其中模糊度就是我们选取的可以被忽略的奇异值大小,即一个奇异值的阈值。


显然,这种阈值的选取是主观的,当奇异值谱存在着明显的断崖的时候,这种主观性还不是那么明显。然而,还有一种情况是,系统的奇异值谱是一个连续变化的曲线,我们很难在其中寻找出一个截断位置。那么,这个时候是否存在因果涌现呢?按照我们目前的理论定义,我们仍然需要选取一个截断方式,强行来判断因果涌现是否发生。如果这个截断选择的位置比较靠左,那么就会有很多的较大的非零奇异值被砍掉,这就意味着我们正在忽略大量的信息,从而构建一个更加因果的模型;如果截断位置比较靠右,则虽然我们能够更精准地描述系统,但是系统的因果涌现的强度就会减弱很多。


从这个意义上来说,我们的理论判断仍然不能完全摆脱对观察者的依赖。只不过我们的依赖形式变得更加简单清晰了,即截断位置的选取。


所以,综合来看,涌现现象就是一种既依赖于观察者,又依赖于系统客观属性的现象。当系统的奇异值谱有明确的截断的时候,因果涌现是客观存在的,即清晰因果涌现;而当它没有明确截断的时候,因果涌现就会更多地依赖于观察者对截断阈值的选取。


智能体的“时间倒流”


我们的理论框架还能够给我们带来对智能体的新认知。智能系统为了更好地描述世界,于是构建了宏观的世界模型,以试图实现一个可逆的动力学,即“时间倒流”。


如果我们将方框2中的因果涌现示意图稍作修改,就能得到下面的图:



由于因果性与可逆性存在着深刻联系,可以说它们在强度度量层面就是等价的。于是,我们便可以绘制这张图。我们只需要将原来的刻画因果性的指标:有效信息替换为我们的近似动力学可逆性指标就可以了。这样,这张图很好地展示了什么是可逆性的涌现。与因果涌现的框架相仿,可逆性涌现即一种宏观动力学的可逆性要大于微观动力学的可逆性的现象。也就是说,宏观动力学比微观更可逆。


这张图也可以描述类似我们人类这样的智能体的行为模式。当人类第一眼看到世界的时候,我们就在构架关于这个世界的模型。所谓世界模型其实就是对外部世界的一种粗粒化的描述。


这种宏观动力学,或世界模型是如何找到的呢?答案就在于粗粒化。尽管在我们的新的因果涌现理论框架中,我们不需要粗粒化就能够判断系统中是否存在着因果涌现现象。然而,对于一个智能体来说,它可能以它特有的粗粒化方式,得到一个属于它自己的宏观动力学模型。


那么,什么样的宏观动力学更优秀呢?答案就在于可逆性!也就是说,智能体会倾向于找到一个可逆的宏观动力学或世界模型,因为这样的模型会展现出更强的因果特性(参考NIS+。智能体根据这个世界模型做推理的时候实际上是依赖于确凿的因果关系的,否则推理的结果就有可能不准确。而因果性就是一种可逆性,因此,智能体构建宏观动力学的目的就是为了获得可逆性。


但是,我们需要留意的是,任何粗粒化过程其实都会带来额外的信息损失。早在19世纪统计物理刚刚创立之初,玻尔兹曼就把由观察者粗粒化操作所带来的信息损失定义为熵,并成功地证明这种熵与热力学熵是等价的。


于是,我们便得到了这样一种图景:一个智能体在认识世界的时候,它实际上是在拼命地寻找一个更加可逆的宏观动力学模型,而它的代价就是由粗粒化引来的信息损失。有趣的是,这里面仿佛存在着某种平衡,一方面可逆的宏观动力学意味着模型在运作的过程中不会损失信息,越可逆,则信息损失越小;而另一方面,这样做的代价却是智能体要通过粗粒化操作,抛弃大量的无关信息。一方面是收益,另一方面是成本。过大的收益,意味着过大的成本。也就是说,如果我们希望追求一个完美的不损失信息的可逆模型,那么代价就是我们在构建这个模型的一开始就由粗粒化操作抛弃了大量的信息。反过来,如果我们通过粗粒化在宏观保留了过多的信息,则虽然这个模型可以很好地拟合世界,但是它的代价可能就是模型过于臃肿,而因果性较差。


这些特征就反映在奇异值谱截断的选取上。越靠左的截断代表抛弃了越多的信息(截断右侧的小奇异值),但是有可能换来的是越强的可逆性(截断左侧的平均奇异值大小)


更有趣的是,当我们把智能体嵌入到大的宇宙背景中,就会发现智能体实际上是在瞎折腾。为什么这么说呢?你要知道,从本质上讲,这个世界的动力学是可逆的。基础量子物理学告诉我们,整个宇宙的本质实际上是一种可以由波函数描述的概率波,并且这种概率波在时间中的演化需要遵循薛定谔方程,而薛定谔方程本身就是一个时间可逆的动力学。


然而,智能体由于各种原因无法直接获得这个波函数的全部信息,于是必须引入观察或测量。我们知道,测量是会引起波函数的塌缩的,这是整个量子力学框架中唯一的一种不可逆操作。于是,我们智能体在宏观世界中,就只能获得一套由不可逆的方程制约的统计力学。这就是为什么现实世界是不可逆的本质原因。更进一步,智能体在这个不可逆的世界之上,希望进一步搭建一套宏观的模型,这就是我们所说的宏观动力学,或世界模型,而在这个世界模型中,我们进一步追求可逆性。然而,相伴而生的是,我们的粗粒化过程本身就会引发信息的损失,从而引来了更多的不可逆性。


物理学对动力学可逆性还有另一种说法,即时间反演对称性,而将可逆性的破坏叫做时间反演对称性的破缺(Symmetry Breaking)。也就是说,所谓的动力学可逆性其实是一种时间演化过程中,对称性的体现。如果动力学是可逆的,则这种对称性得到满足。


而当智能体通过观测世界和粗粒化描述世界的时候,实际上就是在打破时间反演对称性。可笑的是,它希望达到的目的却是为了获得时间反演对称性。



所以,一句话,世界的本源是可逆的,智能体构建世界模型的本质是为了恢复被他自己打破了的时间反演对称性。这难道不是一种瞎折腾吗?



参考文献

  • Zhang, J., Tao, R., Leong, K.H. et al. Dynamical reversibility and a new theory of causal emergence based on SVD. npj Complex 2, 3 (2025). https://doi.org/10.1038/s44260-025-00028-0

  • E.P. Hoel, L. Albantakis, G. Tononi, Quantifying causal emergence shows that macro can beat micro, Proc. Natl. Acad. Sci. U.S.A. 110 (49) 19790-19795, https://doi.org/10.1073/pnas.1314922110 (2013).

  • Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, et al. Finding emergence in data by maximizing effective information. National Science Review, 2024, nwae279



希望深入了解的读者朋友们可以扫描下方二维码,观看张江老师在「因果涌现」读书会第五季的分享,动力学可逆性与因果涌现新理论

https://pattern.swarma.org/study_group_issue/660



因果涌现社区


跨尺度、跨层次的涌现是复杂系统研究的关键问题,生命起源和意识起源这两座仰之弥高的大山是其代表。而因果涌现理论、机器学习重整化技术、信息论或信息分解等近年来新兴的理论与工具,有望破解复杂系统的涌现规律。而新兴的因果表征学习、量子因果等领域也将为因果涌现研究注入新鲜血液。


集智俱乐部因果涌现读书会目前已经进行了四季。第一季读书会系统地梳理了因果涌现的概念,以及它与Sloopy Model、复杂性阈值、自指等概念之间的联系,也探讨了因果涌现理论在复杂网络、机器学习中的应用。参看:因果涌现读书会启动:连接因果、涌现与自指——跨尺度动力学与因果规律的探索


第二季读书会探讨了涌现、因果科学和机器学习三大主题的融合,包括信息论拓展、因果涌现理论、因果表示学习、多尺度机器学习动力学建模。请参看:因果、涌现与机器学习:因果涌现读书会第二季启动


第三季读书会进一步围绕因果涌现的核心问题「因果涌现的定义」以及「因果涌现的辨识」进行深入学习和讨论,对 Erik Hoel 提出的 Causal Emergence,Causal Geometry 等因果涌现的核心理论进行探讨和剖析,并详细梳理其中涉及到的方法论,包括从动力学约简、隐空间动力学学习等其他领域中学习和借鉴相关的研究思路,最后探讨因果涌现的应用,包括基于生物网络、脑网络或者涌现探测等问题展开扩展,发掘更多的实际应用场景。请参看:因果涌现读书会第三季启动:深入多尺度复杂系统核心,探索因果涌现理论应用


第四季读书会主题是「新信息论:从分解到整合」,旨在系统梳理信息论领域的发展脉络,从信息熵的概念开始,逐步梳理各种信息测度的意义及其间的联系,深入理解信息整合与信息分解的本质,为跨学科应用做好准备。请参看:新信息论:从分解到整合|因果涌现读书会第四季启动


第五季读书会追踪因果涌现领域的前沿进展,展示集智社区成员的原创性工作,希望探讨因果涌现理论、复杂系统的低秩表示理论、本征微观态理论之间的相通之处,对复杂系统的涌现现象有更深刻的理解。请参看:荟萃复杂系统前沿进展,集结因果涌现学术社区:因果涌现读书会第五季启动


因果涌现社区由集智俱乐部通过系列因果涌现读书会孕育孵化,旨在促进学术交流和科学创新,聚焦于破解复杂科学的圣杯问题,为国内学者和科学爱好者提供一个共享和探索的平台,推动科学研究的发展。


因果涌现系列读书会回放视频

第一季:https://pattern.swarma.org/study_group/7
第二季:https://pattern.swarma.org/study_group/16
第三季:https://pattern.swarma.org/study_group/28
第四季:https://pattern.swarma.org/study_group/35
第五季:https://pattern.swarma.org/study_group/43

因果涌现社区共创,因果涌现主题文章



“复杂 AI 次方”开放实验室招募


北师大系统科学学院教授、集智俱乐部创始人、集智科学研究中心理事长张江从2003年开始,长期从事有关复杂系统建模的工作。近年来,张江带领北师大研究组以及集智科学研究中心开始聚焦在基于新兴AI技术进行基于数据驱动的自动建模研究,并立志破解复杂系统的涌现之谜。我们希望对因果涌现有热情,且认可这个领域发展前景的朋友一起来合作,促进这一领域的快速发展。我们希望这个叫做“ Complexity AI ”,中文叫做“复杂AI次方”的开放实验室,能够真正实现思想共享、资源共享、跨学科交叉,共同探索因果涌现。


详情请见:“复杂 AI 次方”开放实验室招募,挑战“涌现”难题





集智科学研究中心




集智科学研究中心是门头沟民政局批准成立、门头沟科信局主管的民办非企业,致力于营造跨学科探索小生境,催化复杂性科学新理论。集智研究中心长期关注复杂科学中的核心问题,如涌现、因果、自指、意识、生命起源等等,并充分结合人工智能机器学习技术尝试解决这些问题。目前已有13篇文章发表于国际期刊,其中包括一篇因果涌现的综述和一篇生命起源的综述。这里的文章大部分产生于集智社区读书会。


部分研究成果报道:


访问集智科学研究中心网站了解详情:www.research.swarma.org/research


推荐阅读

1. 集智科学研究中心重磅综述:复杂系统中的因果和涌现
2. “涌现”发现之旅:人工智能观察者与涌现的量化|集智科学研究中心NSR最新成果
3. 机器学习框架NIS+:通过最大化有效信息识别“因果涌现”|集智百科
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
5. 龙年大运起,学习正当时!解锁集智全站内容,开启新年学习计划

6. 加入集智,一起复杂!



点击“阅读原文”,报名读书会