专栏名称: 人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构

重磅：AI机制可解释性的理论基础：抽象因果

人工智能学家 · 公众号 · AI · 2024-08-20 18:22

正文

来源：图灵人工智能

Causal Abstraction:A Theoretical Foundation for Mechanistic Interpretability

https://arxiv.org/pdf/2301.04709 v3 2024

摘要

因果抽象为机制可解释性提供了理论基础，该领域涉及提供可理解的算法，这些算法是对已知但不透明的黑盒AI模型低层次细节的忠实简化。我们的贡献包括：(1) 将因果抽象理 论从机制替换（即硬干预和软干预）推广到任意机制转换（即从旧机制到新机制的泛函 ），(2) 提供了一种 灵活且精确的形式化定义，用于模块化特征、多义性神经元和分级忠实度的核心概念 ，以及(3) 在因果抽象的共同语言下统一了多种机制可解释性方法，即激活和路径修补、因果中介分析、因果清洗、因果追踪、电路分析、概念擦除、稀疏自编码器、差分二进制掩蔽、分布式对齐搜索和激活引导。

关键词：机制可解释性、因果关系、抽象、可解释AI、可解释性

1. 引言

我们将可解释人工智能的基本目标视为 解释AI模型为何做出其预测 。在许多情况下，解释的范式是因果解释（Woodward, 2003; Pearl, 2019），阐明了模型行为背后机制的反事实差异制造细节。然而，并非任何因果解释都是恰当的。我们显然已经知道所有关于深度学习模型的低级因果事实。毕竟，我们可以从实数值向量、激活函数和权重张量的角度解释模型行为的每个方面。当然，问题在于这些低级解释通常对人类来说并不透明——它们未能灌输对模型行为背后高级原则的理解（Lipton, 2018; Creel, 2020）。

在许多情境中，可以很容易地为任务设计简单的算法，这些任务在人类可理解的概念上操作。 关键问题是，在什么条件下，这样一个透明的算法构成了对已知但不透明的黑盒模型低级细节的忠实解 释（Jacovi和Goldberg, 2020）？这是可解释AI子领域即解释性的研究动机所在，并且这个问题对于 机制解释性 尤其重要，机制解释性专门旨在分析黑盒模型的组成部分，以 透明算法 为术语（Vig等人，2020; Olah等人，2020; Geiger等人，2020; Finlayson等人，2021; Elhage等人，2021; Chan等人，2022b; Wang等人，2023; Nanda等人，2023a）。

机制解释性研究与认知科学家在理解人类大脑如何工作所面临的问题非常相似。在一个极端，我们可以尝试在非常低的层次上理解心智，例如大脑中的生化过程。在另一个极端，我们可以只关注系统的输入输出事实，大致上讲，关注“可观察行为 ”。 类似地 ，对于深度学习模型，我们可以关注低级特征（权重张量、激活函数等），或者关注计算的输入输出函数。然而，在这两种情况下，研究将输入转换为输出的中介过程和机制可能都是有启发性的，这在 稍微高层次的抽象中是Marr（1982）著名的算法分析 层次。到这些算法层次的假设对科学家来说是透明的程度，我们可能对代理的内部工作有了有用的阐释。

然而， 至关重要的是，机制解释性方法要避免讲述与模型内部工作完全脱节的“就是这样”的故事 。为了澄清这到底意味着什么，我们 需要一种共同语言来阐释和比较方法论，并精确化核心概念。我们认为因果抽象理论提供了这种共同语言。

在某些方面，研究现代深度学习模型就像研究天气或经济：它们涉及大量密集连接的“微观变量”和复杂的非线性动态。控制这种复杂性的一种方法是通过更高级别的、更抽象的变量（“宏观变量”）来理解这些系统。例如，许多微观变量可能被聚集成更抽象的宏观变量。一些研究人员一直在探索 因果抽象理论 ，为在 多个细节层次上因果分析系统提供了数学框架 （Chalupka等人，2017; Rubenstein等人，2017; Beckers和Halpern，2019; Beckers等人，2019; Rischel和Weichwald，2021; Massidda等人，2023）。这些方法告诉我们， 何时一个高级因果模型是简化的（通常更细粒度的）低级模型。

迄今为止， 因果抽象已被用于分析天气模 式（Chalupka等人，2016）、人脑（Dubois等人，2020a,b）和 深度学习模型 （Chalupka等人，2015; Geiger等人，2020, 2021; Hu和Tian，2022; Geiger等人，2023; Wu等人，2023）。

2.因果关系和抽象

本节提出了 一般性的因果抽象理论 。尽管我们在很大程度上基于近期文献中的已有工作，但我们的表述在某些方面更为普遍，而在其他方面则较为具体。由于我们 专注于（确定性的）神经网络模型，因此并未将概率纳入其中 。同时，因为现代机器学习系统的研究中使用的操作超出了替换模型机制的“硬”干预和“软”干预（见下文的定义9和10），我们 定义了一种非常广泛的干预类型，即“干预映射”，它是从旧机制到新机制的函数映射 （见定义11）。为了在这个不受约束的模型变换类中施加结构，我们对形成所谓“ 干预代数”的干预类提出了一些新的结果 （特别见定理20、21）。

接下来，我们探讨了因果模型之间可能存在的关键关系。我们首先从精确变换（Rubenstein等，2017年）入手， 这种变换描述了一个因果模型的机制何时由另一个模型的机制实现（“因果一致性”）。我们将精确变换从硬干预推广到形成干预代数的干预映射 （见定义25）。 双射变换 （见定义28）是一种保留原始模型所有细节的精确变换，保持在相同的粒度水平。另一方面， 构造性因果抽象（见定义33）是一种“有损”的精确变换，它将微观变量合并为宏观变量，同时保持对原始模型的精确和准确的描述 。此外，我们（1）将 构造性因果抽象分解为三种操作，即边缘化、变量合并和值合并 （见命题40），并且（2）提供了理解近似变换的一般框架（见定义41）。

最后，我们定义了 一组互换干预操作，它们是通过因果抽象理解机制可解释性的核心。我们从简单的互换干预开始 （见定义44），在这种干预中，具有输入和输出变量的因果模型将某些变量固定为它们在不同输入条件下的值。我们 将这些扩展到递归互换干预 （见定义45），这种干预允许基于先前互换干预的结果固定变量。 至关重要的是，我们还定义了分布式互换干预，这种干预目标变量分布在多个因果变量之间 ，并涉及到变换变量空间的双射变换（见定义46）。最后，我们阐述了如何构建用于互换干预分析的对齐方法，以及如何使用互换干预准确性来量化近似抽象。

2.1 具有隐含图结构的确定性因果模型

我们从一些基本符号开始。

未受约束的干预映射空间 FuncV 是混乱的，且无法保证干预映射能够被视为隔离自然模型组件。我们希望描述那些“表现得像硬干预”的干预映射空间，因为它们具有基本的代数结构。我们将在下一节对此进行详细说明。

以下是一个因果模型的示例，其中定义了硬干预、软干预和干预映射。

2.2 干预代数

2.3 使用干预性的精确转换

研究者们对这样一个问题感兴趣：两个模型——可能在不同的签名上定义——在什么情况下是相互兼容的，即它们都能够准确地描述相同的靶标因果现象。下一个定义呈现了Rubenstein等人（2017年）提出的“精确转换”概念的推广。我们在本文中研究的其他概念——即双射转换和构造性抽象——是精确转换的特殊情况。

2.3.2 构造性因果抽象

假设我们有一个由“低级变量”VL构建的“低级模型”

和一个由“高级变量”VH构建的“高级模型”

。为了使H成为低级模型L的高级抽象，必须具备哪些结构条件？至少，这要求高级干预能够表示低级干预，正如定义25中所述。也就是说，H应该是L的精确变换。那么，还需要满足哪些条件呢？

关于抽象的一个重要直觉是，它可能涉及将特定的高级变量与低级变量的聚类相关联。即，将低级变量聚集在一起形成“宏变量”，以抽象掉低级细节。为了系统化这个概念，我们引入了低级签名与高级签名之间对齐的概念：

构造性翻译产生的高级模型何时构成构造性抽象的充分和必要条件是可以刻画的，我们将把这一问题留待未来的工作中探讨。

2.3.3 模型之间对齐的分解

鉴于这种相对简单的抽象概念的重要性和普遍性，从不同角度理解这一概念是值得的。对齐 ⟨ Π , π ⟩ ⟨Π,π⟩ 可以通过以下三个基本操作进行分解。 边缘化 从因果模型中移除一组变量； 变量合并 将因果模型中的变量分区合并，每个分区单元成为一个单一变量； 值合并 将因果模型中每个变量的值的分区合并，每个分区单元成为一个单一值。前两个操作与科学哲学文献中被认为对于解决变量选择问题至关重要的概念密切相关（Kinney, 2019; Woodward, 2021）。

边缘化本质上是忽略变量子集 \(X\) 的问题。科学哲学家关注的是在某些情况下，一个因果因素对“背景变量”的变化相对不敏感或稳定的情境（Lewis, 1986; Woodward, 2006）。也就是说，如果我们简单地忽略那些对某个效应也有影响的其他变量，那么一个特定因素在多大程度上能可靠地导致该效应？我们在这里给出的边缘化定义基本上保证了这种意义上的完美不敏感性/稳定性。

2.4 近似转换

构造性因果抽象和其他精确转换都是全有或全无的概念。精确转换关系要么成立，要么不成立。这种二元概念阻止了我们在实践中更有用的分级忠实解释概念。我们定义了一个可以灵活适应的近似抽象概念：

2.5 交换干预

交换干预（Geiger等人，2020年，2021年）是对具有输入和输出变量的因果模型（即无环模型；回顾备注7）的操作。具体来说，因果模型被赋予一个“基础”输入，然后执行一个干预，将某些变量固定为如果提供不同的“源”输入它们将具有的值。这种干预将对在因果抽象中确立机制解释性至关重要。

Geiger等人（2022年）提出了交换干预准确性，它简单地是低级和高级因果模型在交换干预下具有相同输入-输出行为的比例（参见第2.6节的示例）。

2.6 示例：机械解释中的因果抽象

在阐述了理论之后，我们现在可以展示一个来自机械解释领域的因果抽象示例。我们首先定义两个基本的因果模型，这些模型展示了建模多种计算过程的潜力；第一个因果模型表示一个树结构算法，第二个是全连接前馈神经网络。网络和算法都解决了相同的“层次等式”任务。

基本的等式任务是确定一对对象是否相同。层次等式任务是确定一对对象对是否具有相同的关系。层次任务的输入是两对对象，如果两对对象都相等或都不相等，则输出为 True，否则为 False。例如，输入

被分配为 False，输入

都被标记为 True。

我们选择层次等式任务有两个原因。首先，解决该任务的显而易见的树结构符号算法是：计算第一对是否相等，计算第二对是否相等，然后计算这两个输出是否相等。我们将这个算法编码为一个因果模型。其次，等式推理是普遍存在的，并且作为生物体中关系推理的表示的广泛问题的案例研究（Marcus et al., 1999; Alhama 和 Zuidema, 2019; Geiger et al., 2022a）。

我们提供了一个配套的 Jupyter Notebook ，逐步演示这个示例。

2.7 示例：具有循环和无限变量的因果抽象

因果抽象是一个高度表达性的通用框架。然而，我们在第2.6节的示例中仅涉及了有限且无环的模型。为了展示这个框架的表达能力，我们将定义一个具有无限多个变量和无限值范围的因果模型，该模型实现了任意长度列表上的冒泡排序算法，并展示如何将这个无环模型抽象为一个具有平衡状态的循环过程。

冒泡排序的因果模型 冒泡排序是一种迭代算法。在每次迭代中，比较序列的前两个成员，并在左侧元素大于右侧元素时交换它们；然后对结果列表中的第二和第三个成员进行比较并可能交换，依此类推，直到列表的末尾。这个过程会重复，直到不再需要交换。

3. 机制可解释性的共同语言

本文的核心主张 是，因果抽象为机制可解释性提供了理论基础。通过一般的因果抽象理论，我们将为几个核心机制可解释性概念提供数学上精确的定义，并展示各种方法如何被视为因果抽象分析的特例。

3.1 通过干预代数理解多义神经元和模块化特征

在分析黑箱AI时，一个棘手的问题是如何将深度学习系统分解成组成部分。分析的单位应是实值激活、激活空间中的方向，还是整个模型组件？如果神经元是分析的充分单位，将会更容易将一个抽象概念定位到黑箱AI的某个组件上。然而，早已知道人工（和生物）神经网络具有多义神经元，这些神经元参与多个高层次概念的表示（Smolensky, 1986; Rumelhart et al., 1986; McClelland et al., 1986; Thorpe, 1989）。因此，单独的神经激活不足以作为机制可解释性的分析单位，这一点在最近的文献中得到了认可（Harradon et al., 2018; Cammarata et al., 2020; Olah et al., 2020; Goh et al., 2021a,b; Elhage et al., 2021; Bolukbasi et al., 2021; Geiger et al., 2023; Gurnee et al., 2023; Huang et al., 2023）。

最简单的多义神经元情况可能是，通过某种旋转可以使神经激活的维度在新的坐标系统中变得单义（Elhage et al., 2021; Scherlis et al., 2022; Geiger et al., 2023）。确实，线性表示假设（Mikolov et al., 2013; Elhage et al., 2022; Nanda et al., 2023b; Park et al., 2023; Jiang et al., 2024）表明，线性表示对于分析深度学习模型的复杂非线性构建块是足够的。我们担心这过于限制。理想的理论框架不会固守像线性表示假设这样的假设，而是支持任何和所有将深度学习系统分解为具有独立机制的模块化特征的方法。我们应该有灵活性来选择分析单位，而不受可能排除有意义结构的限制性假设的约束。特定的深度学习系统分解为模块化特征是否对机制可解释性有用，应被视为一个可以通过实验证伪的经验假设。

我们的因果抽象理论通过干预代数（第2.2节）支持一种灵活但精确的模块化特征概念。干预代数形式化了具有不同机制的可分组件的概念，满足交换律和左歼灭性这两个基本代数性质（见定义16中的(a)和(b)）。在这种意义上，单独的激活、向量空间中的正交方向和模型组件（如注意力头）都是具有不同机制的可分组件。双射变换（第2.3.1节）提供了这样的特征，同时保留了模型的整体机制结构。我们建议将模块化特征定义为任何形成干预代数的变量集，这些变量集通过双射变换可以被访问。

如果线性表示假设是正确的，那么旋转矩阵应该足够作为机制可解释性的双射变换。如果不是，则可能需要非线性双射变换，例如正规化流网络（Kobyzev et al., 2021），来发现无法通过线性方式访问的模块化特征。我们对模块化特征的概念使我们能够保持对哪些分析单位将被证明是至关重要的观点的中立。

3.2 通过近似抽象实现分级忠实性

忠实性的定义 ：忠实性被定义为解释准确反映模型行为背后的“真实推理过程”的程度（Wiegreffe 和 Pinter, 2019；Jacovi 和 Goldberg, 2020；Lyu 等, 2022；Chan 等, 2022a）。忠实性应当是一个分级的概念（Jacovi 和 Goldberg, 2020），但具体的忠实性度量标准将取决于具体情况。例如，出于安全考虑，有些输入领域可能需要完全忠实的黑箱AI解释，而其他领域可能要求较低。理想情况下，我们可以根据使用案例来填补具体细节。这允许我们提供各种分级忠实性度量，以便在现有（和未来的）机制可解释性方法之间进行有效的比较。

近似变换的作用： 近似变换（第2.4节）提供了所需的灵活分级忠实性概念。高层次和低层次状态之间的相似性度量、评估干预的概率分布以及用于汇总个体相似性得分的统计量都是可变因素，使我们的近似变换概念可以适应特定情况。通过近似变换可以理解的度量包括：

交换干预准确性（Geiger 等, 2022b, 2023；Wu 等, 2023）

概率或对数几率差异（Meng 等, 2022；Chan 等, 2022b；Wang 等, 2023；Zhang 和 Nanda, 2024） KL散度

3.3 行为评估作为通过两个变量链的抽象

行为的定义：AI模型的行为就是模型实现的输入到输出的函数。行为在因果术语中容易表征；任何输入-输出行为都可以用一个具有输入变量和输出变量的两变量因果模型来表示。

3.3.1 LIME：行为忠实性作为近似抽象

特征归因方法：特征归因方法将分数分配给输入特征，以捕捉特征对模型行为的“影响”。梯度基础的特征归因方法（Zeiler 和 Fergus, 2014；Springenberg 等, 2014；Shrikumar 等, 2016；Binder 等, 2016；Lundberg 和 Lee, 2017；Kim 等, 2018； Narendra 等, 2018；Lundberg 等, 2019；Schrouff 等, 2022）当它们满足一些基本公理时，可以测量因果属性。特别地，Geiger 等（2021）提供了集成梯度方法的自然因果解释，Chattopadhyay 等（2019）主张直接测量特征的个体因果效应。

LIME方法：LIME（Ribeiro 等, 2016）是一种学习可解释模型以局部近似不可解释模型的方法。LIME定义解释的忠实性为可解释模型与局部输入-输出行为的一致程度。虽然LIME最初并未被设想为因果解释方法，但当我们将模型的输入视为干预时，两个模型具有相同的局部输入-输出行为本质上是一个因果问题。

局限性：然而，LIME方法的可解释模型与不可解释模型的内部因果动态缺乏联系。实际上，LIME作为模型无关的方法，提供了对具有相同行为但内部结构不同的模型相同的解释，但这也是一种优点。没有进一步的因果抽象基础，像LIME这样的办法不能告诉我们输入和输出之间的抽象因果结构的有意义的信息。

然而，LIME只寻求找到可解释和不可解释模型的输入-输出行为之间的对应关系。因此，将H和L都表示为连接输入和输出的双变量因果模型足以描述LIME中的保真度度量。

为了使近似转换反映LIME保真度度量，定义

3.3.2 来自积分梯度的单源交换干预

积分梯度（Sundararaja n等人，2017年）计算神经元对模型预测的影响。遵循Geiger等人（2021年）的方法，我们可以轻松地将原始的积分梯度方程翻译成我们的因果模型形式主义。

积分梯度最初并不是作为神经网络因果分析的方法而构思的。因此，积分梯度可以用来计算交换干预，这也许令人惊讶。这取决于对积分梯度的“基线”值的战略使用，该值通常设置为零向量。

然而，计算积分将是一种计算交换干预的低效方式。

3.3.3 估计现实世界概念的因果效应

可解释人工智能的最终下游目标是提供易于人类决策者理解的直观概念的解释（Goyal 等，2019；Feder 等，2021；Elazar 等，2022；Abraham 等，2022）。这些概念可以是抽象和数学的，比如真值命题内容、自然数或像身高或体重这样的实数值；它们也可以是具体的，比如狗的品种、求职者的种族，或者歌手声音的音调。一个基本问题是，如何估计现实世界概念对人工智能模型行为的影响。

可解释AI基准测试CEBaB（Abraham 等，2022）评估方法在估计食物质量、服务、氛围和噪音在现实世界就餐体验中的因果效应方面的能力，这些因素对基于餐厅评论作为输入数据的情感分类器的预测。以CEBaB作为示例，我们用单一因果模型MCEBaB表示现实世界数据生成过程和神经网络。现实世界概念

和

可以取三个值+、-和未知，输入数据

取餐厅评论文本的值，预测输出

取五星评级的值，神经表示

可以取实数值。

如果我们对食物质量对模型输出的因果效应感兴趣，那么我们可以对除了现实世界概念Cfood和神经网络输出XOut之外的每个变量进行边缘化，以得到一个包含两个变量的因果模型。这个边缘化的因果模型是MCEBaB的高级抽象，它包含一个单一的因果机制，描述了餐饮体验中的食物质量如何影响神经网络输出。

3.4 作为交换干预的抽象的激活修补

在文献中被称为“激活补丁”通常等同于交换干预（见2.5节），但这个术语有时被用来描述其他各种干预技术。Wang等人（2023年）使用激活补丁来表示（递归）交换干预，而Conmy等人（2023年）、Zhang和Nanda（2024年）、Heimersheim和Nanda（2024年）包括消融干预（见3.5节），Ghandeharioun等人（2024a）包括更类似于激活引导的任意变换（见3.7节）。

交换干预（2.5节）是跨越多种研究的基本操作（Geiger等人，2020年； Vig 等人，2020年；Geiger等人，2021年；Li等人，2021年；Chan等人，2022b；Wang等人，2023年；Lieberum等人，2023年；Huang等人，2023年；Hase等人，2023年；Cunningham等人，2023年；Davies等人，2023年；Tigges等人，2023年；Feng和Steinhardt，2024年；Ghandeharioun等人，2024b）。它们的作用是揭示黑盒模型中的因果机制，阐明神经激活所代表的人类可理解的概念。许多现有的机制解释方法可以基于交换干预。我们建议将“激活补丁”和“交换干预”同义使用。

3.4.1 通过三变量链的因果中介作为抽象

Vig等人（2020年）、Finlayson等人（2021年）、Meng等人（2022年）、Stolfo等人（2023年）将流行的因果推断框架—中介分析（Imai等人，2010年；Hicks和Tingley，2011年）—应用于理解神经网络的内部模型组件如何介导输入对输出的因果效应。很容易证明中介分析是因果抽象分析的一个特例。中介分析与消融干预（见3.5节）和交换干预兼容。在本节中，我们介绍使用交换干预的中介分析。

假设改变变量X的值从x变为x'对第二组变量Y有影响。因果中介分析确定这种因果效应是如何由第三组中介变量Z介导的。中介所涉及的基本概念是总效应、直接效应和间接效应，这些可以用交换干预来定义。

这种方法已经被应用到神经网络的分析中，以表征输入对输出的因果效应是如何通过中间神经表示介导的。这类研究的一个核心目标是识别一组神经元，这些神经元完全介导了输入值变化对输出的因果效应。这相当于一个简单的因果抽象分析。

3.4.2 路径修补作为递归交换干预

路径修补（Wang等人，2023年；Goldowsky-Dill等人，2023年；Hanna等人，2023年；Zhang和Nanda，2024年；Prakash等人，2024年）是一种交换干预分析的变体，它针对变量之间的连接而不是变量本身。我们可以在处理基础输入b的模型M上执行递归交换干预，模拟“发送者”变量H取源输入s的干预值，将这种干预的效果限制在接收器变量R上，同时冻结变量F。

每个接收器变量取值由发送者变量H的s输入决定，同时将F固定为由b输入决定的值。对于接收器变量R ∈ R，定义一个交换干预

3.5 消融作为三变量碰撞的抽象

神经科学的损伤研究涉及对大脑某个区域的损伤，以确定其功能；如果损伤导致行为缺陷，那么人们就假定这个大脑区域参与了该行为的产生。在机制解释性中，这种干预被称为消融。常见的消融包括用零激活（Cammarata等人，2020年；Olsson等人，2022年；Geva等人，2023年）或一组输入数据上的平均激活（Wang等人，2023年）替换神经激活向量，向激活添加随机噪声（因果追踪；Meng等人，2022年，2023年），以及用不同输入的值替换激活（重采样消融；Chan等人，2022b）。为了将消融研究作为因果抽象分析的特例来捕捉，我们只需要一个高级模型，其中包含一个输入变量、一个输出变量和一个与消融目标变量对齐的二进制值变量。

3.5.1 概念擦除

概念擦除是消融在神经网络L中去除有关特定概念C的信息的常见应用（Ravfogel等人，2020年，2022年，2023b，a；Elazar等人，2020年；Lovering和Pavlick，2022年；Meng等人，2022年；Olsson等人，2022年；Belrose等人，2023年）。为了量化概念擦除实验的成功，每个概念C都与某种降级的行为能力相关联，这种行为能力被编码为部分函数

重磅：AI机制可解释性的理论基础：抽象因果

正文

2.3.3 模型之间对齐的分解

请到「今天看啥」查看全文