专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
中国电建  ·  开门红 | ... ·  2 天前  
老铁股道  ·  A股:真牛逼,杀疯了! ·  2 天前  
老铁股道  ·  A股:真牛逼,杀疯了! ·  2 天前  
中国电建  ·  亚冬会时刻 | 中国电建为冰雪之城添动力 ·  3 天前  
51好读  ›  专栏  ›  小白学视觉

顶刊 TPAMI | 网络可解释来了:提取面向模型的概念以解释深度神经网络

小白学视觉  · 公众号  ·  · 2024-07-26 10:17

主要观点总结

文章介绍了模型真正关注的是什么:提取面向模型的概念以解释深度神经网络。通过发现模型学习到的概念来直观解释预训练的图像分类模型,如卷积神经网络。提出了模型导向的概念提取(MOCE)方法,完全基于模型本身提取关键概念,捕捉模型独特的视角,不受外部因素的影响。实验结果证实了MOCE的优势,能够发现反映模型独特视角的连贯、有意义和重要的概念。MOCE适用于任何CNN模型,不依赖于任何注释或特定数据的方法。

关键观点总结

关键观点1: 模型导向的概念提取(MOCE)

MOCE是一种新方法,完全基于模型本身提取关键概念,捕捉模型独特的视角,不受外部因素的影响。

关键观点2: MOCE的优势

实验结果证实了MOCE能够发现反映模型独特视角的连贯、有意义和重要的概念,适用于任何CNN模型。

关键观点3: 概念评估

通过计算模型在有无概念的情况下进行预测的置信度来衡量每个概念的重要性。

关键观点4: 概念提取和评估的独立性

MOCE不依赖于任何外部因素,如人类注释或分割方法,能够忠实于模型本身。

关键观点5: 应用场景

MOCE可应用于解释预训练的卷积神经网络进行视觉任务,提供人类可理解的解释。


正文

点击上方 小白学视觉 ”,选择加" 星标 "或“ 置顶

重磅干货,第一时间送达 

What Does a Model Really Look at?: Extracting Model-Oriented Concepts for Explaining Deep Neural Networks

题目:模型真正关注的是什么?:提取面向模型的概念以解释深度神经网络

作者:Seonggyeom Kim and Dong-Kyu Chae
源码:https://github.com/DILAB-HYU/MOCE


摘要

模型可解释性是构建可信AI系统的关键要素之一,特别是在需要可靠性的应用中,例如自动驾驶和诊断。文献中已经研究了许多可解释性方法。在众多方法中,本文专注于一种研究线,尝试通过发现模型学习到的概念来直观解释预训练的图像分类模型,例如卷积神经网络,这被称为基于概念的解释。先前基于概念的解释方法依赖于人类对概念的定义(例如,Broden数据集)或像Slic(简单线性迭代聚类)这样的语义分割技术。然而,我们认为这些方法识别的概念可能更符合人类的视角或被分割方法裁剪,而不是纯粹反映模型自身的视角。我们提出了一种新颖的方法——模型导向的概念提取(MOCE),它完全基于模型本身提取关键概念,从而能够捕捉其独特的视角,这些视角不受任何外部因素的影响。我们在各种预训练模型上的实验结果证实了通过真正代表模型视角提取概念的优势。

关键字

  • 基于概念的解释

  • 可解释AI

  • 计算机视觉

I. 引言

深度神经网络(DNNs)在诸如图像识别和自然语言处理(NLP)等各个领域取得了巨大成功。然而,由于其非线性特性,DNNs本质上通常较为复杂,这使得理解它们为何做出特定预测变得困难[1]。这种缺乏可解释性使得DNNs在需要模型决策过程可解释性的关键任务应用中,例如基于AI的诊断、金融和军事行动中,更难发挥重要作用[2], [3], [4]。为了解决这个问题,近年来模型可解释性的研究获得了显著关注,以使它们能够适用于这些重要领域并提供更深入的见解。

本文专注于解释预训练的卷积神经网络(CNN)进行视觉任务。解释CNN的一种方式是确定每个输入特征对其预测的贡献量[1], [5], [6]。例如,在图像分类任务中,通过量化每个输入图像中像素的重要性生成显著性图,可以为模型所做的相应分类提供局部解释。然而,基于单个测试示例中的低级特征的可解释性方法无法捕捉到能够使人类更直观理解模型整体行为的高级概念[7], [8], [9]。另一个研究领域是基于这些概念提供全局解释,这些概念是更高级别的语义信息,例如斑马的条纹图案或长颈鹿的长颈。基于概念的推理可能更易于人类理解,因为基于认知科学的发现[10], [11],人类通常会将一个对象解析为不同的概念,然后关注几个区分性概念以做出最终决定。先前工作[7], [8], [9]的实验结果也证实了基于概念的推理优于显著性图。

已经提出了几种方法来发现预训练模型学习到的概念。网络解剖[12]、TCAV(使用概念激活向量测试)[8]和IBD(可解释基础分解)[13]依赖于Broden数据集[12],该数据集包含了人类为图像的高级概念部分提供的像素级注释。ACE(自动基于概念的解释)[14]使用了Slic(简单线性迭代聚类)[15],一种分割方法,将图像分割为概念段,然后对它们进行聚类以找到概念。

沿着这一研究线,我们探讨了一种不依赖于任何外部因素来发现概念的方法,以便完全关注模型的行为。我们的观点是,对模型的解释应该忠实于模型本身[9], [16], [17]。因此,使用人类提供的概念标签或利用分割方法可能会阻碍对模型真正视角的理解[18], [19]。换句话说,提取的概念可能会显示被分割方法裁剪的图像部分或更符合人类观点的图像部分,而不是反映模型的视角。此外,这些方法可能不是模型不可知的,因为它们限于在存在概念注释的数据集上训练的模型或具有良好功能分割方法的模型。而且,人类注释可能会导致人类偏见问题,并且不能保证所有概念都已完全注释;一些重要的概念可能被遗漏了。

为了发现纯粹反映模型自身视角的概念,本文提出了一种新颖的方法,不使用任何外部因素,如人类注释或分割方法,来寻找和评估概念。为了实现这一目标,我们提出了模型导向的概念提取(MOCE),它完全依赖于模型的内部计算。对于每个图像类别,MOCE通过根据高度激活的特征获得的掩码来收集图像的部分,然后应用连通分量分析来指导每个掩码突出显示单个概念部分。我们还提出了一种独特的掩码选择算法,以去除关注冗余区域的掩码。最后,它通过聚类收集的图像部分来识别概念,捕捉通常出现在目标图像类别中的共同特征。为了突出其中的关键概念,MOCE通过计算模型在有无概念的情况下进行预测的置信度来衡量每个概念的重要性。

我们使用一些流行的预训练模型在ImageNet和Places365数据集上进行了广泛的实验。通过实验结果,我们观察到以下几点,清楚地展示了MOCE的优势:(1)没有任何外部因素,MOCE成功地通过发现模型学习到的概念提供了人类可理解的解释。(2)MOCE识别的概念完全反映了每个模型的独特视角,现有的利用外部因素的方法很难理解。(3)提取的概念是连贯的、有意义的和重要的[14]。(4)MOCE适用于任何CNN模型在任何标记的数据集上,因为MOCE不依赖于任何注释或可能依赖于特定数据的方法。

III. 提出的方法

本节详细阐述了我们提出的概念解释方法。图1展示了MOCE的概览,大致由(a)概念提取部分和(b)概念评估部分组成。



A. 提取模型导向概念

是一组与特定类别 相关联的图像集(宽度为 ,高度为 ,深度为 )。为了简化,我们尽可能省略类别标签 。设 是从输入图像 到第 个中间层的前馈操作。然后, 的输出是一组激活图,记为 ,其中 是每个激活图的大小, 是通道数(即激活图的数量)。
在获得 后,我们接下来的步骤是创建一组有用的掩膜,这些掩膜可以裁剪对模型预测至关重要的图像部分。为了减少计算量,我们首先根据每个相应激活 的梯度 与类别 相对于每个激活图 的加权和 ,丢弃 中包含的激活图中较不重要的一半。具体而言,
其中 分别对应第 个激活图的梯度和平均池化。 通过内积操作计算两个项的加权和。然后,对于每个剩余的第 个激活图 ,我们将其放大到输入大小( ),然后二值化,使得顶部 的值(即高度激活区域)变为1,其余为0。因此,每个二值化掩膜 突出了输入的重要部分。
然而,我们注意到,掩膜的数量可能会根据通道数而变得过多,导致计算开销。此外,一些掩膜可能聚焦于彼此重叠的区域。另外,一些掩膜可能有多焦点,这使得将其焦点映射到一个单一概念变得困难。为了克服这些挑战,我们执行了以下程序,以减少掩膜的总数,并使每个掩膜尽可能独特:
  • 对于每个掩膜,如果它有多个连通分量(每个连通分量表示一组彼此相邻的'1's),我们保留最大的一个,并将其余的连通分量清零。这里,如果剩余的最大掩膜聚焦于极小的区域(总面积的0.5%),我们丢弃这个掩膜。这是因为一个强烈激活的区域(例如,热图的红色中心区域)会产生一个大型的连通分量。此外,我们观察到,小但显著的区域实际上有很多机会被其他掩膜捕获,并且很可能在其他一些掩膜的最大连通分量中存活下来。
  • 我们选择聚焦于较少重叠区域的掩膜。设 是从空集开始选择的掩膜集合。在按加权和(即 )的顺序对掩膜进行排序后,我们在第一次迭代中将第一个掩膜(即 )放入 。然后,通过计算每个剩余掩膜 中包含的每个掩膜 的重叠比率 来评估每个剩余掩膜,基于Jaccard相似性:
其中 分别是逐元素乘法和OR操作, 操作对所有元素求和。如果所有计算出的重叠比率 小于 ,则认为 是一个独特的掩膜,并且因此被添加到 的成员中。
现在我们有 个掩膜( ),每个掩膜预期聚焦于一个独特的区域和给定图像 的一个特定概念。然后我们使用 中的选定掩膜裁剪 为多个部分:这是通过 完成的,其中 是每个掩膜 裁剪后的图像。结果,所有图像 中通过它们对应的掩膜集合 被裁剪为多个图像部分。请注意,每个裁剪图像的大小将根据所使用的掩膜的形状而变化。
下一步是在激活空间上对裁剪后的图像进行聚类,以形成与同一概念相关的相似语义。因此,我们首先将每个裁剪部分放大到输入大小,将这些放大后的图像部分(每个记为 )放入模型中,并在第 层的激活图上执行全局平均池化(GAP)操作,将每个 表示为特征向量(即, )。在将每个图像部分 放大到输入大小时,我们保持其纵横比不变,以便在相应的放大图像 中的像素不会显得被拉伸,从而使它们更易于人类理解(我们的补充材料包括更多细节)。
我们最终将所有特征向量聚类到 中,其中 是预先定义的聚类数量。结果,每个聚类 包括我们预期彼此之间有很多相似之处的放大图像部分,我们认为每个聚类是一个概念。

B. 评估概念

在基于概念解释模型预测时,使用所有识别的概念可能并不高效,因为并非所有概念对模型识别图像同等重要;其中一些可能并不十分有助于识别。因此,区分几个关键概念将提供更好的解释,能够指出模型的焦点在哪里。在这种情况下,TCAV一直是迄今为止用于概念评估的热门选择。TCAV尝试学习一个分类器,区分一个概念的特征图和随机图像,其中学习到的分类器系数和方向导数(即概念激活向量的方向)在计算概念的重要性时使用。然而,TCAV分数并不总是一个好的可解释性标识符,这取决于随机选择的图像。相反,我们希望定义一个与概念的重要性更直接对齐的分数函数,并且可以仅通过模型的前馈操作计算,而不依赖可能受随机图像影响的分类器。
受之前工作[46]的启发,我们提出了一种方法来衡量模型在给定图像的类别预测中(1)当每个概念从图像中移除时,以及(2)当只有单个概念对模型可见时,模型预测的置信度。图1(b)说明了这个过程。设 是与类别 相关联的给定图像。我们为每个概念定义了 的两种变体: 中移除第 个概念( ), 移除除了第 个概念之外的所有概念(这里,剩余的第 个概念在输入到模型之前被放大,因为剩余概念的大小太小)。例如,如果 与“猫”类别相关联,并且第 个概念代表猫的眼睛,那么 将移除包含在第 个聚类 中的猫眼睛对应的图像部分。我们定义每个图像的分数函数为
其中 是模型对类别标签 的输出softmax概率。对于这两个分数,越高越好。 衡量一个概念在移除后对模型预测置信度的阻碍程度, 评估一个概念如何使模型做出自信预测。最后,我们通过聚合这些每个图像的分数来计算每个概念的重要性分数
其中 分别返回类别 相关联的第 个概念在 中值大小的排名(即相对位置)。






请到「今天看啥」查看全文