专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

论文解读 | CVPR2024：知识感知注意力的动态图表示用于组织病理学全幻灯片图像分析

AI TIME 论道 · 公众号 · · 2024-05-02 10:01

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

李嘉文

清华大学，深圳国际研究生院硕士生

论文标题

Dynamic Graph Representation with Knowledge-aware Attention for Histopathology Whole Slide Image Analysis

概述

组织病理全切片图像（WSIs）分类已经成为医学显微成像处理中的基础任务。现有方法涉及学习WSIs作为实例-袋表示，强调显著实例但难以捕捉实例之间的交互。此外，传统的图表示方法利用显式空间位置构建拓扑结构，但限制了在任意位置之间的实例的灵活交互能力，尤其是在空间上距离较远时。为此，作者提出了一种新颖的动态图表示算法，将WSIs构想为知识图结构的一种形式。具体而言，作者基于实例之间的头部和尾部关系动态构建邻居和有向边嵌入。然后，作者设计了一个知识感知注意机制，该机制可以通过学习每个邻居和边的联合注意力得分来更新头节点特征。最后，通过更新的头节点的全局池化过程获得图级嵌入，作为WSI分类的隐式表示。我们的端到端图表示学习方法在三个TCGA基准数据集和内部测试集上均超过了最先进的WSI分析方法。

论文链接：

https://arxiv.org/pdf/2403.07719.pdf

代码链接：

https://github.com/WonderLandxD/WiKG

1. 研究背景

在医学领域，特别与显微成像相关的病理学研究中，传统的病理学分析主要依赖于显微镜下的实体切片观察，这种方法费时且人力成本高，通常需要一至两天才能得出初步的筛查结果。然而，随着光学显微成像技术的进步，现在已经能够将这些实体切片高效地扫描成全视野切片（Whole slide image，简称WSI），并通过电脑进行数字化诊断，这一技术极大地提高了筛查效率和诊断准确性。为了实现这种现代化的数字诊断方式，关键技术包括高通量快速切片扫描仪的开发、计算机辅助诊断软件系统的构建以及人工智能辅助诊断工具的应用。当前研究正在积极探索利用人工智能模型，对WSI进行分类、检测、分割和预测，以提供更准确、更高效的定量定性诊断结果，助力病理专家更准确地评估患者的病情和预后。

由于计算资源的限制，特别是在处理WSI这种大规模高分辨率图像时，传统的人工智能方法面临一定的挑战。WSI通常具有非常高的分辨率，如10万×10万或更大，这也导致了大量的硬盘存储和显存需求。由于这些特点，从传统的自然图像处理技术直接应用到组织病理学分析中变得困难。

为了克服这些挑战，通常采用的方法是首先使用预处理和分割技术来识别图像中的前景区域，这些区域通常包括组织的轮廓、腺体、细胞等。之后，这些分割出的区域（通常称为“patch”）被输入到神经网络中进行训练，以实现更高效的分析。

以前的方法主要依赖于全监督学习的方案，通过为这些patch打上相应的标签并使用可学习的聚合器或传统的非学习聚合器进行预测，以实现WSI的分类。然而，这种方法需要大量的patch级别的标注，这在病理学领域是难以接受的，因为医院的病理专家通常难以为研究者提供足够的标注数据。

为了解决这个问题，当前的研究趋势是将WSI分析方法扩展到弱监督学习领域。现在最常见的方法是基于特征嵌入级别的多示例学习（Multiple instance learning，简称MIL）。MIL首先使用预训练的特征提取器来提取patch的相关特征嵌入，然后将这些嵌入输入到可学习的聚合器中，以学习WSI级别的全局表示，最后通过这些表示进行进一步的分析，得到下游任务的相关指标。这种方法允许在较少的标注数据下实现更高效的分析和诊断。

目前利用MIL对WSI进行分析的研究通常都是在基于注意力机制下的聚合方法进行设计的。然而，这些方法难以有效建模patch之间的相互作用，因为注意力机制主要关注于各自patch的特征。为了解决这一问题，基于图表示的WSI分析方法被逐渐重视起来，因为它可以将patch表示成节点，通过建模节点之间的拓扑关系来实现patch之间的内部上下文关联。具体而言，这种方法通过建模节点间的空间位置关系来设计图层级网络，从而更新特征，包括最终的聚合，以获取WSI级别的全局图表示。这种图结构的方法能够更好地捕捉patch之间的内部关系，从而提高模型的性能和准确性。

典型应用

基于图表示的方法已在多个应用场景中显示了其有效性和潜力。首先，应用图结构方法，能够成功地预测癌症患者的生存率，为临床医学研究提供了有力的工具。其次，还能够对病理免疫组化相关指标进行评分，这对于准确评估疾病的严重性和患者的治疗需求至关重要。第三，也可以应用于基本癌症的检测，辅助医生更准确地区分切片的良恶性，从而为个体化治疗提供指导。最后，也可以用于组织肿瘤的分型和分期，这将帮助医生进一步提高诊断的准确性和治疗的针对性。

总的来说，与传统的MIL对WSI进行分析的方法相比，图表示方法在众多研究中已被证明具有更高的准确性和可靠性。这些研究结果进一步验证了作者所提方法的有效性，显示出其在医学诊断和研究中的巨大潜力。

2. 研究动机

本文的研究动机主要源于对传统图模型建模方法的挑战。上述的图表示方法研究多数集中在利用空间级别的显式位置关系进行建模，即通过构建固定边来提取嵌入，并进行更新。然而，本文认为这种空间级别的建模方式很难捕捉到远距离的快速相互作用，为此，作者旨在设计一种动态的建模方式，它能够解除固定邻居带来的构边限制，这是第一个考虑点。

第二个考虑点是，作者认为在每个patch间的关系中应该存在有向的相互作用，而不仅仅是通过无向图来表示。为此，作者希望设计一种有向边的图表示方法，这能够更准确地传递patch之间的信息，从而更有效的建模拓扑结构。

3. 所提方法

因此，基于上述两个动机，这篇工作中引入了一个名为"WiKG"(WSI is Knowledge Graph)的方法。该方法将WSI视为知识图谱的形式来进行表示。本文的框架主要由四个部分构成。

首先，通过预训练的特征提取器来提取patch的特征，然后与之前基于空间位置的建模方式不同，本文首先将这些特征映射到每一个patch级别的头和尾嵌入。接着，计算这些头和尾嵌入之间的相似度，以构建有向边。其次，受到知识图谱在推荐系统中的应用启发，作者利用知识感知的注意力机制来融合相关的节点信息，有效地捕获patch之间的复杂相互作用。最后，通过这种融合的过程，得到了WSI级别的全新表示，为病理学分析提供了更准确和有信息量的结果。

3.1 映射Patch的头-尾嵌入，并根据两者之间的相似度构建邻边

具体而言，作者首先介绍了如何映射patch到图嵌入，从而构建一个动态图模型。作者将每个patch表示为X_1,X_2,⋯X_N，其中每个X都代表每个patch之间的特征响应或者嵌入。

第一步，作者通过一个线性变换来提取每个patch的头嵌入和尾嵌入。这些嵌入表示了patch在特征空间中的位置。第二步，使用了softmax形式计算这些头和尾嵌入之间的相似度，在计算softmax之前，首先对这两个嵌入进行点积运算。第三步，根据计算出的相似度分数，选取前K个最相似的patch作为每个patch的邻居。这样，就构建了一个动态的有向图，其中每个节点都有其邻居。最后，作者认为仅有头和尾的嵌入是不够的，因此需要充分表示有向边。为此，文章在原有的基础上，根据先前计算出的相似度分数，对头和尾嵌入进行加权求和，以得到有向边的表示。

3.2 利用知识感知注意力融合节点嵌入，并通过Readout获取WSI嵌入

第二部分是基于之前提到的头和尾嵌入组合的。作者利用知识感知机制的注意力来融合这些嵌入，并通过图注意力层来获取动态图的全局表示。

首先，作者利用非线性变换来融合三元组的特征。这个融合过程能够更好地捕捉到三元组中的关系特性。其次，使用softmax来获取在三元组条件下的知识注意力权重，并通过这些权重对邻居的特征进行加权融合。然后，采用双向交互的融合策略来更新每个patch的投影嵌入，可以在全局范围内更好地捕捉patch之间的相互作用。最后，根据这些头嵌入通过一个池化层来直接获得全新的表示，并通过交叉熵损失函数进行相应的分析和分类。

4. 实验和结果

在实验部分，本文主要在四个不同的数据集上进行了实验验证。前三个数据集是公开的TCGA数据集，包括食道癌、肾癌和肺癌。对于每个数据集，作者进行了两个主要的实验：分型实验和分期实验。分期实验包括了1、2、3、4四个不同的阶段，而分型实验则是根据不同癌症的分型指标进行多分类。

除了这三个公开数据集外，作者还与中山大学附属第一医院合作，收集了一个内部数据集。这个数据集包含了冰冻切片的肺癌两类亚型：肺腺癌和鳞状细胞癌。这个内部数据集被作为最终的测试集，以验证所提模型在肺癌分型方面的泛化性能。

论文解读 | CVPR2024：知识感知注意力的动态图表示用于组织病理学全幻灯片图像分析

正文

请到「今天看啥」查看全文