专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
OFweek维科网  ·  诺基亚换帅!英特尔副总裁突然转投? ·  昨天  
OFweek维科网  ·  DeepSeek“血洗”AI,光通信龙头们怎么看? ·  2 天前  
OFweek维科网  ·  重拾“造芯梦”?魅族再曝新动作! ·  4 天前  
哔哩哔哩  ·  光头强和灰太狼谁更有实力? ·  2 天前  
半导体行业联盟  ·  突发!GPU大厂撤离! ·  4 天前  
51好读  ›  专栏  ›  小白学视觉

医图顶刊 TMI'24 | 通过层次图金字塔Transformer开发几何特征,用于组织病理图像的癌症诊断

小白学视觉  · 公众号  ·  · 2024-12-02 16:27

正文

点击上方 小白学视觉 ”,选择加" 星标 "或“ 置顶

重磅干货,第一时间送达


论文信息

题目:Exploiting Geometric Features via Hierarchical Graph Pyramid Transformer for Cancer Diagnosis Using Histopathological Images

通过层次图金字塔Transformer开发几何特征用于组织病理图像的癌症诊断

作者:Mingxin Liu, Yunzan Liu , Pengbo Xu ,Hui Cui, Jing Ke , and Jiquan Ma

源码链接:https://github.com/lmxmercy/HGPT

论文创新点

  1. 几何特征的利用 :针对现有深度学习方法在病理图像分类中未能充分利用几何特征的问题,HGPT通过有效地利用组织分布的几何表示来指导病理图像分类,这是之前最先进方法所忽略的。
  2. 多头图聚合器(MHGA) :提出了一个 多头图聚合器 来从病理形态特征中有效聚合几何表示,使模型能够关注对癌症诊断至关重要的细粒度特征。
  3. 局部特征增强块(LFEB) :设计了一个局部特征增强块来增强2D局部特征的表示,解决了现有视觉变换器中局部特征感知不足的问题。
  4. 多层次的实验验证 :在四个公共数据集(Kather-5K、MHIST、NCT-CRC-HE和GasHisSDB)上进行了广泛的实验,证明了HGPT在二元或多类别分类多种癌症类型中的优越性能。

摘要

癌症在全球范围内被广泛认为是导致死亡的主要原因,病理分析在实现准确的癌症诊断中扮演着关键角色。在组织病理图像中特征的复杂表示包含了对疾病诊断至关重要的丰富信息,涉及细胞外观、肿瘤微环境和几何特征。然而,由于缺乏能够同时捕获细胞分布和聚集模式的有效描述符,这些通常作为有力指标的信息,最近的深度学习方法并没有充分利用几何特征进行病理图像分类。在本文中,受临床实践的启发,我们提出了一种层次化图金字塔变换器(HGPT),以通过有效利用组织分布的几何表示来指导病理图像分类,这是现有最先进方法所忽略的。首先,根据输入病理图像的形态特征构建图表示,并通过所提出的多头图聚合器学习几何表示。然后,将图像及其图表示输入变换器编码层以模拟长期依赖关系。最后,设计了一个局部特征增强块,以增强特征嵌入的2D局部表示,这在现有的视觉变换器中并未得到很好的探索。在Kather-5K、MHIST、NCT-CRC-HE和GasHisSDB上进行了广泛的实验研究,用于二元或多类别分类多种癌症类型。结果表明,我们的方法能够一致地为组织病理图像达到优越的分类结果,为临床实践中的恶性肿瘤提供了有效的诊断工具。

关键词

计算病理学、病理图像分类、图卷积网络、几何特征表示

三. 方法论

在本节中,我们首先提供HGPT架构的概述,然后全面分解其组件,包括金字塔补丁嵌入、多头图聚合器、变换器编码层,如图1所示。

A. 总体架构

输入图像表示为X ∈ RH×W×C,其中H、W和C分别代表高度、宽度和通道数。最初,我们通过以下方式在空间域中平坦化X来重塑X:
其中PPE(·)是金字塔补丁嵌入操作,xi ∈ RD表示从分割的补丁中学到的特征向量,N是补丁的数量,D是特征大小。随后,我们将XP输入图学习模块:
其中MHGA(·)表示多头图聚合器,XG是图像X的图表示,σ是激活函数,W、U分别是可训练权重。之后,将图表示输入变换器编码器进行长期依赖建模:
其中TEL(·)表示变换器编码层,X_T^{(i)}代表第i个变换器层的特征,NT是变换器编码层的总数。最后,我们将特征X_T^{(i)}输入到增强2D局部特征感知能力的模块中:
其中LFEB(·)表示所提出的局部特征增强块。

B. 金字塔补丁嵌入

我们引入了一种渐进式缩小金字塔补丁嵌入操作来标记输入图像,该操作可以提取多尺度细粒度特征表示以构建特征金字塔。对于输入图像X ∈ RH×W×C,我们首先将输入图像划分为H_s-1×W_s-1个P_s大小的补丁,其中P_s是s阶段的补丁大小。随后,每个补丁可以被平坦化并线性投影到H_s-1/P_s×W_s-1/Ps-1×C_s的特征PPE(·)。PPE(·)中的卷积过程可以描述如下:
其中K、S和P分别代表卷积核的大小、步长和填充。Norm(·)表示层归一化,λ = [4, 2, 2, 2]对应于我们HGPT中的4个阶段。

C. 多头图聚合器

  1. 图的构建:输入补丁序列X = [x_1, x_2, ..., x_N]可以被视为一组无序顶点,我们将其表示为V = {v_1, v_2, ..., v_N}。我们基于顶点特征之间的欧几里得距离构建一个动态k-NN图G = (V, E),其中E表示相应的边集(由k-NN连通性定义),每个顶点vi ∈ V仅连接到其k个最近邻居,可以表示为N(vi)。构建图表示的过程如图2所示。
  2. 几何表示学习模块:所提出的几何表示学习模块,多头图聚合(MHGA),其具体实现过程可以概括为以下部分。a) 图卷积网络:我们使用图卷积网络(GCN)层从组织病理图像的形态特征中提取更丰富的表示。GCN通过将每个顶点vi与特征向量hv ∈ RD相关联来表示顶点。因此,图G可以表示为hG = [hv_1, hv_2, ..., hv_N],用于无序顶点集。s阶段的一般图卷积操作F可以如下公式化:
其中G_s和G_{s+1}分别是输入和输出图,W_s是s阶段的可学习参数集。 分别是聚合和更新操作的可学习权重。Aggregate(·)表示聚合函数,它从顶点的邻域中编译信息,可以是平均聚合器[46]、最大池聚合器[11]、[47]或LSTM聚合器[48]。Update(·)表示更新函数,它执行非线性变换以计算新的顶点表示,可以是多层感知器[49]、门控网络[50]等。更具体地说,所有vs+1 ∈ Vs+1的顶点表示如下:
其中hvs和hvs+1分别是顶点v在s和(s + 1)阶段的隐藏状态。N(vs)表示顶点vs的邻域。T(·)是顶点特征聚合器,ζ(·)是顶点特征更新函数。在这项工作中,我们采用最大池聚合器作为T(·),采用多层感知器作为ζ(·)。b) MHGA中的图卷积层:据我们所知,大多数GCN具有固定的图结构,并且仅在每次迭代中更新顶点特征。这将导致随着网络层数和迭代次数的增加而出现过度平滑问题,也就是说,图中每个连通分量内的顶点特征将收敛到相同的值。为了进一步缓解随着网络深入而出现的过平滑和梯度消失问题,我们引入了残差映射来改进训练。因此,s阶段的残差图卷积操作F(·)可以更新为以下过程:
其中残差映射R(·)学习将图作为输入并输出残差图表示 以供下一阶段使用。我们进一步基于Max-Relative Graph Convolution Network (MRGCN) [11]设计了我们的图学习模块,它使用最大聚合邻域相对特征来替换非线性变换后的聚合特征。MRGCN中MHGA的图卷积层可以如下公式化:
其中N(vs)是顶点vs的邻域, 表示残差映射。MAX(·)表示逐顶点最大池操作符,MLP(·)是一个多层感知器,它使用ReLU和批量归一化作为激活和归一化函数,Concat(·)指的是将多个顶点的特征组合成单个特征向量的过程。c) GCN中的扩张聚合:先前的实验已经证明,大的有效接受域(ERF)可以提升图像分类和密集预测任务的性能[51]、[52]。引入大接受域可以通过多种方法实现,如特征金字塔[12]、大核卷积[51]、[52]和扩张卷积[10]、[11]。为了在不丢失分辨率的情况下扩大接受域,我们在GCN层中引入了扩张聚合。我们采用扩张k-NN [11]在MHGA的每个图学习阶段产生的特征空间中的最近邻重新计算图。扩张k-NN可以在k × d邻域区域内返回k个最近邻,通过跳过每d个邻居(见图3)。

表示顶点v的d-扩张邻域, 是排序后的前k × d个最近邻,那么d-扩张邻域顶点 可以表示为:
扩张聚合操作使得有效接受域呈指数级扩展,而无需借助大核卷积或下采样,从而减轻了分辨率损失问题。d) 多头更新操作:在本工作中,GCN层通过引入多头更新操作得到增强。我们首先将GCN层的聚合特征hvs+1分割成h个头,即 ,然后分别更新这些头。最后,我们通过并行连接这些具有不同权重的头来更新最终的特征表示:
多头更新操作通过在多个几何表示子空间中更新顶点特征来增强特征多样性。

D. 变换器编码层

HGPT中用于长期依赖建模的变换器编码层源自金字塔视觉变换器(PVTv2)[53],它通过引入线性空间缩减注意(LSRA)增强了标准变换器[43]中的多头自注意力(MHSA)。LSRA的一个关键优势在于在注意力操作之前降低了K和V的空间尺度,它像卷积层一样享有线性计算复杂度和内存开销。LSRA的细节可以如下公式化:
其中W_O ∈ RC×C表示线性投影参数,C表示通道数。否则,Hj表示每个头部的注意力系数,可以如下公式化:
其中 , 和






请到「今天看啥」查看全文