GASA-UNet：用于医学图像分割的全局轴向自注意力U-Net

小白学视觉 · 公众号 · · 2024-11-07 10:24

正文

点击下方“ ReadingPapers ”卡片，每天获取顶刊论文解读

论文信息

题目：GASA-UNet: Global Axial Self-Attention U-Net for 3D Medical Image Segmentation

GASA-UNet：用于3D医学图像分割的全局轴向自注意力U-Net

作者：Chengkun Sun，Russell Stevens Terry，Jiang Bian， Jie Xu

论文创新点

全局轴向自注意力（GASA）块的提出 ：作者提出了一个创新的3D自注意力块，称为 全局轴向自注意力（GASA） 块。这个块被设计为利用ViT的全局注意力优势，同时将体素级空间细节纳入3D局部特征中。这是通过在不替换U-Net架构中的编码器和解码器的情况下，作为一个额外的分支集成到U-Net架构中实现的。
改进的视觉Transformer框架 ：作者的模型在修订的视觉Transformer框架内合并了全局和局部特征，赋予了U-Net模型3D全局轴向自注意力能力，同时 参数增加最小 。这种设计提高了特征的可辨性，同时保留了U-Net在详细局部特征提取方面的基础优势。
新的补丁生成方法 ：作者的模型引入了一种新的补丁生成方法，该方法利用三个2D卷积核，通过先进的空间编码改进了语义相似特征的区分。这包括扩展自注意力值的输出，连接通道维度，并使用位置嵌入，从而增强了模型对细微分类和模糊器官边界的处理能力。

摘要

在医学成像中，对多个器官进行精确分割以及区分病理组织是至关重要但又具有挑战性的任务，尤其是在对细微分类和模糊器官边界的处理上。为了应对这些挑战，作者介绍了GASA-UNet，这是一个改进的U-Net模型，特点是引入了一个新颖的全局轴向自注意力（GASA）块。该块将图像数据作为3D实体处理，每个2D平面代表不同的解剖横截面。在此空间上下文中定义体素特征，并利用多头自注意力（MHSA）机制对提取的1D补丁进行处理，以促进这些平面之间的连接。将位置嵌入（PE）纳入我们的注意力框架中，为体素特征增加了空间上下文，增强了组织分类和器官边缘勾勒。作者的模型在分割性能上显示出了有希望的改进，特别是在较小的解剖结构上，这一点通过在三个基准数据集，即BTCV、AMOS和KiTS23上的Dice分数和标准化表面Dice（NSD）得到了证明。

GASA-UNet

作者的GASA-UNet模型建立在流行的U-Net样式的3D编码器-解码器架构之上，通过引入一个新颖的GASA块。

GASA块

GASA块是作者提出模型的核心组件。它旨在利用ViT的全局注意力优势，同时将体素级空间细节纳入3D局部特征。图2展示了GASA块的示意图。对输入进行沿宽度（W）、高度（H）和深度（D）轴的三个卷积、和，每个卷积生成一个1D补丁。这些生成的补丁随后根据其各自的W、H和D轴顺序连接在一起。具体而言，W轴方向的卷积核大小设置为与全局特征的H × D维度相匹配。相应地，对于H轴方向，卷积核跨越W × D维度，而对于D轴方向，卷积核覆盖W × H维度。生成的补丁总数是W、H和D维度的总和。对于这些2D卷积的输入通道深度与全局特征相同，而输出通道深度是预设的，默认值为25——这一参数将在作者的消融研究中进一步探讨。补丁生成过程的数学表示如下：

其中表示输入的3D特征，、和分别表示沿W、H和D轴生成的补丁。表示聚合的补丁。这里，、和表示沿W轴、H轴和D轴的切片数量。补丁生成后，这些补丁直接输入到MHSA块中以计算GASA注意力值。这个特定的MHSA块是从ViT架构中改编而来，但通过省略通常包含的MLP层来简化结构。该块内的注意力机制处理输入补丁，使模型能够专注于图像的不同部分并提取相关特征。GASA注意力值的计算公式如下：

其中、和分别对应查询、键和值。

GASA-UNet：用于医学图像分割的全局轴向自注意力U-Net

正文

点击下方“ (adsbygoogle = window.adsbygoogle || []).push({}); ReadingPapers ”卡片，每天获取顶刊论文解读 论文信息

点击下方“ (adsbygoogle = window.adsbygoogle || []).push({}); ReadingPapers ”卡片，每天获取顶刊论文解读

论文信息