专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

SAM-MED2D

FightingCV · 公众号 · · 2025-02-20 09:00

正文

摘要

分割任何事物模型 (SAM) 代表了自然图像分割领域最先进的研究进展，通过点和边界框等输入提示取得了令人印象深刻的结果。然而，我们的评估和近期研究表明，直接将预训练的 SAM 应用于医学图像分割并不能得到令人满意的性能。此限制主要源于自然图像和医学图像之间显著的领域差异。为了弥合这一差距，我们引入了 SAM-Med2D，这是关于将 SAM 应用于医学二维图像最全面的研究。它的全面性体现在三个方面：对收集最大医学数据集的全面分析、对各种微调选项最全面的研究以及对性能最全面的评估。具体来说，我们首先从公共和私有数据集收集和整理大约 460 万张图像和 1970 万个掩码，构建了一个包含各种模态和物体的规模庞大的医学图像分割数据集。然后，我们在这个数据集上对 SAM 进行全面微调，并将其转换为 SAM-Med2D。与以前仅采用边界框或点提示作为交互式分割方法的方法不同，我们通过包含边界框、点和掩码的更全面的提示来使 SAM 适应医学图像分割。我们还对原始 SAM 的编码器和解码器进行了微调，以获得性能良好的 SAM-Med2D，从而实现了迄今为止最全面的微调策略。最后，我们进行了全面的评估和分析，以研究 SAM-Med2D 在各种模态、解剖结构和器官的医学图像分割中的性能。同时，我们在 MICCAI 2023 挑战赛的 9 个数据集上验证了 SAM-Med2D 的泛化能力。总体而言，与 SAM 相比，我们的方法表现出明显优越的性能和泛化能力。我们的代码可在 https://github.com/uni-medical/SAM-Med2D 找到。

1 引言

医学图像分割在医学图像分析中扮演着至关重要的角色，它通过识别和描绘各种组织、器官或感兴趣区域来实现。精确的分割可以帮助医生精确识别和定位病理区域，从而实现更准确的诊断和治疗 [1] 。此外，医学图像的定量和定性分析提供了对不同组织或器官的形态、结构和功能的全面见解，促进了疾病研究和发现 [2] 。然而，由于医学影像的特性，例如多种模态、复杂的组织和器官结构以及可用的标注数据有限，大多数现有方法仅限于特定的模态、器官或病灶 [3, 4, 5] 。这种限制阻碍了算法的泛化能力和适应性，使得将其应用于不同的临床场景变得具有挑战性。

图1 : SA-1B (a) 和我们数据集 (b) 中示例的比较。 SA-1B 包含 1100 万张自然图像及其对应的 11.29 亿个掩码。我们的数据集包含 460 万张医学图像及其对应的 1970 万个掩码。

最近，大型模型的趋势在整个 AI 领域引起了轰动。通用人工智能模型的出现，例如 ChatGPT ¹ ，ERNIE Bot ² ，DINO [6] ，SegGPT [7] ，SAM [8] ，促进了使用单个模型来解决多个任务。作为最新的大型视觉模型，SAM 允许用户通过交互式点击、边界框或提供自然语言提示来为感兴趣的特定区域生成掩码。其在自然图像上的零样本和少样本能力 [9, 10] 已在各个领域引起广泛关注。

在医学影像领域，一些研究 [11, 12, 13, 14, 15] 也关注了 SAM 的零样本能力。然而，由于自然图像和医学图像之间存在显著的领域差异，SAM 难以泛化到多模态和多目标医学数据集，导致跨数据集的分割性能不稳定。其原因可归因于数据收集方法：医学图像从某些协议和扫描仪收集，并由于其特殊的临床目的而呈现为不同的模态（电子、激光、X 射线、超声、核物理和磁共振）。因此，这些图像基于一系列基于物理的属性和能源，这与自然图像大相径庭。如图 1 所示，自然图像和医学图像在像素强度、颜色、纹理和其他分布特征方面存在显著差异。因此，SAM不能直接应用于医学领域这一限制是可以预期的 [11, 12, 13, 14, 15] ：鉴于SAM仅在自然图像上进行训练，它缺乏与医学影像相关的特定知识。

由于标注成本高昂且标注质量参差不齐，为SAM配备医学知识非常困难。准备医学数据需要领域知识，其质量在不同医院和临床研究之间差异显著。这些挑战导致医学图像和自然图像数量之间存在显著差异。图 1 中的条形图比较了公开可用的自然图像数据集和医学图像数据集的数据量。例如，医学领域最大的公共分割数据集Totalsegmentor与Open Image v6 [42] 和SA-1B [8] 相比，也存在显著差距。在这项研究中，我们的目标是将SAM从自然图像迁移到医学图像。这将为医学图像分析的研究人员提供基准模型和评估框架，以供他们探索和改进。为实现这一目标，我们提出了SAM-Med2D，这是关于将SAM应用于医学二维图像的最全面的研究，它解决了以下问题：

图2 ： SAM在各种医学场景中进行交互式分割的结果。

表1 ： SAM微调模型的比较。我们的SAM-Med2D是一种全面的微调方法，它支持在医学图像上使用多个提示来生成掩码。

Model	Dataset (size)	Encoder	Prompts mode			Decoder
Model	Dataset (size)	(or Adapter)	Point	Bbox	Mask	Decoder
SAM-U [16]	6000 masks	✘	✘	✔	✘	✘
SAMed [17]	3779 masks	✔	✘	✘	✘	✔
AutoSAM [18]	ACDC [19]	✘	✘	✘	✘	✔
MedSAM [20]	∼ 1.1M masks	✘	✘	✔	✘	✔
MSA [21]	5 datasets	✔	✔	✘	✘	✔
SAM-Med2D (Ours)	∼ 19.7M masks	✔	✔	✔	✔	✔

• 如何针对医学影像领域微调SAM？

1) 我们需要将医学影像知识整合到SAM中，因此我们收集并整理了一个医学影像分割数据集，包含超过460万张图像和1970万个掩码。据我们所知，该数据集代表着最大的医学影像分割数据集，包含多种模态并涵盖全面的目标。表格 1 展示了在特定有限规模医学数据集上微调SAM的方法。虽然这些方法已被证明有效，但它们仅增强了SAM在类似于训练数据集的特定场景中的分割能力。因此，它们在更广泛的医学影像分割任务中的适用性有限。

2) 在将SAM迁移到医学领域时，不同的提示模式在不同的分割任务中发挥着重要作用。如图 2 (c)所示，使用边界框提示可以获得相对准确的息肉掩码。相反，点击前景点时（d列），掩码质量较差。随着点击次数的增加，分割结果逐渐改善，甚至超过了边界框提示的性能（例如，肝脏分割）。在分割心肌时，使用边界框提示可能会在结果中包含无关区域，而点提示允许我们逐步获取所需的掩码。因此，本文旨在微调三种提示模式（点、边界框和掩码），以满足医学影像分割任务中不同场景的要求。根据表格 1 ，我们的方法与其他方法相比，涉及更全面的微调，这意味着我们的方法在医学影像领域拥有更广泛的提示分割能力。

3) 适配器已被证明是微调大型模型的有效策略 [21, 43] 。它们不需要重新训练整个模型，从而确保不会遗忘原始知识。这使得现有模型能够在新的和原始任务中都表现出色。由于适配器具有参数共享特性，它们促进了不同任务之间的迁移学习。因此，本文将适配器应用于SAM的编码器，以学习医学影像领域的特定领域信息。此外，适配器层是一个即插即用的组件，允许我们根据具体需要选择在测试过程中保留或移除它。

• 如何评估SAM-Med2D的性能？

为了全面评估SAM-Med2D在医学影像领域的性能，我们从多个角度评估了其能力。我们关注以下几个方面： 1）数据多样性：我们在各种影像模式（如CT、MR、X射线）以及不同的器官和多种病理状况（如肿瘤、炎症等）上评估了SAM-Med2D，以确保其能够分割不同类型的医学影像。 2）微调策略：我们将SAM-Med2D的默认微调策略与其他替代策略（例如，不同的模型配置）进行比较，以证明SAM-Med2D在医学影像领域取得的成功。 3）泛化能力：我们使用9个MICCAI2023数据集评估了SAM-Med2D的鲁棒性，以确保其在未见过的医学影像环境中能够进行准确的分割。

通过全面评估，我们发现SAM-Med2D具有以下能力： 1）医学专业知识：与SAM相比，SAM-Med2D在处理复杂的器官结构、病灶和边界模糊的病例方面表现出优越的性能。这意味着SAM-Med2D能够准确识别和分割医学图像中的挑战性区域，从而提供更精确的诊断和治疗支持。 2）广泛的分割能力： SAM-Med2D在各种提示模式下展现了广泛的分割能力，使其能够在不同的场景中完成分割任务。这意味着医生和医学影像专业人员可以使用SAM-Med2D进行更精确和准确的分割操作，从而提高医学图像分析结果的效率和可靠性。 3）泛化能力： SAM-Med2D展现出强大的泛化能力，可以直接应用于未见过的医学影像数据并产生良好的分割结果。

2 相关工作

大规模视觉模型 (LVM)。受ChatGPT和GPT-4 ³ 等大型语言模型的启发，研究人员开发了类似的LVM，包括 [7, 8, 22, 23, 24, 25, 26] 。这些模型展现出杰出的零样本和少样本泛化能力，能够通过预训练和微调范式快速适应和扩展到目标任务或领域。其中，CLIP [23] 提供了一个统一的视觉和语言模型，可用于各种任务，包括分类、检测和视觉问答。通过在文本和图像对上进行广泛的预训练，该模型在多个基准测试中取得了令人印象深刻的结果。 DALL·E [25] 是大型Transformer模型GPT-3的一个变体，经过训练可以根据文本描述生成图像。最近，在10亿个掩码上进行预训练的SAM [8] 已成为一种通用的用于图像分割的LVM。它展现了强大的零样本能力，允许对任何物体进行交互式或自动分割。相反，SegGPT [7] 通过将各种分割数据转换为标准化格式的图像，将不同的分割任务统一到单个上下文学习框架中。此外，SEEM [26] 提出了一种通用的接口，该接口使用多模态提示来同时分割图像或视频中的所有内容并识别物体类别。然而，这些大型视觉模型 (LVMs) 并未针对医学影像分析 (MIA) 领域进行明确优化。

在医学影像分析中微调 SAM。 SAM 为交互式分割提供了一个优秀的框架，使其成为基于提示的医学图像分割的基准模型。然而，由于自然图像和医学图像之间存在显著的领域差异，SAM 应用于医学图像时的性能显著下降 [16, 17, 18, 20, 21] 。当前的研究主要集中在针对特定的医学分割数据集微调 SAM。 Deng 等人 [16] 提出了一种多框提示触发不确定性估计方法用于 SAM，在视网膜图像分割方面取得了显著改进。 Zhang 等人 [17] 对 SAM 编码器应用了一种基于低秩的微调策略，同时对解码器进行微调以完成腹部分割任务。 Hu 等人 [18] 放弃了 SAM 原有的提示编码器，并构建了不同类型的预测头进行微调以完成自动心脏分割。 Ma 等人 [20] 收集了 11 种不同模态的医学影像数据，并在超过 100 万个掩码上对 SAM 的掩码解码器进行了微调，同时保留了原始的边界框提示。与上述研究相反，Wu 等人 [21] 提出了 MSA，该方法使用简单的适配器技术将医学特定领域知识集成到 SAM 中，并在 19 个医学图像分割任务上进行了验证。这些研究表明，微调或适配器技术可以提高 SAM 在医学图像分割中的性能。与上述仅提供边界框或点提示的方法不同，我们通过使用更全面的提示（即边界框、点和掩码）来使 SAM 适应医学图像分割。此外，我们通过考虑医学图像中不同的成像模态、解剖结构和器官，全面分析了我们的方法在医学图像分割中的性能和挑战。

SAM 在医学影像中的零样本评估。最近的研究报道了 SAM 在医学图像分割中的零样本性能。 Deng 等人 [27] 研究了 SAM 在不同提示条件下对肿瘤和组织任务的分割能力，实验结果表明 SAM 仅在分割大型连通物体方面表现更好。 Hu等人 [28] 评估了点提示对SAM在CT体积中多阶段肝肿瘤分割性能的影响。结果表明，随着点提示数量的增加，SAM的性能得到提高。 Zhou等人 [12] 在无提示的情况下测试了SAM在结肠镜息肉分割中的性能，结果表明将SAM应用于息肉分割任务时仍有很大的改进空间。 Cheng等人 [29] 在12个开源医学图像数据集上广泛评估了以下模型：无提示模型、具有1、3和10点提示的模型以及具有5个不同抖动水平的框提示模型。与最先进的结果相比，SAM的性能普遍较低。同样，Huang等人 [15] 使用三种不同的提示评估了SAM在52个公共数据集上的零样本性能，评估结果一致表明SAM在各种医学图像分割任务中的性能令人不满意。我们认为，分析SAM在大规模医学图像数据集上的性能至关重要。这可以帮助社区更好地理解影响模型感知医学物体能力的因素。这些因素有助于改进通用医学分割方法的开发。因此，本研究从多个角度对SAM-Med2D进行了全面的评估。

图3 ：本研究中使用的数据集概述。 (a) 共31个主要器官及其相应的解剖结构，其中星号(*)表示数据集中存在病变标签。 (b) 给出了数据集的模态分布及其相应的比例（对数刻度）。 (c) 按解剖结构分类的图像和掩码数量，以及包含数据集的总数。

3 方法

3.1 将医学知识融入SAM

最近的研究再次证实了训练数据量在大型模型学习能力中的关键作用 [7, 8, 23] 。通过学习更大规模的数据，模型可以获取更丰富的特定领域知识，并更好地适应各种应用场景。尽管SAM接受了超过10亿个掩码的训练，但由于自然图像和医学数据之间存在显著的领域差异，其在医学图像分析领域的性能仍未达到最佳状态。为了解决这一差距，我们收集并整理了迄今为止最大的医学图像分割数据集。该数据集由众多公共和私有数据集组成，确保了全面的覆盖范围和多样性。图 3 (b) 显示了该数据集的10种不同的影像模式及其对应的数据比例。为了增强视觉效果，我们使用了对数尺度来显示数量差异。基于解剖结构和病变的存在，我们将数据集分为头部和颈部、胸部、腹部、盆腔和病变（图 3 (c)）。此外，我们从这些数据集中的271个标签中整理和整合了31个主要器官，如图 3 (a)所示。这涵盖了当前可用公共数据集中几乎所有类型的对象，解决了SAM在医学领域知识方面的不足。

为了有效地将SAM应用于医学图像分割，我们从多个角度对数据集进行了预处理。首先，对于3D数据集，我们将每个体积的强度值归一化到[0, 255]范围，并沿x、y和z轴提取所有切片图像及其对应的掩码。在提取过程中，我们丢弃了最短边小于最长边长度一半的切片图像，以防止在调整长宽比很大的图像时目标区域变得极其模糊。对于2D数据集，我们只检查像素值是否在[0, 255]范围内，并将所有处理后的图像保存为PNG格式，以保持数据加载的一致性。其次，当一个掩码包含多个类别时，我们生成多个掩码，每个掩码只包含一个类别（类似于sam1B [8] ）。我们还将具有多个连通分量的掩码（例如，左右肺）拆分成多个具有单个连通分量的掩码。如果存在多个器官且仅包含一个连通分量，我们将保留该掩码以增加数据多样性。最后，我们排除了目标区域小于图像总面积的0.153%（ 100 256 × 256 ）的掩码，这意味着当图像调整为256×256时，其目标区域必须超过100像素。

通过这些步骤，我们获得了大约460万张图像和1970万个掩码。我们根据图像索引随机划分80%的数据用于训练，20%的数据用于测试。训练集包含大约367万张图像和1580万个掩码，而测试集包含92万张图像和390万个掩码。我们还引入了9个MICCAI2023数据集（包含约52万张图像和131万个掩码），这些数据集仅用于验证模型的泛化能力。我们相信，通过更全面和多样化的训练数据，SAM将更好地适应医学影像领域的复杂性和细微之处，为医疗保健应用提供更准确和可靠的支持。这也将为医学图像分割领域的研发带来新的机遇和挑战。

图4 ： SAM-Med2D 的流程。我们冻结图像编码器，并在每个Transformer块中加入可学习的适配器层，以获取医学领域的特定领域知识。我们使用点、边界框和掩码信息微调提示编码器，同时通过交互式训练更新掩码解码器的参数。

3.2 从SAM到SAM-Med2D的过渡

在介绍SAM-Med2D之前，让我们简要回顾一下SAM架构。 SAM由三个主要组件组成：一个大型图像编码器、一个提示编码器和一个轻量级掩码解码器。此框架允许根据不同的提示为同一图像生成不同的掩码。图像编码器利用预训练的视觉Transformer (ViT) [22] 处理高分辨率输入，并输出原始图像1/16比例的特征图。提示编码器包括稀疏提示和密集提示，将点、边界框或文本映射到256维向量，并在每一层应用卷积下采样，并使用GELU激活函数。掩码解码器接收来自两个编码器的嵌入信息，并通过交叉注意力机制更新图像嵌入和提示嵌入。在这项工作中，我们对SAM进行了微调，创建了SAM-Med2D，有效地将该框架扩展到医学图像领域。我们现在将详细讨论SAM-Med2D的每个组件和微调策略。

A. 适应图像编码器

作为SAM中参数最密集的部分，在微调过程中全局更新图像编码器会产生巨大的计算成本。为了以较低的成本将医学领域知识融入图像编码器，我们引入了适配器技术。具体来说，我们在微调过程中冻结原始图像编码器的所有参数，并在每个Transformer块中部署一个适配器，如图 4 所示。我们沿通道和空间维度都对图像编码器进行了调整。对于通道维度，我们首先使用全局平均池化将输入特征图的分辨率压缩到C×1×1。然后，我们使用一个线性层压缩通道嵌入，并使用另一个线性层恢复它们，压缩率为0.25。最后，我们通过sigmoid函数获得通道维度的权重，并将它们与输入特征图相乘，作为下一层的输入。对于空间维度，我们使用卷积层将特征图的空间分辨率下采样两倍，并使用转置卷积恢复空间分辨率，同时保持与输入相同的通道数。在每个适配器层之后添加一个跳跃连接。

B. 提示编码器和掩码解码器

SAM中的提示编码器支持四种类型的提示：点、边界框、掩码和文本提示。由于缺乏用于医学图像-文本对齐的大规模预训练模型，因此文本提示的使用受到限制。因此，我们只考虑剩余的三种提示模式进行微调。与之前仅微调单个提示的方法 [20, 21] 相比，我们保留了提示的完整功能，并增强了其在医学影像领域的适用性。具体来说，SAM-Med2D同时利用稀疏提示（点和边界框）和密集提示（掩码）。对于稀疏提示，每个点表示为其位置编码的向量嵌入，以及指示其前景或背景位置的两个学习嵌入的总和。每个边界框使用其左上角和右下角的位置编码，以及表示“左上角”和“右下角”的学习嵌入作为向量嵌入。对于密集提示，我们使用模型第一次迭代后生成的低分辨率特征图作为掩码提示，应用两个卷积嵌入，将输入掩码的比例缩小4倍，输出通道为原始输入的1/4和1/16。最后，使用一个1×1卷积将通道维度映射到256。

我们没有对掩码解码器结构进行任何更改，并在训练期间持续更新其参数。为了使模型具有模糊感知能力，每个提示同时预测多个掩码（默认为三个）。在反向传播期间，我们选择预测掩码与真实值之间具有最高交并比（IoU）分数的掩码来计算损失，并相应地传播梯度。我们将前一次迭代生成的低分辨率特征图映射到[0, 1]范围内，作为当前迭代的密集提示。在实际训练过程中，我们观察到即使只有稀疏提示，模型也能快速收敛，这降低了密集提示的影响。因此，我们采用SAM的训练策略，在最后一次迭代和一次随机中间迭代中，我们只提供密集提示，以鼓励模型从提供的掩码中获益。

C. 微调策略

与SAM和其他交互式分割方法 [30] 类似，我们通过模拟交互式分割来训练SAM-Med2D。对于每一批数据，我们训练模型9次迭代。在第一次迭代中，我们以相等的概率随机选择前景点或边界框作为稀疏提示。前景点从真实值中采样，边界框是真实值的最大外接矩形，每个坐标最多偏移五个像素。值得注意的是，除了第一次迭代（其中适配器层、提示编码器和掩码解码器的参数同时更新）之外，后续迭代只更新掩码解码器的参数。从第二次迭代开始，我们从先前掩码预测与真实值之间的误差区域随机选择1、3、5或9个点作为后续稀疏提示，允许用户执行单点或多点交互式分割。 SAM-Med2D旨在通过专门针对医学影像领域调整SAM框架来改进医学影像的分割。它结合了适配器技术，扩展了提示的功能，并使用基于模拟交互式分割的微调策略。

3.3 评估SAM-Med2D

为了更深入地了解影响算法感知医学目标能力的因素，从而改进方法并提高其在实际应用中的有效性，全面的性能评估对于研究界至关重要。然而，之前的评估 [11, 12, 13, 15] 受到数据稀缺和缺乏通用医学图像分割方法基准的限制，导致评估仅限于小规模数据集和有限的类别，未能充分揭示算法的优势和适用性。为了解决这一研究空白，我们将对SAM-Med2D进行全面而多维的评估，为未来研究人员提供交互式分割方法的基准。

在模型方面，我们以SAM作为基线模型，并从其交互方法中选择两种直观的提示模式，Bbox和Points，来评估SAM-Med2D。这样选择的理由是Bbox和点是常用的交互模式，可以作为简单有效的标注方法。通过评估SAM-Med2D在这两种交互模式下的性能，我们可以深入研究它们在医学图像分割任务中的优势和局限性。边界框交互模式引导算法通过用框框住目标来执行分割，这种方法直观易懂。它提供了目标的粗略位置和形状信息，从而引导算法执行更精确的分割。然而，在某些情况下，用边界框精确地包围目标可能具有挑战性，特别是对于形状复杂的、边缘模糊的或重叠的目标。这可能导致分割结果不准确以及出现漏分割的情况。另一方面，点交互模式引导算法通过标记目标的关键点或区域来执行分割。此模式可以提供更精确的分割指导，尤其适用于形状复杂或具有局部细节的目标。这些评估将帮助我们更深入地理解不同交互模式在医学图像分割中的优势和局限性，从而启发研究人员设计和开发更灵活、更高效的交互模式。

在数据方面，我们将评估SAM-Med2D在10种不同模态的医学图像上的性能，包括MRI、CT、超声等。这项全面的评估将使我们能够理解SAM-Med2D在特定模态下的优势和挑战，并揭示其在多模态图像中的潜在应用能力。不同的医学图像模态具有不同的特性和噪声来源，因此评估SAM-Med2D在这些模态上的性能将更全面地了解其适用性和鲁棒性。此外，考虑到不同的解剖结构和器官具有独特的形态、特征和变化模式，我们对四个解剖结构和31个主要器官进行了SAM-Med2D的评估。此类评估帮助我们深入了解SAM-Med2D在不同场景下的性能差异，并能够针对性地改进以解决特定结构和器官的挑战。最后，我们非常重视SAM-Med2D的泛化能力，因此在9个MICCAI 2023数据集上对其进行了测试。这些数据集代表了来自不同来源、机构或设备的医学图像，提供了多样性。通过在这些数据集上评估SAM-Med2D，我们可以验证其对新数据的泛化能力。这对于验证我们的方法在广泛的临床场景和数据来源中的适用性至关重要。

通过以上综合评估，我们将能够深入了解SAM-Med2D的性能和适用性，为未来的研究人员和开发者提供宝贵的参考和基准。这些评估结果将对医学图像分割的发展产生积极影响，促进更准确、更高效方法的设计和应用。

4 实验与评估

4.1 实现细节

我们的方法在PyTorch中实现，并在8个NVIDIA Tesla A100 GPU上进行训练，每个GPU具有80GB内存。考虑到内存限制，在这项工作中我们只对SAM的基础模型（SAM-B）进行微调。我们使用Adam优化器，初始学习率为1e-4，共训练12个epoch，在第7个和第10个epoch时学习率减半。在训练过程中，所有图像都被调整大小到256x256的分辨率。我们的调整大小策略包括：对于宽度和高度都小于256的图像，使用零填充边缘；对于其他情况，使用双线性插值调整图像大小。对于每张图像，我们随机选择5个对应的mask。如果可用mask数量较少，我们将随机复制样本。为了充分利用GPU内存，每个GPU处理50张图像及其对应的250个mask。监督mask预测的损失函数是focal loss [31] 和dice loss [32] 的线性组合，比例为20:1。此外，还使用了交并比（IoU）预测与预测mask和真实mask之间的均方误差损失进行训练。我们使用Dice系数来评估分割结果。

表2 : 测试集上不同方法的定量比较。

Model	Resolution	Prompt mode (%)				FPS
Model	Resolution	Bbox	1 pt	3 pts	5 pts	FPS
SAM [8]	256 × 256	61.63	18.94	28.28	37.47	51
SAM [8]	1024 × 1024	74.49	36.88	42.00	47.57	8
FT-SAM	256 × 256	73.56	60.11	70.95	75.51	51
SAM-Med2D	256 × 256	79.30	70.01	76.35	78.68	35

4.2 定量评估

A. 整体性能。表格 2 展示了SAM、FT-SAM（仅微调掩码解码器）和我们的SAM-Med2D在测试集上的整体性能结果。我们发现，在边界框提示（Bbox提示）模式下，FT-SAM的Dice评分比SAM提高了11.93%，而我们的SAM-Med2D实现了更显著的性能提升，Dice评分达到79.30%（即提高了17.67%）。这表明在大规模数据集上进行微调可以带来更好的目标领域迁移能力。我们还在点提示模式下模拟了交互式分割。在此模式下，我们从前景随机采样一个点作为第一个提示点，后续提示点在分割结果与真实值之间的误差区域内随机选择。此外，上一迭代生成的低分辨率掩码与之前的提示点一起作为模型的输入。实验结果表明，即使分辨率为1024×1024，SAM在使用单个点提示时性能较差，Dice评分比FT-SAM低23.23%。随着提示点数的增加，不同模型的性能显著提高，微调方法甚至超过了Bbox提示模式。这证明了在医学图像中使用基于点的交互式分割的可行性和有效性。此外，SAM在1024×1024分辨率下的整体分割性能低于微调方法。这表明微调模型学习了医学领域的特定知识，并且低成本的微调是一种有效且可行的方法，可以减少领域差异。

图5 ： (a) 从解剖结构的角度进行比较。 (b) 从不同模态的角度进行比较。 (c) FT-SAM 和我们的 SAM-Med2D 在 31 个器官上的分割性能比较。

B. 解剖结构的性能评估。如图 5 (a) 所示，我们评估了不同模型和分辨率在头部和颈部 (H&N)、胸部 (Tx)、腹部 (Abd)、骨盆 (Pl) 和其他区域的分割性能。 “其他区域”包括病灶和上述四个解剖结构以外的病例。我们主要关注的是使用 Bbox 提示和单点提示 (1 pt prompt) 的模型的分割性能。

我们观察到，当使用 Bbox 提示时，SAM（分辨率为 1024 ×1024）在 Tx、Abd 和其他区域的性能优于 FT-SAM。然而，它在 H&N 区域的表现较差。这可以归因于 H&N 区域病灶或器官的相对较小尺寸，以及边界不够清晰，使得模型难以在没有微调的情况下适应这种类型的分割任务。与其他方法相比，我们的 SAM-Med2D 在所有解剖结构中的 Dice 系数方面均显示出优势。由于单点提示提供的信息有限，不同类别之间存在性能差异。有趣的是，我们发现微调后的 SAM 显著优于原始 SAM。这是因为微调方法从大规模医学图像数据集中学习了目标区域内点的空间关系，从而能够做出更准确的决策。

基于上述结果，我们得出结论：SAM-Med2D 在不同解剖结构的分割任务中表现出色，在骨盆和胸部区域的 Dice 指标方面取得了令人满意的结果。然而，值得注意的是，头部和颈部区域的性能在不同模型和分辨率下似乎相对较差，这表明需要采取额外的改进措施。

表 3 : 点提示模式下的分割性能。左侧数值表示不同模型在1点提示下的Dice系数。括号中的数字表示5点提示后Dice系数的增量，红色表示提升，绿色表示下降。

Modal	SAM [8]	SAM [8]	FT-SAM	SAM-Med2D
Modal	( 256 × 256 )	( 1024 × 1024 )	( 256 × 256 )	( 256 × 256 )
CT	20.87( Δ 18.62 )	48.36( Δ 12.74 )	67.91( Δ 13.81 )	77.34( Δ 6.75 )
MR	15.25( Δ 18.41 )	16.45( Δ 7.07 )	46.36( Δ 18.17 )	57.16( Δ 12.02 )
PET	15.12( Δ 25.09 )	34.52( Δ 8.93 )	59.58( Δ 11.58 )	78.58( Δ 2.42 )
Dermoscopy	58.01( Δ 10.01 )	55.28( Δ 11.38 )	83.86( Δ 6.82 )	87.69( Δ 4.34 )
Endoscopy	39.94( Δ 13.84 )	56.92( Δ 10.64 )	57.17( Δ 20.56 )	60.34( Δ 12.13 )
Fundus	33.67( Δ 28.50 )	22.99( Δ 27.93 )	62.57( Δ 14.62 )	76.86( Δ 6.51 )
Histopathology	36.55( Δ 31.92 )	79.96( ↓ 0.20 )	79.70( Δ 7.99 )	76.89( Δ 4.31 )
Microscopy	44.92( Δ 15.05 )	78.98( ↓ 0.55 )	70.27( Δ 13.63 )	60.83( Δ 13.50 )
Ultrasound	15.89( Δ 14.51 )	15.81( Δ 19.85 )	55.05( Δ 23.46 )	74.81( Δ 10.33 )
X-ray	23.40( Δ 11.04 )	23.12( Δ 16.56 )	44.06( Δ 25.84 )	64.30( Δ 12.13 )

C. 不同模态的性能评估。图 5 (b) 总结了四种方法在不同模态数据下Bbox提示模式下的性能。四种方法在皮肤镜检查、内窥镜检查、眼底照相、组织病理学和显微镜检查中均取得了超过70%的Dice系数。当以 1024 × 1024 分辨率部署预测图像时，SAM在内窥镜检查、组织病理学和显微镜检查模式下优于其他方法。我们将此结果归因于以下因素：1）这三种模态来自二维数据集，并包含RGB图像，与自然图像具有相似性。 2）可用于微调的数据量有限，限制了微调方法的性能（如图中红色线条所示，代表对数变换的掩码计数）。 3）更大的图像分辨率提供了更多细节，并导致更高的预测性能。在相同的分辨率设置下，我们的SAM-Med2D显著优于SAM，并且可以有效地处理来自所有成像模态的数据。由于包含不同类型的对象和数据规模的变化，直接比较不同模态的性能可能是不公平的。