医学图像分割及视频目标分割对于识别和测量生物结构,从而辅助诊断和分析疾病至关重要。自然领域近期的发展推动了像 Segment Anything Model 2(SAM 2)这样的基础模型的进步。
为了探索 SAM 2 在生物医学应用中的性能,作者设计了两个评估 Pipeline ,用于单帧图像分割和多帧视频分割,采用不同的提示设计,揭示了 SAM 2 在医学环境中的局限性。因此,作者开发了 BioSAM 2,这是一个根据 SAM 2 优化的高级基础模型,用于生物医学数据。
作者的实验表明,BioSAM 2 不但超越了现有最先进的基础模型性能,还可以与专业模型相媲美,甚至超过它们,证明了它在医学领域的有效性和潜力。
1 引言
医学图像分割对于识别生物结构和测量它们的形态,有助于各种疾病的诊断和分析。然而,尽管医学影像技术取得了许多进步,分割仍然是一个巨大的挑战,因为医学图像的复杂性和进行精确标注所需的大量手动努力。传统方法通常需要详细的手工标注,这不仅是耗时的,而且还容易犯 human error。
最近,分割基础模型(如 Sam)的出现显着推动了天然图像分割领域的进步。SAM 在提示输入下展示了令人印象深刻的零样本分割性能,显示了出色的通用性,并成为了各种分割任务的新的标准[6]。为了将 SAM 的能力扩展到医学领域,已经提出了许多工作,其中 MedSAM 是一个代表。MedSAM 通过结合特定领域的知识修改了 SAM 的架构,以解决医学图像独特的挑战,如变化的对比度、噪声水平和人工制品的存在[11]。这种方法在医学图像分割方面取得了显著的改进,利用了 SAM 的基础模型,同时为医学应用进行了调整。
意识到需要将其能力扩展到更复杂的场景,SAM 2 开发了以包括视频输入的功能扩展 SAM。这使得 SAM 2 能够处理图像的时间序列,使其适合需要理解多个帧的时空连续性。通过处理空间和时间维度,SAM 2 在涉及自然图像和视频分割的各种任务上展示了零样本的惊人性能。
然而,SAM 2在医学分割任务上的潜力尚未完全探索。作者进行了全面的评估以研究其能力。具体而言,作者在6种医学模式和9个感兴趣目标的条件下评估了SAM 2的四个变体(Hiera-T, Hiera-S, Hiera-B+, 和Hiera-L)的性能。作者设计了两套评估 Pipeline ,分别针对单帧图像分割和多帧视频分割,包括各种不同的提示设计。为了进一步评估性能,作者将它与各种 Baseline 模型进行了对比,包括基于CNN、Transformer和SSM的模型,使用各种指标。作者的发现表明,SAM 2不能直接用于医学图像或视频分割。主要原因是自然数据与医学数据之间的显著领域差距以及SAM 2无法将分割区域与有意义语义类别关联。换句话说,SAM 2不能在医学领域执行语义分割,这限制了其在计算机辅助诊断中的应用。
在这些观察的基础上,作者进一步引入BioSAM 2,这是一个优化过的SAM 2基础模型,通过微调原始SAM 2实现。这个优化显著提升了SAM 2在生物医学图像和视频上的分割性能。值得注意的是,在没有提示的情况下,作者的自动分割始终保持显著优势,远远超过最先进的 Baseline 基础方法。
作者的贡献可以概括如下:
作者已开发了两个适用于6种医学模式和9个感兴趣目标的单帧生物医学图像和多帧生物医学视频的评估 Pipeline 。这些 Pipeline 全面评估了SAM 2在生物医学应用中的性能。
为了增强SAM 2在生物医学领域的适应性,作者引入了BioSAM 2,这是一个通过微调原始SAM 2实现的优化基础模型。这个改进显著提升了SAM 2的分割性能。值得注意的是,在不需要任何提示的情况下,作者的自动分割始终明显优于竞争最先进的 Baseline 基础方法。
实验结果表明,BioSAM 2在相同模态的医学数据上与专业模型训练的性能相匹配,甚至超过了。这些发现强调了BioSAM 2作为通用医学图像和视频分割的新范式具有巨大的潜力。
通过将BioSAM 2与医学影像分割任务相结合,作者可以预计在分割准确度和标注效率方面取得显著改进,最终为更好的临床结果作出贡献,并促进人工智能在医学影像领域的应用。本研究旨在推动当前医学影像分割技术的发展边界,探索先进的AI模型如BioSAM 2处理医学影像数据的全部潜力。
2 Related Work
医学图像分割。CNN基础和Transformer基础的模型在医学图像分割领域取得了显著进步。U-Net[17],是一种显著的基于CNN的方法,特征为一个对称的编码器-解码器结构,并在跳跃连接中保留细节。增强版,如自适应的nnU-Net[13],展示了在各种医学分割挑战中强大的性能。在基于Transformer的模型中,TransUnet[18]将视觉Transformer(ViT)[19]集成用于特征提取并将之与CNN配对进行解码,有效地处理全局信息。UNETR[15],和Swin-UNet[20]将Transformer架构与U-Net相结合,以增强3D成像分析,并发掘Swin视觉Transformer块[21]。基于图神经网络(SNM)的模型如U-Mamba[22]已经用于在医学图像中进行高效的长序列数据分析。最近,SAM[6],一种预训练于10亿面罩上的视觉基础模型,在各种分割任务上展现了惊人的零样本学习能力。受到SAM在自然图像中性能的启发,针对医学分割的适应性迅速出现[23, 24, 25, 26]。MedSAM[7]在11个模态的20万个面罩上对SAM进行了细调,而SAM-Med2D[27]使用了全面的提示,用于2D医学图像。SAMed[23]和MA-SAM[28]使用了PETL[29]进行细调,超越了一些现有的医学分割方法。
图2:根据不同的分割提示,SAM 2 和大型SAM 2的图像分割结果。
医学视频物体分割。许多语义分割模型依赖单张图像识别场景中的物体。这可能导致在多帧视频中特别是在需要时间上下文的多帧视频中,做出空间和时间上不准确的预测。为了应对这个问题,时空记忆网络(STM)[30]及其变体[31, 32, 33]使用内存网络从由所有 previous video sequences 组成的时间基缓冲中提取关键信息。在这个方法的基础上,DPSTT[34]集成了一个内存库并使用了解耦的Transformer来跟踪医学超声视频中的时间病变移动。然而,DPSTT需要大量的数据增强以避免过拟合,且处理速度较低。随后的FLANet[35]引入了一个集频率和位置特征聚合的网络,涉及大量的内存占用。手术视频的光流方法[36, 37]局限于使用图像对之间的特征,而无法利用扩展的时间上下文。
其他方法在时间解码器中使用结合2D编码器与3D卷积层[38]以及卷积长短时记忆单元(ConvLSTM)[39]。替代的方法通过在训练中使用损失函数强制时间一致性[40],或者使用结合高帧率和低帧率模型分支来整合视频的不同部分的时间上下文[41]。最近引入的SAM 2[12]扩展了SAM的背部到3D,增强了在视频中“分割任何东西”的能力。具体来说,SAM 2配备了内存,它可以存储物体信息和之前的交互信息,允许它在整个视频中生成并纠正面罩预测。
3 Method
Preliminary Study of SAM 2
Segment Anything Model 2(SAM 2)是一种统一的基于 Transformer 的模型,适用于图像和视频分割。对于每个视频帧,分割预测利用当前提示和之前观察到的记忆。视频以顺序方式处理,每帧由图像编码器单独处理,而记忆注意力则将当前帧特征与过去帧的特征和预测的条件起来。遮挡解码器,可以 optionally 接收输入提示,预测该帧的分段 Mask 。最后,记忆编码器将预测结果和图像嵌入转换为可用于未来帧的格式,以确保多个帧的连续性。
图像编码器中的视觉 Transformer 使用层次 Mask 自编码器模型Hiera [42]进行预训练,实现多尺度特征解码。记忆注意力将当前帧特征与过去帧的特征和预测的条件起来。多个 Transformer 块堆叠,第一个块将当前帧的图像编码作为输入。每个块执行自注意,然后执行交叉注意力至帧和目标指针的内存。在SAM 2中,提示使用位置编码和两个可学习的标记表示前景和背景。遮挡解码器包括双向 Transformer 块,用于更新提示和帧嵌入。该模型为每个帧预测多个 Mask ,如果不加后续提示澄清的歧义则仅传播预测IoU最高的 Mask 。此外,辅助预测头确定当前帧中目标目标的存在。最后,记忆编码器通过使用卷积模块对输出 Mask 下采样,然后与图像编码器的无条件帧嵌入按元素求和来整合这个过程。这种方式保留的信息的记忆存储器中,在视频序列中保留了对目标目标的最重要的预测信息。
Medical Applications of SAM 2
基于SAFM 2在自然图像和视频中展示的令人印象深刻的全零样本学习能力,作者探讨了它在医疗应用中的性能。具体来说,作者设计了两条 Pipeline :单帧图像分割和多帧视频分割,以评估SAFM 2在医疗背景下的零样本分割任务处理能力。
单帧图像分割。
作者的方法在非迭代方式下设计单帧图像分割,其中所有提示都无需从前置预测中获取反馈。首先,通过特定策略自动化生成点提示。从初始 Mask 中随机选择一个点作为提示。给定源自初始 Mask 的一组候选点
, 选定的点
如下:
.正如SAFM 2的文档[12]所指出的,使用单个点提示可能带来分割 ambiguity,因为模型可能将提示与多个有效 Mask 关联,而无法识别出预期的一个。尽管SAFM 2包含一个解决歧义的模块,该模块会根据置信得分生成多个 Mask 并对其进行排名,但使用多个点提示可显著减轻这个问题。因此,作者还评估了在初始 Mask 候选词中随机选择的附加点提示性能。这种从 Mask 中采样的方法将初始分割 Mask 视为可靠的结果,并利用提示选择不变性来增强分割精度,同时合并附加点提示。
多帧视频分割。
在评估视频分割时,作者采用离线和在线评估的混合模式。具体来说,作者选取前n帧作为交互帧,在这些帧上添加点击线索。多个点击线索可使模型更准确地确定目标的边界,实现更高的分割精度和可靠性。此外,多个交互帧可有效解决SAFM 2中出现的问题,即模型无法跟踪出现在 未标注 帧中的目标,使得它对视频场景更合理且有效。总体而言,作者的一次视频评估仅遍历一次视频,从而最终得到分割结果。
总之,在直接使用SAFM 2进行医疗图像和视频分割时,生成的 Mask 可能是模糊的,需要多个提示或迭代进行预测和校正。尽管SAFM 2具有很大的潜力,但它在为各种医疗图像/视频分割任务产生令人满意的分割结果时遇到了挑战。此外,由于SAFM 2的视频训练数据主要包含高分辨率视频,在处理低分辨率医学视频时,它可能完全无效果。鉴于这些局限性,本研究的目标是开发一个强大的分割基础模型,能够有效地解决各种分割目标。
BioSAM 2: Dedicated biomedical segmentation foundation model
为将SAM 2调整用于医学视频分割,选择适合的网络组件进行微调至关重要。SAM 2的结构包含几个关键元素:图像编码器、提示编码器、记忆注意力、 Mask 解码器和记忆编码器。可以微调这些组件的任何组合。对于作者进行的适应,提示编码器,它是处理给定提示信息的部分,从预训练模型中保留并因此将其冻结以保持其原始功能。相反,图像编码器和 Mask 解码器都被微调以增强SAM 2在医学影像领域适用性。这种适应策略如图3所示。
对于图像编码器,作者选择了一个微型配置,以在计算成本和性能效用之间取得平衡。作者从官方预训练权重开始训练SAM 2,并为图像和视频数据进行单独的会话。在训练过程中,作者采用AdamW优化器[43]并实现了图像编码器上的层衰减策略[44],以提高其学习效率。对于 Mask 解码器,其配置简化为每帧生成一个 Mask ,因为提供的提示明确指定了期望的分割目标。
在损失设计中,作者使用dice损失和二进制交叉熵(BCE)损失的组合来监督模型预测。具体而言,
和
分别是预测和实际像素值,
是总像素数。dice损失定义为:
BCE损失为:
在训练过程中,作者使用这些损失的结合来优化模型参数:
如果实际数据中不包含某个帧的 Mask ,则不监督任何 Mask 输出,但始终监督预测是否应在帧中存在 Mask 的 Mask 预测头。
4 Experiments
实验概述
本实验分为四部分,旨在探讨深度学习和强化学习技术在人工智能领域的应用及其在实际问题中的性能表现。本实验将采用深度学习平台如TensorFlow和PyTorch,以及强化学习库如PyTorch-RL库实现。
实验内容包括:
实验一:手写数字识别
首先,作者将展示深度学习在手写数字识别任务上的应用。在这个实验中,作者将训练一个卷积神经网络(Convolutional Neural Network,CNN)来识别常见的数字手写体。通过这个实验,作者将了解深度学习如何提高识别精度。
实验二:环境感知和导航
接着,作者将进行环境感知和导航实验。在这个实验中,作者将使用深度强化学习技术,训练智能代理在复杂环境中自主导航。这个实验将展示强化学习在实际问题中的优越性能。
实验三:游戏策略学习
实验三作者将研究游戏策略学习技术。在这个实验中,作者将研究深度学习在博弈领域中的应用,如AlphaGo、StarCraft等。通过对这些游戏的分析,作者将了解到深度学习在解决实际问题中的潜力。
实验四:自适应机器人控制
最后一个实验将研究自适应机器人控制技术。在这个实验中,作者将使用深度强化学习来实现机器人在不同环境下的自适应控制。这个实验将进一步证明深度学习的广泛应用。
实验总结
通过本次实验,作者对深度学习和强化学习有了更深入的了解,这些技术在实际应用中都取得了显著的成果。在今后的研究中,作者可以进一步探讨如何将深度学习和强化学习技术相结合,以更好地解决实际问题。
Biomedical Image Segmentation
4.1.1 Datasets
为评估BioSAM 2的性能和可扩展性,作者采用了两个医学图像数据集,包括内窥镜图像数据集[45]和显微镜图像数据集[46]。
内窥镜图像:从MICCAI 2017年内窥镜图像挑战赛[45]中(EndoVis Challenge[45]),该数据集关注内窥镜图像中的仪器分割,包括大针头驱动器、主动力钳、单极弯剪钳、卡莱尔钳、双极钳、血管密封器和插入式超声探头等七种不同仪器。该数据集分为1800个训练帧和1200个测试帧。
显微镜图像:从NeurIPS 2022年细胞分割挑战[46]中(Cell Segmentation Challenge[46])的数据集,该数据集用于细胞分割显微镜图像,包括1000个训练图像和101个测试图像。遵循U-Mamba[22]的处理方法,作者将其视为语义分割任务,关注细胞边界和内部结构而不是实例分割。
4.1.2 Experimental Setup
作者的实验设置与每个方法在官方仓库中的对应设置相同,以确保公平的比较。具体地,内窥镜和显微镜数据集的批处理大小为8。作者采用无权重组合Dice损失和交叉熵损失,用于所有数据集,利用AdamW优化器,初始学习率为1e-4。每个数据集的训练周期设置为200个周期。对于基于SAM的方法的评估,作者遵循其官方技术报告的实现细节。作者将不同的点作为提示,并将其输入到模型中。所有提示都随机选择对应图像的 Mask 。
在作者对BioSAM 2进行评估时,作者将与两种著名的基于CNN的分割方法进行比较:nnUNet [13]和SegResNet [14]。另外,作者还包含了与UNETR [15]和SwinUNETR [16]的比较,这两个基于Transformer的神经网络方法在医学图像分割任务上越来越受欢迎。U-Mamba [22],最近的方法基于Mamba模型,也被纳入作者的比较,以提供对其性能的全面概述。对于每个模型,作者实现其推荐的优化器,以确保训练条件的一致性。为了保持所有比较的公平性,作者将在每个数据集上微调所有这些模型,并应用nnUNet [13]中的默认图像预处理。作者也通过直接允许它们推理图像对应的 Mask 来评估SAM和SAM 2的性能。为确保进行全面评估,作者使用三种提示测试了SAM 2的两个大小。
对于评估指标,作者使用Dice相似系数(DSC)和归一化表面距离(NSD)评估内窥镜图像中手段分割的性能。对于细胞分割任务,作者使用F1得分和NSD来评估方法性能。
4.1.3 Results
如图1所示,作者对各种SAM 2变体进行了深入分析。结果表明,随着点击次数的增加,性能明显提高,特别是在显微镜数据集上,F1指标从0.0654提高至最大值0.3566。同样,在内窥镜数据集上也有显著进步,DSC评分从最低的0.4115上升至0.5382,NSD评分从0.4227上升至0.5520。此外,作者在两个不同模型大小下评估了SAM 2的性能。较大的模型尺寸在点击总数相同的情况下,在大多数DSC和NSD评分上超过了小巧的变体,这表明较大的SAM 2模型具有更强的分割能力。
在与专门为医学图像分割设计的其他微调模型(例如nnU-Net)的比较中,SAM 2的零样本表现逊色。这一差异凸显了尽管SAM 2的迁移学习能力很强,但在医学图像领域仍然有巨大的提高空间。这强调了将SAM 2微调至最佳性能的必要性。此外,发现当SAM 2采用多个点击时,SAM 2的零样本结果超过了SAM,即使SAM使用了其最大的版本SAM_h。这强调了SAM 2先进设计和适应性的优势,与SAM相比。
表1还显示了作者的提出方法BioSAM 2的性能。BioSAM 2与SAM 2之间的比较分析揭示了巨大的改进,BioSAM 2实现的最小改进为0.0772,最大改进为0.5138。这表明BioSAM 2在仪器分割和细胞分割上的优越性能,并突显了SAM 2在医学图像领域的巨大潜力。SAM 2是一个通用模型,由于其通用设计而非专业设计,因此在医学领域需要适应,这是由于其对医学数据集的知识库有限以及输出 Mask 数量有限的限制。虽然SAM 2可以有效地分割图像级实例, But it struggles with accurately segmenting class-level instances. SAM 2可以轻松地划分两个细胞的边界,但不能确定它们是否属于同一类别。这些限制影响了SAM 2的性能,尤其是在多类别医学分割数据集上。BioSAM 2因此在这些方面发挥着关键作用,增强了模型处理医学图像分割任务的能力。
最后,根据表1,BioSAM 2在内窥镜数据集上取得了0.6251的DSC分数和0.6427的NSD分数。在显微镜数据集上,它获得了0.5792的F1分数和0.7436的NSD分数。这些结果超越了大多数竞争方法,并与最先进的模型具有可比性。这些性能验证了BioSAM 2在医学图像分割方面的优异性能,并证实了它有能力提供高质量的结果。
Biomedical Video Segmentation
生物医学视频分割部分的内容开始。
4.2.1 Datasets
为了验证SAM 2在生物医学视频上的性能,作者从医学场景中选择了两个数据集,包括来自EndoVis 2018 [47]和EchoNet-Dynamic [48]的数据集。
EndoVis 2018。
来自Robotic Scene Segmentation Challenge [47]。这个数据集包括使用da Vinci Xi系统在猪实验室中进行16次机器人肾切除术的视频数据,旨在支持手术机器人的机器学习研究。最初录制的频率为60 Hz,数据已降采样到2 Hz以降低标签成本,在去除最小运动序列后,每个程序有149帧。每一帧,以12801024的分辨率显示,包括来自左右眼相机的图像以及立体相机校准参数。