深圳大学:倪东教授课题组
论文作者:黄雨灏,杨鑫,刘恋,周涵,常澳,周心睿,陈汝锶,余俊轩,陈炯权,陈超宇,池昊哲,胡歆迪,刘思菁,范登平,董发进#,倪东#
研究成果链接:
https://arxiv.org/pdf/2304.14660.pdf
近半年来,ChatGPT、DALL·E等引发了大规模基础AI模型的狂潮。4月初,Meta AI 发布第一个用于图像分割的大规模基础模型
Segment Anything Model (SAM)
。SAM最大的亮点是它对未知的数据集和任务具有良好的零样本(zero-shot)分割性能。分割过程可全自动(Everything模式)或由不同的手工提示(Prompt模式)驱动,例如,文字、点和方框。
虽然SAM在各种自然图像分割任务上取得了令人印象深刻的结果,但医学图像分割由于多样的成像模式、精细的解剖结构、不明确且复杂的边界以及广泛的物体尺度等而具有极大的挑战性,其在大型医学影像数据集上的表现还有待验证。
深圳大学生物医学工程学院倪东教授智能超声团队
联合
苏黎世联邦理工学院、深圳市人民医院、
浙江大学和
深圳度影医疗科技
等单位整理了一个有
55.3万
张图像,包含16种影像模态、68种生物医学领域分割目标的超大规模医学影像分割数据集
COSMOS 553K
,并基于该数据集率先对SAM进行了全面、多角度、大规模的细致评估,旨在
促进医学影像分析的发展,并
回答一个重要问题:
SAM对医学影像分割的性能究竟如何?
为了全面评估分析SAM在医学影像分割上的表现,团队收集并标准化了52个公共数据集,最终整理构建了一个包含16种影像模态和68种生物医学领域分割目标(表1)的大型医学影像分割数据集COSMOS 553K,数据集的展示见图1,统计信息见图2。
表1 COSMOS 553K包含的分割目标。H:头颈部;C:胸部;A:腹部;P:盆部;B:骨头;O:其它。
图1 COSMOS 553K涵盖了大多数医学影像模态和生物医学领域分割目标。例如,脑肿瘤、眼底血管、甲状腺结节、脊柱、肺、心脏、腹部器官或肿瘤、细胞、息肉和手术仪器等。人体图像来自Freepik,作者为brgfx(网址
https://www.freepik.com/
free-vector/anatomical-structure-human-body 27539420.htm)。
图2 COSMOS 553K
的统计信息。(a)收集到的公开数据集处理后的数据量;(b)目标类别的直方图分布;(c)影像模态的直方图分布;(d)图像分辨率的直方图分布。
SAM提供不同类型的分割提示Prompt,包括点和方框等。点的提示包括表示前景的正样本和表示背景的负样本点。方框表示需要分割的物体的区域。我们的测试策略包括Everything模式:自动分割 (S1H, S1B)以及Prompt模式:单个正样本点 (S2)、五个正样本点 (S3)、五个正样本点和五个负样本点 (S4)、单个方框 (S5)、单个方框和单个正样本点(S6),图3展示了我们设计的SAM测试框架。
图3 本研究设计的SAM详细测试框架。
本研究全面地评估了SAM的各种模式在大规模、多样化的医学影像数据集上的分割性能,DICE指标评估结果如图4所示。
图4 不同测试策略的DICE箱线图。从上到下:S
1H
、S2、S3、S4、S5、S6。
-
Everything模式不适用于大多数医学影像分割任务。在这种模式下,SAM对医学分割目标的感知能力较差,会输出大量的假阳性预测掩膜(图5)。
-
在
Everything
模式下,作为提示的网格采样点数量会在一定程度上影响分割性能,如图6所示。这是一个分割性能和测试效率的权衡。
-
在Prompt模式下,加入更多前景点可显著提高SAM的分割结果。但医学影像中的前景和背景很容易混淆,随机加入负样本点可能会引起分割性能下降。此外,方框提示(S5)包含丰富的物体位置信息。因此,在我们的研究中,方框提示在大多数医学分割任务中比点提示表现好。在目前的研究中,混合策略(同时加入点提示和方框提示)的性能没有明显提升。这可能与SAM对混合提示的编码能力有关。图7和图8展示了SAM在各种测试策略下的可视化结果。
-
分割目标的不同属性可能影响SAM对医学分割目标的感知能力。特别是,SAM可能会对具有复杂形状、小面积或低对比度的目标分割效果不好。图9展示了DICE与目标的不同属性之间的关系。
图5 Everything模式的可视化结果。
图6
Everything
模式下网格采样点数量对分割性能的影响。
图7 典型的SAM良好案例。