专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
目录
相关文章推荐
网购投诉平台  ·  315大模型前瞻:58同城上招聘靠不靠谱? ·  2 天前  
速卖通草帽  ·  4月4日起执行!亚马逊库存超270天或将强制移除 ·  2 天前  
电商头条  ·  有人敢在支付宝乱搞 ·  2 天前  
电子商务研究中心  ·  DeepSeek透视:盒马X会员店上演“大溃 ... ·  3 天前  
51好读  ›  专栏  ›  集智书童

DCFormer 分解卷积架构实现 62% 零样本检测,计算成本降低80%开启临床AI新纪元

集智书童  · 公众号  ·  · 2025-02-27 09:00

正文

点击下方卡片,关注 「集智书童」 公众号

点击加入👉 「集智书童」 交流群





导读

视觉-语言模型(VLMs)对视觉和文本表示进行对齐,使得在2D医学影像中实现高性能的零样本分类和图像-文本检索成为可能。然而,将VLMs扩展到3D医学影像在计算上仍然具有挑战性。现有的3D VLMs依赖于视觉Transformer(ViT),由于自注意力具有二次复杂度,因此计算成本高昂;或者依赖于3D卷积,随着核大小的增加,需要过多的参数和FLOPs。作者引入了DCFormer,这是一种高效的3D医学图像编码器,它将3D卷积分解为沿深度、高度和宽度的三个并行1D卷积。这种设计在保留空间信息的同时,显著降低了计算成本。DCFormer集成到基于CLIP的视觉-语言框架中,在CT-RATE数据集上进行了评估,该数据集包含50,188对3D胸部CT体积和放射学报告,用于18种病理的零样本多异常检测。与ViT、ConvNeXt、PoolFormer和TransUNet相比,DCFormer实现了更高的效率和准确性,DCFormer-Tiny达到了62.0%的准确率和46.3%的F1分数,同时使用的参数数量显著减少。这些结果突出了DCFormer在可扩展、临床可部署的3D医学VLMs中的潜力。

1. 引言

深度学习彻底改变了医学影像领域,实现了疾病的自动化诊断、准确的预后以及个性化的治疗规划1-4。随着卷积神经网络(CNNs)5-6和视觉Transformer(ViTs)的出现,深度学习在监督任务如病变检测和器官分割8-12中达到了最先进的性能。尽管取得了这些进展,监督模型仍需要在大规模手动标注的数据集上进行训练,且在多样化的医学影像任务和模态上缺乏泛化能力。

为了减轻对标注数据的依赖,自监督学习方法(如 Mask 自动编码器13)已成为从 未标注 图像14, 15中提取有意义表示的强大技术。尽管这些方法具有优势,但它们仍然需要在小规模标注数据集上进行监督微调。视觉-语言模型(VLMs)如CLIP(对比语言-图像预训练)16通过在共享潜在空间中对齐视觉和文本表示,提供了一种有希望的替代方案,实现了零样本能力。CLIP最初在自然图像领域17, 18中取得了成功,后来被应用于各种2D医学成像任务,包括零样本分类、 Prompt 驱动的分割、图像-文本检索、放射学报告生成和视觉问答19-25。尽管基于CLIP的方法在2D医学成像方面取得了进展,但由于几个关键挑战,它们在3D成像中的应用仍处于探索阶段。一个主要挑战是缺乏包含3D图像体积和文本报告的大规模、开源数据集。

为了解决这个问题,Hamamci等人26引入了CT-RATE数据集,该数据集包含从21,304名患者的25,692次扫描中重建的50,188个3D胸部计算机断层扫描(CT)体积,以及相应的放射学报告。他们还提出了CT-CLIP,这是一种用于胸部CT的3D VLM,它采用 模型,该模型结合了双阶段空间和时间 Transformer 。虽然CT-CLIP在零样本检测和图像-文本检索任务中表现良好,但其使用的自注意力机制导致了显著的计算开销。此外,其图像编码器遵循类似于ViT的 Patch 策略,直接以固定的20个 Patch 大小对图像进行下采样。这种策略导致了特征损失,因为它无法提取层次表示——这是医学成像的一个基本方面。先前的研究表明,层次特征提取对于捕捉医学图像中的空间和上下文信息至关重要9,10,28。尽管存在这些限制,CT-CLIP仍然是将基础模型应用于3D医学成像的重要一步。

另一个挑战是将类似CLIP的VLMs适应3D成像模式(如CT和磁共振成像(MRI))的计算复杂性。3D医学数据的高分辨率和体积特性带来了巨大的计算需求,尤其是在使用基于标准ViT或3D CNN的编码器时。虽然ViT能够有效地捕捉全局空间关系,但其计算复杂性随着输入大小的平方增长,这使得它们在处理3D体积时效率低下。同样,适用于捕捉局部空间特征的3D卷积,在大型核大小(k>3)的情况下变得过于昂贵。为了缓解这一问题,深度卷积29被探索作为一种替代方案,它减少了参数数量和计算成本。然而,当需要大核和高的输出通道维度时,它们在3D成像中仍然可能效率低下。图1比较了2D和3D标准卷积与深度卷积的参数和FLOPs,显示标准3D卷积比其2D对应物需求更多的资源。尽管深度卷积提高了效率,但其计算成本随着核大小的立方增长,对于需要大感受野以捕捉复杂解剖结构的大型3D医学数据集来说,这提出了挑战。此外,它们在整个网络中的累积使用显著增加了整体计算负担。

为了克服现有3D VLMs的挑战,作者提出了DCFormer,这是一系列专为3D医学成像设计的架构。DCFormer引入分解卷积作为自注意力和传统3D卷积的替代方案,在保留提取局部和全局空间特征能力的同时,显著降低了计算复杂度。通过将3D卷积分解为沿每个空间维度三个1D卷积,DCFormer旨在平衡效率和性能,显著减少模型参数和FLOPs(图2)。作者将DCFormer集成到CLIP框架中,实现了3D医学成像的高效联合视觉-语言学习。作者的实验表明,DCFormer在CT-RATE数据集上实现了具有竞争力的零样本性能,与现有最先进的方法相比,显著降低了计算成本。作者预计DCFormer将成为推进可扩展和高效的图像编码器以实现视觉-语言理解的一个跳板,并激发对临床应用中轻量级、高性能架构的进一步研究。

2. 结果

作者使用CT-RATE数据集训练了一个基于CLIP的联合视觉-语言学习框架(参见方法部分中的《使用DCFormer开发CLIP框架》),该数据集包含50,188个非对比增强的3D胸部CT体积与相应的放射学文本报告。对于文本编码器,作者使用了CXR-BERT30。对于图像编码器,作者通过将其零样本性能与多个最先进的模型进行基准测试,全面评估了作者提出的DCFormer架构,包括 、CT-ViT26.27、TransUNet?、ConvNeXt31、InceptionNeXt32和PoolFormer33(参见方法部分中的SOTA图像编码器)。

零样本多异常检测结果

一旦训练以最大化图像和文本嵌入之间的相似性,CLIP框架通过将每个异常输入作为文本 Prompt (参见方法部分中的“基于DCFormer的零样本多异常检测”)来实现多异常检测。具体来说,作者遵循Hamamci等人26的消融研究,为18种不同的异常分别使用 Prompt “存在异常”和“不存在异常”。然后,作者计算CT图像中每个异常存在的标准化概率,并使用准确率、F1分数、精确率和召回率来评估模型性能。

例如,纳米变体在参数更少且FLOPs相似的情况下,实现了比ConvNeXt和PoolFormer更高的F1分数、精确率和召回率。同样,朴素变体在性能上优于ConvNeXt、PoolFormer和TransUNet,证明了DCFormer架构的效率和有效性。值得注意的是,DCFormer与TransUNet和CTViT等模型相比,在计算资源上大幅减少的情况下实现了这些结果,后者需要更多的参数和FLOPs。例如,DCFormer的朴素变体仅使用5.85M参数和49.48 GFLOPs就实现了63.1%的准确率、44.5%的F1分数、29.5%的精确率和65.5%的召回率——与CTViT的1.011亿参数和160.5 GFLOPs以及TransUnet的2393万参数和207.5 GFLOPs相比,参数和FLOPs都少得多。

这种效率使得DCFormer能够以简单而有效的架构实现稳健的性能,展示了其可扩展性和适用于既需要高精度又需要计算效率的应用的适用性。总体而言,对于零样本实现,DCFormer在效率上优于其他模型,其轻量级变体在显著降低计算开销的同时取得了具有竞争力的结果。DCFormer能够以更少的参数和FLOPs超越SOTA模型的能力,突显了其在需要高性能和计算效率的应用中的潜力。

3. 讨论

本文介绍了DCFormer,这是一种新型的视觉编码器,旨在在基于CLIP的视觉-语言框架中高效处理3D医学图像。DCFormer解决了3D CT分析中的关键计算挑战,现有模型由于视觉Transformer中自注意力的二次扩展和3D卷积的高计算成本,在处理高分辨率体数据时存在困难。为了缓解这些问题,DCFormer利用分解的3D卷积作为 Token 混合器,在保持强大的空间特征提取能力的同时,减少了FLOPs和参数数量。这种设计使得零样本预测性能更优。

作者在包含50,188个重建的3D胸部CT体积及其对应的放射学报告的大规模数据集CT-RATE上评估了DCFormer。该模型在零样本设置下进行测试,并将其性能与包括ViT、ConvNeXt、PoolFormer和TransUNet在内的最先进方法进行了比较。作者的主要目标是开发一个具有强大零样本能力、用于多异常检测的模型,以最大限度地减少对特定任务微调的需求。如表1所示,DCFormer在准确率、F1分数、精确率和召回率方面均持续优于竞争模型,同时所需参数和计算资源显著减少。这种效率是由分解卷积驱动的,它将3D卷积分解为沿每个空间维度的多个1D操作,在性能和效率之间达到最佳平衡。与CT-ViT和其他计算密集型的3D模型不同,DCFormer为大规模3D医学成像提供了一个轻量级且可扩展的解决方案,使其特别适合需要实时决策的临床应用。

虽然DCFormer展现出有希望的结果,但以下几个未来方向可以进一步提升其能力。首先,通过更好地对齐图像-文本嵌入以进行分类任务,High-Level Prompt 工程可能进一步改善零样本性能。其次,将更大、更多样化的数据集纳入不同医学影像模态(如MRI和PET)中,可以提高泛化能力并进一步验证DCFormer的有效性。最后,将DCFormer与其他VLMs(如LLaVA34和LISA35)集成,可以扩展其应用范围至视觉问答和 Prompt 驱动的3D图像分割。

4. 方法

处理3D CT图像面临着显著的计算挑战,这主要归因于其高分辨率和体积复杂性。由于3D卷积的计算复杂度与核大小呈立方关系,因此其计算成本较高,而自注意力机制进一步通过输入大小的二次关系放大了负担。为了解决这些挑战,作者提出了DCFormer,这是一种混合架构,将3D卷积分解为多个1D组件,从而显著降低了计算开销。DCFormer采用MetaFormer3.36作为其主干网络,并使用分解卷积作为特征提取的token mixer。其分层结构进一步增强了3D CT图像中的特征表示。最后,基于DCFormer的图像编码器被集成到CLIP框架中,用于图像-文本对齐。正如作者的结果所示,这种分解策略在零样本和微调设置中均显著降低了参数数量和计算成本,同时保持了高性能。

DCFormer模块的公式化

核心概念,MetaFormer3 36,是从transformers37中抽象出来的通用架构。在Metaformer架构中,未指定 Token 混合器(例如,自注意力、深度卷积),而保留了归一化、通道混合器(例如,MLP)和残差连接38。输入 首先通过一个 Patch 嵌入块,例如卷积:

然后跟随一系列编码器块。每个编码器块由两个子块组成:多头注意力(MHA)和 FFN (FFN)。MHA块负责捕获 Token 之间的长距离依赖关系,而FFN块负责学习 Token 的表示。MHA块的输入是前一个编码器块的输出,FFN块的输入是MHA块的输出。然后,FFN块的输出与MHA块的输入连接,并通过层归一化层处理。

其中, 表示嵌入的 Token ,序列长度为 ,嵌入维度为 。在这里, 分别代表输入图像通道、核大小、步长和填充。然后,这些嵌入 Token 被输入到 Metaformer 架构中:

在此, 通常为批量归一化39或层归一化40。TokenMixer作为空间信息交互的核心模块, 是两层通道MLP中的可学习权重, 是非线性激活41、42。

为了进一步优化MetaFormer架构,作者在DCFormer模块中引入了分解卷积作为 Token 混合器。这种设计利用了沿每个空间轴(高度、宽度和深度)分解的1D卷积操作的计算效率。通过将3D卷积分解为三个并行的1D卷积,分解卷积可以有效地提高处理速度,同时保持模型的表达能力。

卷积能够捕捉空间特征,同时显著减少参数数量和计算成本。因此,DCFormer模块将分解卷积集成作为一种轻量级且强大的 Token 混合器。令 表示输入特征图,其中 是批量大小, 是通道数,而 分别代表空间维度(高度、宽度和深度)。分解卷积由三个1D深度卷积组成,沿着每个空间轴处理输入张量:

其中 分别代表高度、宽度和深度维度的核大小。在作者的实现中,作者将 设置为 ,以利用大核同时通过分解保持计算效率。在沿每个空间轴应用分解卷积后,作者分别对结果特征进行归一化,然后使用逐元素求和将它们组合形成 DCFormer 块:

DCFormer及其类似Pytorch的实现分别如图3和算法1所示。

复杂度分析

给定一个输入张量 ,其中批大小 ,一个3D深度可分离卷积29,核大小为







请到「今天看啥」查看全文