专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
哔哩哔哩  ·  猫和老鼠来B站,自己鬼畜自己 ·  17 小时前  
你的Sneaker  ·  全国多地发售!Nike Kobe 6 ... ·  昨天  
你的Sneaker  ·  全国多地发售!Nike Kobe 6 ... ·  昨天  
电商报Pro  ·  刘强东搞低价,一出手就是王炸 ·  昨天  
蛋先生工作室  ·  2025年2月11日最新蛋价(早报) ·  昨天  
电子商务研究中心  ·  《2024年中国新零售“百强榜”》候选名单发 ... ·  2 天前  
51好读  ›  专栏  ›  小白学视觉

医图顶刊 TMI'24 | 基于互信息引导扩散的零样本跨模态医学图像翻译

小白学视觉  · 公众号  ·  · 2024-10-14 10:08

正文

点击下方“ ReadingPapers ”卡片,每天获取顶刊论文解读

论文信息

题目:Mutual Information Guided Diffusion for Zero-Shot Cross-Modality Medical Image Translation

基于互信息引导扩散的零样本跨模态医学图像翻译

作者:Zihao Wang, Yingyu Yang, Yuzhou Chen, Tingting Yuan, Maxime Sermesant, Hervé Delingette, and Ona Wu


摘要

跨模态数据翻译在医学图像计算中引起了极大的兴趣。深度生成模型在解决相关挑战方面显示出性能提升。尽管如此,作为图像翻译的一个基本挑战,零样本学习跨模态图像翻译的保真度问题仍未得到解决。为了弥补这一空白,我们提出了一种新颖的无监督零样本学习方法,称为互信息引导扩散模型(Mutual Information guided Diffusion Model),该模型通过利用不同模态之间的固有统计一致性来学习将未见过的源图像翻译到目标模态。为了克服高维互信息计算的难题,我们提出了一种可微分的局部互信息层,用于调节迭代去噪过程。局部互信息层在统计域中捕获相同的跨模态特征,提供扩散指导,而不依赖于源和目标域之间的直接映射。这一优势使我们的方法能够适应变化的源域,而无需重新训练,这在没有足够的标记源域数据时非常实用。我们通过与其他生成模型(包括基于对抗和基于扩散的模型)的实证比较,展示了MIDiffusion在零样本跨模态翻译任务中的优越性能。最后,我们展示了MIDiffusion在3D零样本学习基础的跨模态图像分割任务中的实际应用。

关键字

零样本学习,跨模态翻译,扩散模型,互信息。

引言

利用现有工具解决新问题是一种旨在最大化经济效用的方法,特别是在处理不同成像模态时。在医学成像领域,某些模态(如T1加权MRI(T1w))的分析资源丰富。相比之下,像质子密度加权MRI(PDw)这样的模态并不经常进行,可能没有足够的软件选项来执行高级分析,如分割。这些困难的出现有多种原因,包括患者与特定成像技术的兼容性,以及与成像程序相关的成本和时间考虑。更有效地是调整已经为T1w等成熟模态开发的现有分析工具,以用于PDw等模态。这避免了为每种模态开发新的专业工具的需要。跨模态图像翻译是通过促进不同成像模态之间的现有资源使用,来克服这些挑战的有前途的解决方案[1],[2]。当试图在没有源域训练数据的情况下进行跨模态翻译时,就会出现一个特别具有挑战性的场景,这被称为零样本跨模态翻译。尽管我们的主要关注点是跨模态图像翻译,从更广泛的角度来看,这项任务可以被视为无监督领域自适应(UDA)的一个子领域[3],[4],[5]。UDA有助于利用不同领域之间的知识,从而大大提高了机器学习模型在各种环境中的适用性[6]。然而,缺乏源数据集知识增加了我们的任务(零样本)的复杂性,超出了典型的UDA问题[7]。许多基于映射的模态转换方法[8],[9],[10]依赖于源和目标模态之间的像素级建模,因此需要成对的图像集合,这在实践中往往难以收集。基于生成对抗网络(GAN)的方法[11],[12],[13],[14],[15],[16],[17]由于之前基于映射的方法的各种缺点而被提出。生成模型被广泛用于直接建模目标模态,从而实现翻译的真实性[18],[19]。这种方法通常涉及复杂的对抗架构设计和为不同翻译任务设计的模态任务特定损失函数[20]。尽管基于生成对抗的翻译不需要成对的数据集进行训练,但它仍然需要源域数据,这可能难以收集,导致样本不足,无法平衡循环一致性训练[21],[22]。最近的工作[23],[24],[25],[26],[27],[28]表明基于分数的生成模型比基于GAN的模型表现更好。Meng等人[20]提出了SDEdit,它采用了扩散模型(DM)[29]来执行图像翻译,以零样本学习的方式平衡了保真度和真实性。与几乎端到端生成的常规GAN或基于映射的模型不同,DM是一种基于分数的生成模型[30],它依赖于由随机微分方程(SDE)驱动的扩散序列的迭代去噪。SDEdit在模型结构和损失函数复杂性方面优于基于GAN的翻译模型。然而,SDEdit在跨模态翻译方面仍有局限性。它依赖于基于扰动的指导,假设源和目标域都可以通过噪声有效地扰动,这在许多跨模态翻译任务中可能不成立(例如,MRI T2到T1图像翻译)。此外,SDEdit需要优化初始时间t0以找到扰动的最佳间隔[20]。Muzaffer等人[31]提出了SynDiff,这是一种具有双边扩散的循环一致架构,用于语义一致性,计算成本翻倍,需要预先训练一个生成器来估计成对的源图像,并且需要源域数据。Energy-Guided Symmetric Diffusion Equation(EGSDE)框架[32]利用在源和目标域之间预训练的能量函数模型,用于成对图像翻译,与现有的基于分数的扩散模型相比表现出优越性能。然而,EGSDE需要从两种模态收集大量样本来训练能量函数模型,这限制了其在数据不完美的情况下的有效性,如零或少样本情况。Huang等人[33]引入了一种基于频率域分析的扩散引导方法,用于同一模态内的零样本图像翻译,如锥形束计算机断层扫描系统(CBCT)到CT和跨医院T1w MRI翻译,显示出杰出的结果。然而,频谱信息通常在不同模态之间不一致,限制了其在跨模态图像翻译任务中的适用性。我们方法的动机是利用统计特征的一致性来克服现有跨模态翻译方法的零样本学习挑战,这些特征通常在不同领域的图像中看到,用于调节扩散过程。使用统计措施来指导生成过程的原理基于其对像素值均匀变化的鲁棒性。这一原则在考虑不同成像模态下的同一扫描对象时特别相关:尽管成像技术不同,一致对象的强度倾向于均匀变化。例如,在T2w MRI扫描中,由于其长的T2弛豫时间,脑室中的脑脊液(CSF)呈现明亮,而在CT扫描中,由于密度较低,它呈现较暗。即使MRI强度范围在200−220,CT强度范围在30−50,像互信息这样的鲁棒措施可以识别共享的统计模式。这是因为相对结构对比在MRI和CT之间变化的绝对强度之间保持一致。要使用统计特征的一致性进行跨模态图像翻译,我们提出了一种新的基于随机扩散过程的零样本无监督学习方法。与从源数据域寻求任何条件指导不同,我们的模型利用统计特征的一致性来调节扩散过程(见图1)。这使我们能够在初始时间步骤使用它们的统计属性来桥接源和目标域,绕过寻找最佳中间时间步骤以平衡真实性和保真度的搜索。图2显示了所提出的基于统计特征的条件(LM I:局部互信息)和基于扰动的条件之间的扩散指导方式的差异。我们的方法消除了对GAN框架的反转优化和对抗性损失设计的需求。与基于扰动的扩散方法不同,MIDiffusion不依赖于超参数调整来平衡真实性和保真度。(3)我们提供了MIDiffusion在下游应用中的实证证据,通过适应现有工具进行3D跨模态图像分析,从而减少了大量数据收集的实际需求。本文的结构如下。我们首先在第II节和第III节中介绍相关工作和相关理论。在第IV节中,我们概述了我们的主要方法,包括快速LMI计算的细节,构建MIDiffusion以及LMI引导扩散的前向生成算法。随后,在第V节中,我们将MIDiffusion应用于医学成像中的跨模态翻译,涵盖不同的模态并展示不同程度的统计相似性。我们在第VI节讨论了我们提出的方法的有效性和局限性,并在第VII节结束本文。

预备知识

A. 跨模态图像翻译

两个图像G ∈ V和F ∈ U之间的跨模态图像翻译任务可以形式化为:
其中 是一个将源域V中的数据G映射到目标域U中的对应数据 的算子,理想情况下与F相同。具体来说,这种一般形式已广泛应用于图像合成、笔画绘画、图像配准、分割等[67]。
在零样本跨模态图像翻译中,训练阶段只有目标域F中的样本可用。鉴于目标样本,零样本学习的目标是在训练步骤中学习 ,而没有看到训练步骤中的G。由于在训练阶段无法访问源样本,因此构建和使用辅助信息进行域转移至关重要[68]。

B. 互信息

互信息(MI)测量两个随机变量X,Y之间的依赖性:
MI在跨模态相关任务中很有用,因为假设统计特征是相同的。它已应用于解决许多无监督学习问题,如跨模态图像检索[69],[70]、数据表示[71],[72]、领域自适应[73]和跨模态聚类[74]等。MI的一个特殊情况是使用MI测量一个随机变量本身: ,称为熵。

C. 分数匹配及其去噪等价

与基于变分推断或基于似然的训练不同,后者试图近似数据的真实概率分布 ,基于分数的模型通过其偏导数 信息(即分数函数)来表示分布 。学习模型 之间的最大化过程需要获得准确分布 的显式形式 ,通常保持未知。与寻找 的形式不同,去噪分数匹配方法[42],[43]通过直接估计分数函数来避免寻找
其中 是干净数据x和噪声污染观测 之间的梯度;只要噪声由高斯核驱动: ,模型 旨在学习去噪过程[42]。

D. 基于SDEs的分数生成建模

Song等人[29]将上述去噪分数匹配模型推广到SDE框架中,并通过采样统一了生成过程,该过程也是一个扩散过程。神经网络 以隐式去噪形式进行训练,将噪声添加步骤视为扩散过程。由标准正态分布 驱动的扩散过程 ,其中 控制输入噪声的大小, 表示Wiener过程, 是时间从0开始,以无限小增量到 。我们在这里使用静态势 (即“方差爆炸SDE(VESDE)”[29])进行模态翻译,该模型模拟了数据 (目标模态 )的大小。添加噪声的方程4是使用高斯转移核执行分数匹配的类似步骤。训练目标是,通过SDE 4定义的扩散过程,与方程3具有类似的训练目标,但是期望在时间 上均匀采样于[0, T]: ;因此,训练目标变成了多步条件 而不是单步
只要分数模型 学习到分布分数 ,我们就可以利用反向SDE[20],[29],[75]通过推断一个向后时间 的动态过程来采样数据点:
其中 是一个具有无限小负增量的时间 的Wiener过程。

方法

A. 扩散用于跨模态图像翻译

我们可以通过将目标数据F生成任务适应到分数匹配框架中,然后使用扰动的源域G来指导(调节)迭代扩散过程[20],[26],[31],[66],[76],[77]来解决跨模态图像翻译问题。理想情况下,我们希望生成的数据 遵循引导数据G的语义含义,并与目标域中的地面真实图像F共享特征,平衡真实性和保真度[20],[65]。定义1:生成的图像 显示真实性,这意味着它被很好地翻译到了目标域U: 。定义2:生成的图像 保持保真度,这意味着它从引导数据G那里得到了忠实的翻译: ,其中 是相似性度量。翻译真实性和保真度之间的关系与域相关性U和V有关。我们说,如果翻译在真实性和保真度之间达到了平衡点,那么翻译就实现了高保真度。然而,当源域G和目标域F之间的外观特征集的差异变得太大时,两者之间的平衡点可能既不容易捕捉也不存在,以满足令人满意的翻译。这导致当前基于分布扰动的方法(例如,SDEdit等[20],[42],[43])不适用于未监督的跨模态图像翻译,当两个域之间的数值特征存在巨大差异时。

B. 在扩散生成中使用互信息引导

在基于零样本学习的翻译任务中,我们在训练过程中无法访问源域中的数据。尽管如此,源和目标模态之间的局部统计特征假定是相同的。MI最大化已被证明是一种有效的方法,使神经网络能够学习非线性表示[71]。为了捕获这些共享的表示并使用提取的信息进行指导,我们提出使用MI来测量去噪过程中的局部统计表示。
  1. 局部互信息:为了获得数据中的语义信息以进行指导,我们需要将原始数据转换为其统计表示,因为MI是一种统计度量。给定一个图像X,对于点 在位置i,可以通过概率密度函数(PDF) 捕获i处的局部统计信息。不失一般性,对于在 的邻域 内的其他点 ,我们可以通过PDF 获得局部统计信息; 。定义3:局部互信息(LM I)从图像X到图像Y在点 处定义为:
在前向步骤(训练)中,我们可以使用方程7作为参考信号来调节每个扩散步骤;这是通过在训练过程中计算 来实现的。定理1:X到Y在位置i处的LM I的上界是: ,这是X和Y在点 处的最大信息匹配。定理2:MIDiffusion生成的翻译误差是 。我们在附录中证明了定理1和2。定理1表明,当 时,LM I达到最大(统计相似性)。因此,LM I在训练步骤中总是达到X0和Xt之间的相同位置;然而,当 时,LM I在位于 的邻域 中的j处达到局部最大值。可翻译性量化:定理2表明,当指导差异达到零时,翻译误差消失。相反,如果指导信号的差异 趋于无穷大,翻译误差变得无限大。为了量化使用统计特征进行扩散指导的两种模态之间的可翻译性,我们引入了以下基于LM I的卡方度量:
这里,






请到「今天看啥」查看全文