专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
贵州日报  ·  中方表态:强烈不满,坚决反对 ·  11 小时前  
贵州日报  ·  黔南州最新人事 ·  16 小时前  
百姓关注  ·  贵阳⇌兴义高铁,来了!开通时间确定→ ·  3 天前  
51好读  ›  专栏  ›  小白学视觉

TPAMI 2024 | 信息驱动的自适应感知

小白学视觉  · 公众号  ·  · 2024-06-03 10:00

正文

点击上方小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

Informed Adaptive Sensing

题目:信息驱动的自适应感知

作者:Amr Morssy , Marcus R. Frean , and Paul D. Teal , Senior Member, IEEE

摘要

对于许多反问题,求解所基于的数据是按顺序获取的。我们提出了一种求解此类反问题的方法,其中传感器可以在飞行中被定向(或以其他方式重新配置)以获取特定测量值。一个示例问题是磁共振图像重建。我们使用由生成模型提供的经验条件分布推导出的互信息估计来指导我们在已获取的测量值的基础上进行测量获取。条件生成的数据是一组样本,代表满足已获取测量值的可能解。我们对玩具数据集和真实世界数据集进行了实验。我们专注于图像数据,但我们证明了该方法适用于更广泛的类问题。我们还展示了如何利用深度神经网络等学习模型来实现对未见数据的泛化。我们的知情自适应感知方法优于随机采样、基于方差的采样、基于稀疏性的采样和压缩感知。

关键词

  • 实验设计
  • 反问题
  • 迭代求解技术
  • 机器学习
  • 医学成像
  • 相位恢复
  • 概率算法

I. 引言

反问题涉及从观察到的效果推断潜在原因。这类问题出现在许多科学学科中,研究者从不完整或损坏的观察数据中推断生成观察数据的原因。观察值在某些情况下也称为测量值。示例包括医学图像重建、超声波、雷达观察中的图像 [1],以及地球物理应用中的图像 [2]。在许多这些应用中,观察值的获取可能成本高昂,并且可能数量和质量有限。例如,在计算机断层扫描(CT)中,测量涉及对患者的辐射损害,而在磁共振成像(MRI)中,测量则耗时—因此通常希望尽量减少获取的观察值数量 [3]。

反问题求解是根据已知的前向模型 从可能被噪声 污染的观察值 中估计数据 的任务。这可以表述为:

通常无法使用最大似然方法来求解 (1) 中的 ,因为问题是不适定的 [4]。因此,在 上施加稀疏先验以约束解 [5], [6],但稀疏先验相比学习的先验过于通用。这促使使用深度学习模型作为学习先验来解决反问题。近年来,使用深度学习解决反问题(如压缩感知 [7] 和 MRI 重建 [8])迅速增加,性能优于基于稀疏性的先验 [1]。深度模型可以通过直接从观察值求解 [6], [7], [9],或通过后处理初步重建结果 [10],或作为指导求解过程的先验来解决反问题 [4]。使用模型作为先验允许将其应用于不同的反问题设置而无需重新训练。其他选择是使用递归神经网络模型以端到端训练方式学习迭代优化过程 [5], [11]。

深度学习方法存在两个缺点。首先,在许多应用中,观察值的获取是一个按顺序进行的过程,可以从自适应地选择未来的观察值中受益 [12], [13]。需要以可解释的方式优化观察值的获取,这是许多方法所忽视的。其次,在大多数当前方法中,反问题的单一解被提供。理想的反问题求解器应生成满足给定有限观察值的一系列输出,以表示问题的内在不确定性 [14]。通过使用输出分布来表示不确定性,我们可以希望避免深度学习模型输出质量高但与观察值相关性存疑的结果 [15]。

我们提出了一种自适应优化方法,用于在给定预期数据分布的情况下指导反问题的观察获取。我们的方法不考虑分布外数据,并且是在测试时应用,而不是任何形式的主动或自适应训练 [16]。我们的方法:

  • 能够使用不同的生成模型,唯一的限制是模型必须是隐式和可微分的。此外,改变前向模型 不需要重新训练。
  • 适用于广泛的反问题,包括涉及非线性前向模型的问题。
  • 能够通过一组与观察值 一致的可能样本 表示解的不确定性。

第 II 节总结了基于互信息的相关工作以及我们的方法的不同之处,第 III 节介绍了开发的方法,第 IV 和 V 节展示了实验结果。第 VI 节陈述了限制,第 VII 节是结论。

III. 方法

A. 数据重建的知情传感

香农的信息理论为量化与概率分布相关的事件不确定性提供了一种原则性的方法。离散随机变量X的熵H表征了与观察相关的预期信息增益。两个离散随机变量X和Y之间的互信息(MI)是Y对X熵的减少。由于在观察Y时我们旨在增加对X的确定性,因此最大化互信息的观察将是预期中最有利的。我们的方法基于有关互信息的以下定理。

定理 1 :假设X的先验分布由数据集的样本xj表示,j = 1, ..., M。对于所讨论的数据实例X,我们有先前的观察y0。假设已知测量的前向模型f(y|x),并且与y0独立。那么,当对先前的观察y0进行条件化时,一些新观察Y和未知数据实例X之间的互信息可以近似为:

其中HY X是条件分布的熵,权重w0j是f(y0|xj)/

证明 :连续随机变量X和Y的互信息由下式给出:

其中H()表示微分熵[27] (8.48)。对于在先前观察y0的条件下的情况,我们可以使用信息链规则[27] (2.60)。写出X, Y的联合分布为f(x, y),并将Z设为y0,可以展开第二项,得到:

其中,形式为f(y|x, y0)的项在假设观察Y的分布完全由x单独确定的条件下简化为f(y|x)(“朴素贝叶斯”假设),而形式为f(x|y0)的项可以如下近似。由大量样本形成的实证分布可以作为近似先验f(x),在这种情况下,条件(后验)密度f(x|y0)简单地是加权狄拉克函数的混合,即:

其中第m个样本的归一化权重为:

这只需要前向模型,并且通过应用贝叶斯定理,注意到从(5)中f(xm) = 1/M。

(4)中的第一项是给定先前观察y0的X的熵,我们可以像上面一样进行经验近似:

将上述识别插入(4)中,将x的积分替换为样本xm的求和并重新排列,条件互信息I(X; Y |y0)变为:

第二项的积分计算结果为1,因此前两项被抵消。第三项的积分是给定输入x的前向模型的熵(负熵)。对xm的条件化不一定改变y的熵——例如,x可能合理地确定y的正态分布的均值,但不是其方差。在这种情况下,H(y|xm)只是噪声的熵,表示为HY X,这给出了第三项,因为w0m的总和为1。因此,条件互信息I(X; Y |y0)简化为:

现在,通过从混合分布中抽取样本,可以进行蒙特卡洛近似,这很直接。首先,通过从具有概率w0m的分类分布中抽取样本xm,然后使用前向模型从f(y|xm)中抽取样本ym。因此,互信息I(X; Y |y0)随后被(2)近似。□

在图1中总结了用于实例确定的互信息查找的伪代码。我们将获得的观察/测量表示为Y,候选测量为y,条件模型由p(x|Y)表示。我们用空集初始化算法的Y,以便p(x|Y)最初将从p(x)产生M个样本 。我们使用 为每个候选测量生成k个MC样本p(yj| )。从这个我们计算如果我们观察这个测量后的后验熵的预期估计。最后,我们观察最小化估计的预期条件熵并因此最大化MI的测量。测量被添加到集合Y,这个过程重复s次迭代。

对于实现,我们并行生成MC样本,并行计算每个测量的熵。我们的算法在Tesla K20 GPU上运行,每次迭代大约需要6毫秒,用于28×28像素图像。我们的方法可以在获取40到60个像素后(取决于噪声方差),从3通道28×28像素数据集中以信心识别实例,这意味着所有迭代的运行时间为0.3秒。对于更大的数据集,如128×128像素MRI数据集,整个重建(200次测量)大约需要一分钟。

B. 确定数据标签的知情传感

在标记数据的情况下,我们希望从观察y中最大化对给定x的类别或标签ℓ的信心。我们从之前的表达式开始,只是将X替换为L:

其中f(ℓ, y)定义为:

假设观察Y和标签L在给定X的条件下是独立的,并且使用f(ℓ|y) = f(ℓ, y) / f(y),我们有:

与之前一样,如果我们还有先前的测量y0,条件化对y0不会改变f(ℓ|xm)或f(y|xm),但是f(xm)必须被f(xm|y0)替换,我们再次用w0m表示。如果L是分类标签,并且没有噪声,f(ℓ|xm)由指示器Imℓ ∈ {0, 1}给出,仅当ℓ是样本xm的正确标签时为1。

因此我们有:

类似于(2),这也很容易从条件样本中估计。

C. 关于推导的评论

在知情传感算法的每一步中,我们所做的额外计算只是新测量的可能性。这种方法的一个吸引人的方面是f(x|y0)可以被解释为条件生成模型pθ(x|y)。这意味着我们可以轻松地将该方法扩展到使用在给定数据分布上训练的条件模型。我们在第三节讨论了这一点。尽管我们假设观察到的是实数值像素,但该方法也适用于其他测量类型和领域。例如,在MRI[25]和射电天文学中的频域观测。在第五节C2中,我们将展示该方法应用于复值傅里叶数据作为应用于不同测量领域的示例。

我们提出的方法也可以很容易地扩展,正如我们在第五节C3中展示的,指导解决非线性逆问题的测量获取。我们实验的一个例子是相位恢复,它与频域数据相关,并在许多领域中出现,如电子显微镜、晶体学、天文学和光学成像。相位恢复在天文学中也扮演着重要的角色,可以用来校正光学和大气畸变[28]。

D. 条件生成

为了知情传感,我们希望产生满足迄今为止获得的测量或观察y0的数据样本x。如果我们假设一个基于记忆训练数据X的模型,那么可以通过首先根据y0给每个x ∈ X称重,然后从归一化分布中替换抽样来产生条件分布。使用我们的条件模型类似于决策树[29],除了它有大量类别相当于训练实例的数量,并且这个条件模型不能推广到看不见的数据。

我们可以通过训练深度生成模型来克服这一点。

深度生成模型学习假设数据位于一个流形上,该流形可以映射到潜在空间分布p(z)上。分布p(z)通常设置为正态分布,以允许轻松生成新的样本。已经提出了解决逆问题的条件生成模型(如[30]),但这些模型通常需要固定大小的测量。这对于像我们这样的自适应方法来说是不适合的,因为我们的测量集是可变的。我们通过将条件生成建模为一个优化目标来解决这个问题,我们的目标是找到一个根据测量看起来合理的x,同时根据深度生成模型也是一个合理的数据点。从随机z向量开始,我们通过梯度下降来优化这个向量以满足目标。这成为了一个流形优化问题上的反向传播问题[31],我们可以写成:

其中A是前向算子,可以被非线性算子替换(第五节C3)。G(z)是给定潜在空间输入的生成模型的输出,λ是一个超参数,φ(z)是在深度模型下使数据的合理性最大化的惩罚项。模型和范数必须是可微的。在高斯测量噪声的情况下,L2范数是合适的。

我们测试了另一种创建条件样本的方法,即使用Metropolis算法在潜在空间中采样点[32],以满足测量。假设测量的条件独立性,我们可以将给定测量的潜在空间的条件分布p(z|y)写成:

如果我们有两个潜在向量z1, z2,我们可以写出一个似然比:

这个似然比现在可以用来从所需的分布中采样。这种方法不会受到局部最小值的影响,也不需要像梯度下降那样保存梯度的内存,但它需要更长的时间,并且需要不断地拒绝在高斯下变得不太可能的样本(∥z∥ > 1)。

E. 向量测量的扩展

我们可以将我们的方法扩展到向量测量的情况,例如,当一次观察多个测量时,例如一次观察图像的一整行,通过将(3)重写为:

假设已知噪声模型,例如高斯噪声,那么对于每个测量Y,项h(Y |X)是已知的。需要估计测量熵的估计值。如果我们假设噪声是高斯的,那么我们可以估计这个项的界限。在这种情况下,我们建议将p(Y)的分布估计为以样本X为中心的高斯混合模型。问题随后变成了估计高斯混合模型的熵。为了减少我们需要获取的观测数量,我们应该要求最具信息量的观测。因此,我们对(13)感兴趣,并使用一个下限估计h(Y)将保证我们获得最小的信息增益。我们使用[33]中提出的下限估计,假设我们有N个条件样本,得到的估计为:

其中yi表示从样本i获得的测量,σ是噪声方差。这使得该方法能够自适应地优化任意多变量向量测量(而不是单个测量)。

IV. 实验

所有的实验都是使用PyTorch编写的,并在Tesla K20 GPU上运行。我们在玩具集、数值和图像数据集上展示了实验结果。此外,我们还展示了不同测量领域中的结果。在这一部分中,我们展示了使用训练数据作为模型的结果。

A. 玩具实验和结果

我们首先在图2所示的4像素玩具集上说明我们的方法,其中每个像素的值为0或1。假设我们想要确定在观察下的是A到D中的哪一个示例,我们应该获取哪些像素?任何像素的观察都带有加性高斯噪声。或者,这可以被看作是一个任务,即使用最少数量的顺序噪声像素观察来推断观察实例的标记A到D。在这个集合中,第一个像素是最有信息量的,其次是第二个或第三个,这取决于观察到的第一个像素的值。我们在不同观察噪声水平下将我们的方法与随机采样像素进行了比较。我们通过绘制在观察到的像素数量与条件分布的可能候选项的熵之间的关系图来监控进展。图3显示了在不同噪声水平下,100次运行的平均条件熵与获得的测量数量之间的关系。图3中虚线表示知情感知,实线表示随机采样。不同的线条颜色对应于0.3、0.5和0.9的三种不同的观察噪声水平标准差。

正如预期的那样,在高噪声水平下,条件熵下降得很慢,这意味着需要更多的测量才能对我们正在观察的内容有更多的信心。两种技术之间的差异在更高的噪声水平下更为明显。在噪声标准差为0.9的情况下,平均需要4次知情测量与10次随机测量才能将熵减半。在所有熵降至零的运行中,随机和知情感知都收敛于真实解。

B. 图像数据集上的实验

对于图像数据集的实验,我们使用知情感知来指导像素的获取。我们根据(2)计算观察图像中任何像素的预期熵,并对像素进行带噪声的观察。这导致在观察后的条件分布得到更新。这个过程一直重复,直到达到所需的条件分布的确定性。请注意,每获取一个测量,我们都有一个完整且合理的样本分布,即没有涉及部分重建。样本是由代表已获得测量(包括重复测量)的集合y0的条件模型p(x|y0)生成的。因此,每一步我们都有一个完整的重建,即在先验下合理且满足测量(由可能性表示)的样本。由于我们知道真实情况,我们可以找到条件分布中每个样本与真实情况的均方根误差(RMSE)。我们使用分布的平均RMSE作为比较指标。

我们还使用了样本的条件熵的近似值作为另一个度量。由于我们使用样本来模拟我们条件分布,真实的样本熵无法获得以监控进展,因此我们使用了[21]中概述的方法,该方法允许从经验样本中闭式估计2阶的Rényi熵。我们称这为归一化的Rényi熵。然而,重要的是要注意,与RMSE度量不同,如果条件生成算法存在偏差,或者使用的模型没有学习到数据中的所有变化,则归一化熵度量可能无法很好地代表收敛性。这是因为在某些情况下,分布熵可能很低,但RMSE很高,即模型很有信心但是错误的。

我们首先展示了在MNIST [34]上应用该方法的结果,使用50,000个图像训练集D作为模型。这被建模为具有均匀先验概率1/50,000的分类分布。给定一组获得的观察结果,我们根据观察可能性对每个MNIST数字进行加权。现在我们从这个测量加权分类分布中替换N个索引,并检索相应的MNIST数字作为由索引表示的样本。给定真实图像,我们计算样本的平均RMSE。我们不计算样本索引之间的MRMSE,而是首先检索从分类分布中替换得到的对应于获得的索引的样本。

表I显示了在0.5的噪声标准差下,获取60个像素后,知情和随机感知在图像数据集上的条件分布p(x|y)样本的归一化Rényi熵和样本相对于真实情况的平均均方根误差MRMSE。我们选择了10个训练集数字和10个测试集数字,并在0.5的噪声标准差下平均了40次运行的结果。

我们还测试了其他图像数据集CIFAR-10 [35], [36], HAM-10000 [37](常见色素性皮肤病变的皮肤镜图像)、FashionMNIST [38](时尚产品图像)、SVHN[39](街头门牌号码)以及患有胶质瘤的患者的大脑MRI数据集 [40], [41], [42]。所有像素都归一化到[-1,1]范围内,测量噪声的标准差为0.5。我们将我们的方法与随机采样进行了比较,并使用归一化熵度量和均方根误差在表I中提供了结果摘要。

我们在测试集上看到了类似的结果,除了熵不收敛于零。这是因为这里的模型是基于记忆训练数据的,并没有推广到训练集。在第五节中,我们使用生成模型来解决这个问题。

对于MNIST的示例,在5个示例中,通过知情感知观察到的像素如图4中显示为白色。我们可以看到,该方法可以用来解释为什么我们选择了信息像素。例如,没有观察到跨MNIST个数字的一致的图像的外部边界,而焦点是在图像的中心。数字0的模式可以看作是识别一个具有空核心的圆形对象。这可以与[43]的图4进行比较,图4显示了有助于实例识别的像素。

我们在表二中展示了应用确定数字类(标签)的方法的结果,该方法显示了条件分布中属于真实类的样本的比例与观察到的像素数量。对于观察了60个像素(噪声SD = 0.5)后的测试集,条件分布中81%的样本属于正确的类。仅在这种情况下,我们的方法类似于基于熵的二叉树[29]进行分类,同时能够解释任何参数噪声模型。

C. 与压缩感知的比较

压缩感知(CS)是一种广泛用于重建稀疏信号的技术[44]。压缩感知使用随机投影矩阵(感知矩阵),该矩阵保持数据点之间的距离,并满足受限等距性质(RIP)[44]。所需的测量数量取决于信号的稀疏程度。我们的方法与压缩感知不直接可比,因为我们的方法是自适应的(在线的),而压缩感知考虑全局数据(稀疏程度)。旨在学习感知矩阵的方法[45]是离线的且非自适应的,与我们的方法不同。我们之所以与压缩感知进行比较,是因为它是在许多领域中用于数据压缩的已建立基准。请注意,压缩感知的每个测量是图像中所有像素的加权求和,而我们方法中的测量只是1个像素。表III显示了基于MNIST和大脑MRI数据集[40], [41], [42]产生的样本的MRMSE,比较了压缩感知和知情感知。“像素数量”列显示了实际获得的像素数量。我们看到,由于在线自适应的特性,我们的方法需要显著较少的像素数量就能产生与压缩感知相似的结果。

D. 数值数据集上的结果

在这一部分中,我们通过将其应用于众所周知的数值数据集来展示我们的方法,包括鸢尾花、威斯康星州乳腺癌(诊断)、蛋白质三级结构和伽马望远镜数据集[46]。数据集的特征独立地归一化到0-1范围内,我们将噪声标准差设置为0.03。我们在表IV中比较了我们的方法与随机采样,在进行了15次带噪声的观察后。

V. 使用生成模型的实验

在这一部分中,我们展示了使用生成模型的结果。这允许我们推广到测试数据。我们将自己与压缩感知、随机采样、基于方差的像素采样以及[13]中的基于互信息的方法进行了比较。基于方差的像素采样涉及在离线确定训练集的像素方差,并在推理时从具有最高方差的像素开始采样。我们在不同的测量领域展示了实验。

A. 图像领域实验

在前一节中,我们确立了需要一个概括模型以在测试数据上获得可接受的性能。我们展示了使用基于神经网络的条件模型会导致在与训练数据相同分布的未见过测试数据上取得良好的结果。我们训练了无条件生成模型,并使用第III-D节中提到的条件生成技术进行条件生成。我们在各种数据集上训练了生成对抗网络(GAN)和变分自编码器(VAE)。我们还测试了单层和双层的无监督RBM模型[47],在MNIST上进行条件生成,但没有获得令人满意的结果。对于GAN,我们使用了[48]的架构,适应了28×28的图像大小。模型架构的详细信息可以根据要求提供。

我们在MNIST、FashionMNIST、皮肤癌HAM-10000数据集和CIFAR-10上训练了模型。对于每个模型,我们在5个训练集和5个测试集数据输入上运行了20次知情感知模拟。我们为MNIST和FashionMNIST添加了标准差为0.3的高斯噪声。HAM-10000和CIFAR-10集的噪声标准差为0.2。所有考虑的数据集的图像大小均为28×28像素,除了CIFAR-10为32×32像素。我们比较了在训练集和测试集上的结果,并在获取40个带噪声像素后,使用生成样本的RMSE进行了总结。表V总结了在三个图像数据集上,知情感知和随机采样生成样本的平均RMSE。随机采样的值显示在括号中。我们观察到,对于所有模型和数据集,训练集和测试集的平均性能是相似的。这表明该方法可以通过使用生成模型推广到未见过的数据。我们还注意到,VAE通常比GAN表现得更好。这是由于训练GAN模型的困难。请注意,由生成模型产生的样本具有比使用训练集作为数据时更高的RMSE,因为神经模型的训练误差不会降至零,这有助于知情和随机感知之间低差异。

我们使用在MNIST上训练的VAE进一步实验,将知情感知与基于方差的像素选择进行比较。对于基于方差的感知,我们根据训练数据中各个像素的方差对像素进行排序。在这些实验中,我们使用了100个测试集数字,并在表VI中展示了20次运行的均值和1个标准差RMSE,用于获取5、10、20和40个像素。我们的方法优于基于方差的采样。

我们展示了使用VAE进行知情感知生成的样本结果在图5中,以及使用随机感知在图6中。第一列显示了真实的测试集数字,其余列是样本。从上到下排列的行是在观察了0、10、20和40个带噪声像素之后的样本。我们可以看到,在这个例子中,知情感知在20个像素之后收敛,而随机感知即使在40个像素之后也显示出变化。

我们在FashionMNIST上获得了与MNIST相似的结果。

图7显示了使用在HAM-10000数据集上训练的VAE进行知情感知的结果。第一行显示真实情况,第二行显示观察到的像素,最后一行是VAE重建的完整图像,其余是样本。前三列是训练集示例,后三列是测试集示例。我们可以看到,在观察了80个像素之后,样本中仍然有一些变化,表明需要采样更多的像素。在这个数据集上训练生成模型是具有挑战性的,因为它展示了大量不同形状和颜色的病变,同时总共只有10,000个示例。我们使用9000个示例进行训练,留下1000个用于测试和验证。此外,请注意该数据集对红色的偏见,这被模型捕获了。







请到「今天看啥」查看全文