专栏名称: 3D视觉之心
3D视觉与SLAM、点云相关内容分享
目录
相关文章推荐
51好读  ›  专栏  ›  3D视觉之心

速度快数百倍!基于扩散的视觉基础模型LOTUS:零样本深度和法线估计新SOTA

3D视觉之心  · 公众号  ·  · 2024-10-01 07:00

正文

点击下方 卡片 ,关注“ 3D视觉之心 ”公众号

第一时间获取 3D视觉干货

>> 点击进入→ 3D视觉之心技术交流群

“一些重要发现”

稠密预测由于训练数据的质量、多样性和规模有限,零样本泛化能力依然较差。现有方法 大多直接将预训练的扩散模型应用于密集预测任务,而没有探索更适合的扩散公式 。这种忽视通常会导致一系列问题,如:

  • 性能受到没有考虑密集预测与图像生成之间根本区别的限制
  • 标准的迭代去噪过程和集成推理严重限制了其效率。

基于这些问题,系统地分析扩散公式,试图找到一种更适合将预训练的扩散模型用于密集预测的公式,得出了一些 重要的发现

  1. 扩散式图像生成中广泛使用的参数化类型,即噪声预测,不适合密集预测。在初始去噪步骤中,噪声预测会引入大的预测误差,这些误差随后在整个去噪过程中被传播并放大。
  2. 多步扩散公式计算密集,且在数据和资源有限的情况下容易表现不佳。这些因素显著阻碍了扩散先验在密集预测任务中的适应性,导致精度和效率下降。
  3. 尽管性能卓越,模型在处理高细节区域时通常输出模糊的预测结果。这种模糊性归因于灾难性遗忘:在微调过程中,预训练的扩散模型逐渐失去了生成细节区域的能力。

本文介绍的 Lotus[1]是一种基于扩散的视觉基础模型,专为密集预测任务设计,具备简单且有效的微调协议 。首先,Lotus被训练为直接预测标注,从而避免了与标准噪声预测相关的有害方差。接着,引入了单步公式,即在纯噪声和清晰输出之间只需一步,促进了模型的收敛,并在有限的高质量数据下实现了更好的优化性能。这还大大提升了训练和推理的效率。此外,通过任务切换器实现了一种新的细节保留机制,使得模型既可以生成标注,也可以重建输入图像。在生成密集标注时,该机制保留了输入图像中的细节,既提升了性能,又不影响效率、不增加额外的参数或受表面纹理的影响。

主要贡献 如下:

  • 系统地分析了扩散公式,发现其用于图像生成的参数化类型不适用于密集预测,且计算密集的多步扩散过程也是不必要且难以优化的。
  • 提出了一种新的细节保留机制,确保了在细节丰富区域的更精确的密集预测,同时不影响效率、不引入额外的网络参数,也不受表面纹理的影响。
  • 提出了Lotus,这是一种基于扩散的视觉基础模型,具有简单而有效的微调协议。Lotus在零样本单目深度估计和表面法线估计上取得了最先进的性能,并且能够支持多种应用。

具体方法

从对原始扩散公式进行最小修改的直接适应开始,如图4所示。称这一起点为“直接适应”。“直接适应”通过标准的扩散目标函数优化(如公式2所示),并使用标准的多步DDIM采样器进行推理。表3中的结果显示,直接适应未能达到令人满意的性能。在接下来的章节中,我们将系统地逐步分析影响适应性能的关键因素,包括:参数化类型、时间步数以及我们提出的新型细节保留器。

参数化类型

参数化类型是模型的一个重要配置,不仅决定了前面3节中讨论的损失函数形式,还影响了推理过程(公式4)。在推理过程中,干净样本的预测值 是通过不同的参数化类型计算出来的。

  1. 噪声预测 -prediction):
  2. 干净样本预测 -prediction):

在图像生成任务中,噪声预测( -prediction)通常被选为标准配置。然而,在密集预测任务中,噪声预测并不合适。接下来,我们将讨论不同参数化类型在去噪推理过程中的影响,特别是对于密集预测任务。

为了减轻大方差带来的错误对密集预测性能的负面影响,将标准的ε-prediction替换为更适合的x₀-prediction

时间步数

虽然干净样本预测( -prediction)能够提高预测质量,但多步扩散公式仍然会导致预测误差在去噪过程中传播(如图5和图6所示)。此外,采用多个时间步数会增加模型的容量,通常需要大规模的训练数据来优化,尤其是在复杂任务(如图像生成)中是有益甚至必要的。然而,对于相对简单的密集预测任务来说,由于高质量训练数据的稀缺,使用多个时间步数可能会使模型难以优化。此外,多步扩散模型的训练和推理速度较慢,计算复杂度高,这大大影响了其实际应用。

为了解决这些挑战,提出了使用更少的训练时间步数来微调预训练的扩散模型。具体来说,原始的训练时间步数集定义为 ,其中 是总的原始训练时间步数。我们通过从该集群中采样得到一个子集进行微调,这个子集的长度为 ,并且 的倍数。这个子集通过均匀采样得到,定义为: 是采样间隔。在推理过程中,DDIM使用相同的子集从噪声中生成样本。

如图7所示,在x0-prediction的基础上,通过不同的训练时间步数和数据规模进行实验。结果表明,随着训练时间步数的减少,模型性能逐步提升,单步扩散公式( )在各种数据规模下表现最佳。实验还揭示,多步扩散公式相比于单步扩散公式对训练数据规模更为敏感,尤其是在数据有限的情况下,单步扩散公式始终表现出更低的预测误差和更高的稳定性。虽然在无限高质量数据的情况下,多步和单步扩散公式可能会表现相似的性能,但这种情况下的训练代价昂贵且在密集预测任务中并不实用。

减少去噪步骤的数量可以缩小扩散模型的优化空间,从而使得适应过程更为有效和高效。因此,为了在有限资源下取得更好的适应性能,将扩散公式的训练时间步数减少到只有一步,并将唯一的时间步数 固定为 。此外,单步公式在计算上更为高效,自然也防止了有害的误差传播,进一步提高了扩散模型在密集预测任务中的适应性能。







请到「今天看啥」查看全文