点击下方
卡片
,关注“
3D视觉之心
”公众号
>>
点击进入→
3D视觉之心技术交流群
“一些重要发现”
稠密预测由于训练数据的质量、多样性和规模有限,零样本泛化能力依然较差。现有方法
大多直接将预训练的扩散模型应用于密集预测任务,而没有探索更适合的扩散公式
。这种忽视通常会导致一系列问题,如:
-
性能受到没有考虑密集预测与图像生成之间根本区别的限制
-
基于这些问题,系统地分析扩散公式,试图找到一种更适合将预训练的扩散模型用于密集预测的公式,得出了一些
重要的发现
:
-
扩散式图像生成中广泛使用的参数化类型,即噪声预测,不适合密集预测。在初始去噪步骤中,噪声预测会引入大的预测误差,这些误差随后在整个去噪过程中被传播并放大。
-
多步扩散公式计算密集,且在数据和资源有限的情况下容易表现不佳。这些因素显著阻碍了扩散先验在密集预测任务中的适应性,导致精度和效率下降。
-
尽管性能卓越,模型在处理高细节区域时通常输出模糊的预测结果。这种模糊性归因于灾难性遗忘:在微调过程中,预训练的扩散模型逐渐失去了生成细节区域的能力。
本文介绍的
Lotus[1]是一种基于扩散的视觉基础模型,专为密集预测任务设计,具备简单且有效的微调协议
。首先,Lotus被训练为直接预测标注,从而避免了与标准噪声预测相关的有害方差。接着,引入了单步公式,即在纯噪声和清晰输出之间只需一步,促进了模型的收敛,并在有限的高质量数据下实现了更好的优化性能。这还大大提升了训练和推理的效率。此外,通过任务切换器实现了一种新的细节保留机制,使得模型既可以生成标注,也可以重建输入图像。在生成密集标注时,该机制保留了输入图像中的细节,既提升了性能,又不影响效率、不增加额外的参数或受表面纹理的影响。
主要贡献
如下:
-
系统地分析了扩散公式,发现其用于图像生成的参数化类型不适用于密集预测,且计算密集的多步扩散过程也是不必要且难以优化的。
-
提出了一种新的细节保留机制,确保了在细节丰富区域的更精确的密集预测,同时不影响效率、不引入额外的网络参数,也不受表面纹理的影响。
-
提出了Lotus,这是一种基于扩散的视觉基础模型,具有简单而有效的微调协议。Lotus在零样本单目深度估计和表面法线估计上取得了最先进的性能,并且能够支持多种应用。
具体方法
从对原始扩散公式进行最小修改的直接适应开始,如图4所示。称这一起点为“直接适应”。“直接适应”通过标准的扩散目标函数优化(如公式2所示),并使用标准的多步DDIM采样器进行推理。表3中的结果显示,直接适应未能达到令人满意的性能。在接下来的章节中,我们将系统地逐步分析影响适应性能的关键因素,包括:参数化类型、时间步数以及我们提出的新型细节保留器。
参数化类型
参数化类型是模型的一个重要配置,不仅决定了前面3节中讨论的损失函数形式,还影响了推理过程(公式4)。在推理过程中,干净样本的预测值
是通过不同的参数化类型计算出来的。
-
-
在图像生成任务中,噪声预测(
-prediction)通常被选为标准配置。然而,在密集预测任务中,噪声预测并不合适。接下来,我们将讨论不同参数化类型在去噪推理过程中的影响,特别是对于密集预测任务。
为了减轻大方差带来的错误对密集预测性能的负面影响,将标准的ε-prediction替换为更适合的x₀-prediction
。
时间步数
虽然干净样本预测(
-prediction)能够提高预测质量,但多步扩散公式仍然会导致预测误差在去噪过程中传播(如图5和图6所示)。此外,采用多个时间步数会增加模型的容量,通常需要大规模的训练数据来优化,尤其是在复杂任务(如图像生成)中是有益甚至必要的。然而,对于相对简单的密集预测任务来说,由于高质量训练数据的稀缺,使用多个时间步数可能会使模型难以优化。此外,多步扩散模型的训练和推理速度较慢,计算复杂度高,这大大影响了其实际应用。
为了解决这些挑战,提出了使用更少的训练时间步数来微调预训练的扩散模型。具体来说,原始的训练时间步数集定义为
,其中
是总的原始训练时间步数。我们通过从该集群中采样得到一个子集进行微调,这个子集的长度为
,并且
且
是
的倍数。这个子集通过均匀采样得到,定义为:
是采样间隔。在推理过程中,DDIM使用相同的子集从噪声中生成样本。
如图7所示,在x0-prediction的基础上,通过不同的训练时间步数和数据规模进行实验。结果表明,随着训练时间步数的减少,模型性能逐步提升,单步扩散公式(
)在各种数据规模下表现最佳。实验还揭示,多步扩散公式相比于单步扩散公式对训练数据规模更为敏感,尤其是在数据有限的情况下,单步扩散公式始终表现出更低的预测误差和更高的稳定性。虽然在无限高质量数据的情况下,多步和单步扩散公式可能会表现相似的性能,但这种情况下的训练代价昂贵且在密集预测任务中并不实用。
减少去噪步骤的数量可以缩小扩散模型的优化空间,从而使得适应过程更为有效和高效。因此,为了在有限资源下取得更好的适应性能,将扩散公式的训练时间步数减少到只有一步,并将唯一的时间步数
固定为
。此外,单步公式在计算上更为高效,自然也防止了有害的误差传播,进一步提高了扩散模型在密集预测任务中的适应性能。