速度快数百倍！基于扩散的视觉基础模型LOTUS：零样本深度和法线估计新SOTA

3D视觉之心 · 公众号 · · 2024-10-01 07:00

正文

点击下方卡片，关注“ 3D视觉之心 ”公众号

第一时间获取 3D视觉干货

>> 点击进入→ 3D视觉之心技术交流群

“一些重要发现”

稠密预测由于训练数据的质量、多样性和规模有限，零样本泛化能力依然较差。现有方法 大多直接将预训练的扩散模型应用于密集预测任务，而没有探索更适合的扩散公式 。这种忽视通常会导致一系列问题，如：

性能受到没有考虑密集预测与图像生成之间根本区别的限制
标准的迭代去噪过程和集成推理严重限制了其效率。

基于这些问题，系统地分析扩散公式，试图找到一种更适合将预训练的扩散模型用于密集预测的公式，得出了一些 重要的发现 ：

扩散式图像生成中广泛使用的参数化类型，即噪声预测，不适合密集预测。在初始去噪步骤中，噪声预测会引入大的预测误差，这些误差随后在整个去噪过程中被传播并放大。
多步扩散公式计算密集，且在数据和资源有限的情况下容易表现不佳。这些因素显著阻碍了扩散先验在密集预测任务中的适应性，导致精度和效率下降。
尽管性能卓越，模型在处理高细节区域时通常输出模糊的预测结果。这种模糊性归因于灾难性遗忘：在微调过程中，预训练的扩散模型逐渐失去了生成细节区域的能力。

本文介绍的 Lotus[1]是一种基于扩散的视觉基础模型，专为密集预测任务设计，具备简单且有效的微调协议 。首先，Lotus被训练为直接预测标注，从而避免了与标准噪声预测相关的有害方差。接着，引入了单步公式，即在纯噪声和清晰输出之间只需一步，促进了模型的收敛，并在有限的高质量数据下实现了更好的优化性能。这还大大提升了训练和推理的效率。此外，通过任务切换器实现了一种新的细节保留机制，使得模型既可以生成标注，也可以重建输入图像。在生成密集标注时，该机制保留了输入图像中的细节，既提升了性能，又不影响效率、不增加额外的参数或受表面纹理的影响。

主要贡献 如下：

系统地分析了扩散公式，发现其用于图像生成的参数化类型不适用于密集预测，且计算密集的多步扩散过程也是不必要且难以优化的。
提出了一种新的细节保留机制，确保了在细节丰富区域的更精确的密集预测，同时不影响效率、不引入额外的网络参数，也不受表面纹理的影响。
提出了Lotus，这是一种基于扩散的视觉基础模型，具有简单而有效的微调协议。Lotus在零样本单目深度估计和表面法线估计上取得了最先进的性能，并且能够支持多种应用。

具体方法

从对原始扩散公式进行最小修改的直接适应开始，如图4所示。称这一起点为“直接适应”。“直接适应”通过标准的扩散目标函数优化（如公式2所示），并使用标准的多步DDIM采样器进行推理。表3中的结果显示，直接适应未能达到令人满意的性能。在接下来的章节中，我们将系统地逐步分析影响适应性能的关键因素，包括：参数化类型、时间步数以及我们提出的新型细节保留器。

参数化类型

参数化类型是模型的一个重要配置，不仅决定了前面3节中讨论的损失函数形式，还影响了推理过程（公式4）。在推理过程中，干净样本的预测值是通过不同的参数化类型计算出来的。

噪声预测 （ -prediction）：
干净样本预测 （ -prediction）：

在图像生成任务中，噪声预测（ -prediction）通常被选为标准配置。然而，在密集预测任务中，噪声预测并不合适。接下来，我们将讨论不同参数化类型在去噪推理过程中的影响，特别是对于密集预测任务。

为了减轻大方差带来的错误对密集预测性能的负面影响，将标准的ε-prediction替换为更适合的x₀-prediction 。

时间步数

虽然干净样本预测（ -prediction）能够提高预测质量，但多步扩散公式仍然会导致预测误差在去噪过程中传播（如图5和图6所示）。此外，采用多个时间步数会增加模型的容量，通常需要大规模的训练数据来优化，尤其是在复杂任务（如图像生成）中是有益甚至必要的。然而，对于相对简单的密集预测任务来说，由于高质量训练数据的稀缺，使用多个时间步数可能会使模型难以优化。此外，多步扩散模型的训练和推理速度较慢，计算复杂度高，这大大影响了其实际应用。

为了解决这些挑战，提出了使用更少的训练时间步数来微调预训练的扩散模型。具体来说，原始的训练时间步数集定义为，其中是总的原始训练时间步数。我们通过从该集群中采样得到一个子集进行微调，这个子集的长度为，并且且是的倍数。这个子集通过均匀采样得到，定义为：是采样间隔。在推理过程中，DDIM使用相同的子集从噪声中生成样本。

如图7所示，在x0-prediction的基础上，通过不同的训练时间步数和数据规模进行实验。结果表明，随着训练时间步数的减少，模型性能逐步提升，单步扩散公式（）在各种数据规模下表现最佳。实验还揭示，多步扩散公式相比于单步扩散公式对训练数据规模更为敏感，尤其是在数据有限的情况下，单步扩散公式始终表现出更低的预测误差和更高的稳定性。虽然在无限高质量数据的情况下，多步和单步扩散公式可能会表现相似的性能，但这种情况下的训练代价昂贵且在密集预测任务中并不实用。

减少去噪步骤的数量可以缩小扩散模型的优化空间，从而使得适应过程更为有效和高效。因此，为了在有限资源下取得更好的适应性能，将扩散公式的训练时间步数减少到只有一步，并将唯一的时间步数固定为。此外，单步公式在计算上更为高效，自然也防止了有害的误差传播，进一步提高了扩散模型在密集预测任务中的适应性能。

速度快数百倍！基于扩散的视觉基础模型LOTUS：零样本深度和法线估计新SOTA

正文

“一些重要发现”

具体方法

(adsbygoogle = window.adsbygoogle || []).push({}); 参数化类型

时间步数

请到「今天看啥」查看全文

参数化类型