专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
51好读  ›  专栏  ›  AI算法与图像处理

太强了!浙大联合上海AI Lab提出视觉统一Diffusion架构DICEPTION!各种视觉任务一网打尽!

AI算法与图像处理  · 公众号  ·  · 2025-02-27 21:26

正文

来源:数源AI


数源AI 最新论文解读系列

论文名:DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

论文链接: https://arxiv.org/pdf/2502.17157

开源代码:https://aim-uofa.github.io/Diception/



导读

基础模型通常需要在数十亿个数据样本上进行大量训练,它们在各自的领域中起着关键作用。在自然语言处理(NLP)领域,当前的基础模型已经显示出作为通用解决方案的潜力,能够解决各种基础任务,并且对于新任务只需进行最少的微调。这种成功可归因于各种语言任务之间的表征差异相对较小。然而,在计算机视觉领域,任务表征可能存在显著差异,到目前为止,我们仍然缺乏一种有效的方法来统一这些不同的任务。

简介

我们在此的主要目标是创建一个优秀的通用感知模型,该模型能够在计算资源和训练数据有限的情况下处理多项任务。为实现这一目标,我们借助在数十亿张图像上预训练的文本到图像扩散模型,并推出了我们的视觉通用模型:DICEPTION。我们详尽的评估指标表明,DICEPTION能够有效处理多项感知任务,其性能与最先进的模型相当。我们仅使用了SAM - vit - h模型0.06%的数据(例如,60万张与10亿张像素级标注图像)就取得了与之相当的结果。受王等人[109]的启发,DICEPTION使用颜色编码来表示各种感知任务的输出;并且我们发现,为不同实例分配随机颜色的策略在实体分割和语义分割中都非常有效。将各种感知任务统一为条件图像生成,使我们能够充分利用预训练的文本到图像模型。因此,与从头开始训练的传统模型相比,DICEPTION可以以低几个数量级的成本进行高效训练。当将我们的模型应用于其他任务时,只需要在少至50张图像上微调约1%的参数。DICEPTION为视觉通用模型提供了有价值的见解和更有前景的解决方案。项目网页和Hugging Face演示均已上线。

方法与模型

1. 预备知识

最近的扩散模型主要基于流匹配方法和DiT架构构建。它们旨在学习一个速度场,该速度场能有效地将样本从源分布映射到目标分布。训练过程包括最小化模型预测速度与真实速度之间的差异,这通常表示为:

其中 是条件,通常是文本提示。 是干净图像的潜在表示, 是加噪后的图像。学习到的速度场对应一个常微分方程(ODE),因此在推理过程中,从源分布中抽取的样本可以通过求解这个ODE转换为所需的输出。

2. 将任务表示统一到RGB空间

决定在RGB空间中统一不同任务的表示形式,主要受两个关键因素驱动:(1)它能最大程度地利用文本到图像模型中的先验知识,这些模型在RGB领域进行了广泛的训练。(2)RGB是计算机视觉中的基础表示形式,它提供了一个通用的视觉框架,通过该框架可以连贯且直观地可视化各种任务。

我们专注于计算机视觉中几个最基本的任务:单目深度估计、法线估计和分割。特别是分割任务,涵盖了点提示分割、实体分割和语义分割。所有这些任务都可以在RGB空间中统一,区别仅在于通道数量。对于单通道表示,如深度图和分割掩码,我们通过将通道数据重复三次使其与RGB对齐。对于本质上为三通道的表示,如法线图,我们直接将其视为RGB图像。

实体分割是指在不考虑类别的情况下分割图像中的每个实例。我们为图像中的每个掩码随机分配一种颜色,并将它们合并成一个三通道的RGB掩码。Painter发现随机分配颜色会使模型难以优化。然而,我们发现这种方法对训练没有不利影响,并且能使模型通过为不同实例绘制不同颜色来有效学习区分它们。在后期处理中,可以使用聚类算法从RGB掩码中提取每个实例的掩码,而不会显著降低性能。我们还在语义分割中应用了随机颜色分配。与传统的语义分割不同,我们的方法能够分割同一语义类别的实例。默认情况下,我们使用K-means算法进行掩码提取。

表示每个任务在统一之前的原始表示,用 表示统一后的类RGB输出表示。我们将这个过程形式化为:

3. DICEPTION:一个统一的框架

架构。我们的模型采用了与SD3相同的架构。我们的目标是尽可能保持架构不变,充分利用预训练的先验知识。我们使用简单的任务提示来引导模型执行各种任务,如“图像到深度”、“图像到法线”和“图像到分割”。

图1:我们提出了一个解决多个感知任务的通用扩散模型。这里展示了所提出的DICEPTION的整体流程。在每个去噪步骤中,点嵌入、输入图像潜变量和任务嵌入保持不变,只有噪声潜变量被更新。

对于点提示分割,一种简单的方法是直接在图像上绘制点。但这种策略对绘制点的大小高度敏感。如果绘制的点太大,它们可能会遮挡小区域,导致分割失败。相反,如果绘制的点太小,模型在变分自编码器(VAE)下采样和分块处理后可能会丢失相关的点信息。为了解决这个问题,我们引入了一个简单的两层多层感知机(MLP) ,使模型能够理解点提示。

受分割一切模型(SAM)的启发,我们将正弦 - 余弦位置编码应用于点坐标 ,然后将它们输入到多层感知机(MLP) 中,以生成与输入隐藏状态维度匹配的点嵌入。我们使用两个可学习的嵌入来指示该嵌入是否为点嵌入: 表示点嵌入, 表示非点嵌入。处理后的点嵌入与 相加。对于其他任务,我们简单地使用 作为点嵌入。在训练过程中,我们随机选择1 - 5个点来指导分割。当所选点的数量少于5个时,我们用 将点嵌入填充到长度为5。在执行不需要点输入的任务时,点嵌入只是一个长度为5的序列,其中每个元素都是 。将最终的点嵌入表示为 ,这个过程可以表示为:







请到「今天看啥」查看全文