当前,最先进的文本到图像(T2I)模型需要大量的训练成本(例如,数百万个 GPU 小时),这严重阻碍了 AIGC 社区的基础创新,同时增加了二氧化碳排放。
现在,来自华为诺亚方舟实验室等研究机构的研究者联合提出了开创性的文本到图像(T2I)模型 PixArt-α, 只需要 Stable Diffusion v1.5 训练时间的 10.8%(约 675 vs 约 6250 A100 GPU 天),省下近 30 万美元(26000 美元 vs 320000 美元)。与更大的 SOTA 模型 RAPHAEL 相比,PixArt-α 的训练成本仅为 1%,且支持直接生成高达 1024×1024 分辨率的高分辨率图像。
PixArt-α 模型不仅大幅降低了训练成本,还显著减少了二氧化碳排放,同时提供了接近商业应用标准的高质量图像生成。
PixArt-α 的出现,为 AIGC 社区和初创公司提供了新的视角,以加速他们构建自己的高质量且低成本的生成模型。
原文链接:
https://arxiv.org/abs/2310.00426
为了实现低成本训练,华为采用了三阶段的训练策略:
第一个阶段是学习像素依赖关系
,简单来说是先学习生成真实的图像,这里是用ImageNet数据集训练一个基于类别的条件扩散模型;
然后是学习文本和图像的对齐
,即学习文本作为条件下的图像生成,这里的一个关键是采用LVLM (Large Vision-Language Model) 来给图像生成更详细的文本描述;
最后一个阶段是高质量微调
,即采用高分辨率和高美学图像对模型进行微调。总结来看,这是一种任务分解的训练策略。PixArt-α的模型架构如下所示,其中扩散模型采用Meta提出的DiT,相比混合卷积和注意力的UNet,DiT是一种纯transformer的结构,注意DiT也是基于latent diffusion,即也需要用autoencoder来得到图像的latent。文本编码器采用的谷歌的T5(具体是4.3B Flan-T5-XXL),为了引入文本特征,这里在DiT block中的Self-Attention和FFN之间引入了Cross-Attention。
与 Midjourney 的比较:此次比较使用的提示是从网上随机抽样的。为了确保公平的比较,研究团队选择了两种模型生成的第一个结果进行对比。
图三 PixArt生成的样图与MidJourney比较
与近期代表性的方法对比,如 Stable Diffusion XL、DeepFloyd 、DALL-E 2、ERNIE-ViLG 2.0 以及 RAPHAEL。所有方法都使用了与 RAPHAEL 中相同的提示词,其中人类艺术家希望在生成图像中保留的词语被用红色高亮。各行的具体提示在图示下方提供。
PixArt-α 采用了 Diffusion Transformer (DiT) 作为基础架构。
1. 像素间依赖学习
当前 class-condition 的方法 在生成语义连贯且像素逻辑合理的图像上展现出了卓越的性能。训练一个符合自然图像分布的 class-condition 图像生成模型,不仅训练相对简单,成本也较低。该研究还发现,适当的初始化可以极大地提升图像生成模型的训练效率。因此,PixArt 模型采用了一个 ImageNet 预训练模型作为基础,来增强模型的性能。此外,该研究也提出了重参数化来兼容预训练权重,以确保最佳的算法效果。
2. 文本图像对齐
从预训练的 class-condition 图像生成模型过渡到基于文本的图像生成模型的主要挑战在于如何实现文本概念与图像之间的精确对齐。这个对齐过程既耗时,也具有挑战性。为了有效地促进这个过程,该研究构建了一个高概念密度的由精确的文本 - 图像对组成的数据集。通过使用精确且信息丰富的数据,帮助模型在单次训练迭代中有效学习更多的概念,同时相较于之前的数据集,遇到的模糊性大大减少。这种策略性的方法赋予了 PixArt-α 高效地将文本描述与图像对齐的能力。
3. 图像美学质量
在第三阶段,该研究对模型进行了微调,利用了高质量的美学数据并提高了模型的分辨率,使得模型具有生成高质量图像的能力。值得注意的是,研究团队观察到模型在该阶段的收敛速度显著加快,这主要归功于前两阶段学习到的的强大的先验知识。
PixArt-α将训练进行任务分解,我觉得这个是一个好的尝试,但是一个很重要的问题,这里只用了不到25M的训练数据,模型的泛化性和多样性可能会是一个短板。另外这里采用LVLM模型来给图像生成文本描述,虽然描述更详细了,但是LVLM模型也可能会出现幻觉,导致文本描述部分偏离实际图像,所以这里其实也有一定噪音的,但是从PixArt-α的实验结果来看,这种噪音对训练可能是可以接受的。对于OpenAI最新推出的DALLE3,它的强大之处就在于超强的文本理解能力,你可以用复杂的文本提示词来生成准确的图像,也许OpenAI是基于多模态的GPT-4来增强了训练样本中的文本描述。
参考文献
PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis: https://arxiv.org/abs/2310.00426
杨业昊 | 责任编辑
饶菡 | 技术编辑
袁毅、赵星 | 审校
© THE END
↳
转载请联系本公众号获得授权