STIV: Scalable Text and Image Conditioned Video Generation 论文链接:
https://arxiv.org/abs/2412.07730
引言
近年来,视频生成领域取得了显著的进展,特别是在基于多种条件的生成技术方面。然而,目前的研究仍面临许多挑战,包括如何更有效地整合模型架构、训练策略和数据整理技巧来提升视频生成的质量。尤其是,针对文本到视频(T2V)和图像-文本到视频(TI2V)任务的单一模型尚未得到充分开发。
在此背景下,研究者提出了一种新的框架——STIV(可扩展的文本与图像条件视频生成),以期为视频生成的研究提供一种系统的方法。STIV框架的目标是通过整合图像条件和文本条件,构建一个既可以完成T2V任务,又能处理TI2V任务的统一模型,从而为视频生成的多样化和精确性提供支持。通过对不同架构和策略的系统性分析,STIV框架旨在提高生成视频的质量和一致性。 本节的重点在于明确引入STIV框架的动机与目标,综述了当前在视频生成领域的主要技术进展,以及如何应对这些现存的挑战。图1展示了STIV与现有最先进模型在视频生成任务中的性能比较,为后续章节的讨论奠定基础。
▲ 图1 . STIV模型与当前最 先进模型在视频生成任务中的性能对比
在本节中,将详细解读STIV(Scalable Text and Image Conditioned Video Generation)框架的基本模型架构,强调其核心组件,并说明如何通过帧替换实现图像条件的整合,以及如何使用联合图像-文本条件下的分类器无关引导(JIT-CFG)。 STIV模型基于PixArt 架构,利用一个被冻结的变分自编码器(VAE)将输入帧转换为空间和时间潜在嵌入。这些嵌入随后由一系列可学习的类似于Diffusion Transformer(DiT)块进行处理。为了处理文本提示,STIV使用T5 tokenizer和内部训练的CLIP文本编码器。 2.2 空间-时间注意力
STIV模型采用了分解的空间-时间注意力机制,通过将时间维度折叠到批处理维度,首先对空间标记执行空间自注意力计算,然后将输出重新排列,折叠空间维度进行时间标记的自注意力计算。这样做不仅有助于有效预加载来自文本到图像(T2I)模型的权重,也保持了对视频各帧的信息处理。 STIV模型使用原始图像分辨率、裁剪坐标、采样步幅和帧数作为微观条件,以编码训练数据的元信息。通过一个正弦嵌入层将这些属性进行编码,接着通过多层感知机(MLP)将其投影到d维嵌入空间。 这些微观条件嵌入连同扩散时间步嵌入和来自CLIP模型最后一层的文本标记嵌入相加,形成一个单例条件。这一单例条件用于生成共享的尺度-偏移-门参数,这些参数将在每个Transformer层的空间注意力和前馈层中使用。 STIV模型采用旋转位置嵌入(RoPE),以增强模型在处理相对时间和空间关系的能力。RoPE不仅能与高计算应用中使用的掩蔽方法兼容,而且在分辨率变化时具有高度适应性。在分解的空间-时间注意力中,STIV分别对空间注意力应用二维RoPE,对时间注意力应用一维RoPE。 与传统的扩散损失不同,STIV选择使用流动匹配(Flow Matching)训练目标,该目标定义了来源分布与目标分布之间的条件最优传输。在此情况下,假设源分布为高斯分布,并使用线性插值实现目标匹配。训练目标可被形式化为: 其中,速度向量场为 。在推理阶段,STIV通过从时间步0到1求解对应的逆向时序随机微分方程(SDE)来从随机采样的高斯噪声中生成图像。 在训练过程中,STIV通过将无噪声的图像条件潜在表示替换掉带噪声的第一帧潜在表示,从而实现图像条件的整合。此替换操作在推理时使用原始图像条件的无噪声潜在表示作为每个TI2V扩散步骤的第一帧。 这两个步骤极大地提升了模型的灵活性。例如,在没有图像条件的情况下,模型默认进行文本到视频(T2V)生成;而提供图像条件则转为文本-图像到视频(TI2V)生成。进一步提供多个帧作为图像条件则可以实现视频预测,甚至在提供首帧和末帧的情况下执行帧插值。 2.7 联合图像-文本条件下的分类器无关引导(JIT-CFG)
在训练时进行图像条件的随机丢弃,并结合JIT-CFG方法,不仅使STIV能够展开多任务学习,还有效地缓解了高分辨率TI2V模型中的过拟合问题。JIT-CFG依据随机模态的引导,将有效的速度估计进行修正,以实现更高的生成质量。 综合来看,STIV框架的设计通过诸多独特的策略和结构,使得模型能够高效而灵活地应对多种视频生成任务,并为今后的研究提供了丰富的思路与基础。
在STIV框架中,模型架构与训练策略的设计是提升视频生成质量与效率的关键。研究者们在设计STIV模型时,注重结合各种稳定性技术、训练流程的优化以及模型规模的调整,以便在资源受限的情况下实现较高的性能。 STIV模型主要基于PixArt 模型,其将输入帧转换为空间和时间的潜在嵌入。通过使用预训练的变分自编码器(VAE),这些嵌入随后被馈入一系列可学习的DiT样块。为了整合文本条件,STIV采用了T5令牌化器和内部训练的CLIP文本编码器,以便处理文本提示。模型总体框架如图4所示。 为了解决训练过程中出现的不稳定性问题,研究者们采用了多种技术来提升训练的稳定性。例如,QK-norm的应用有效地稳定了查询和键向量的计算,从而提高了注意力的效果。此外,采用沙拉技术(Sandwich-Norm)结合无状态层归一化,可以保证STIV块内的每一层具有更稳定的性能表现。通过将这些技术与模型设计相结合,可以有效提升较大模型的训练效率。 为了应对资源占用的问题,STIV框架采用了渐进式训练的方法。首先,研究者从文本到图像(T2I)模型开始训练,该模型然后作为初始化基础,接下来训练文本到视频(T2V)模型。T2V模型又进一步用于初始化STIV模型,同时实现高分辨率和长时间生成的快速适应。采用插值的RoPE嵌入,可以在空间和时间维度上快速提高训练质量。 为了确保较高的训练效率,STIV模型还进行了内存使用的优化。研究者们采用了AdaFactor优化器来替代传统的AdamW,这样不仅有助于提高训练速度,还有助于降低内存占用。随机掩码操作(MaskDiT)在训练的初期阶段确保了模型的高效性,进一步在训练过程中增加了模型的稳定性与性能。 通过上述设计与策略的综合应用,使得STIV模型能够在多种生成任务中表现出优秀的性能。进一步的研究和实验将会有助于揭示模型架构的深层次潜力,以及在视频生成领域的广阔应用前景。
数据处理与评估
在视频生成模型的训练过程中,数据的质量及处理方式对于模型表现具有至关重要的影响。本节将探讨STIV框架中视频数据引擎的构建,特别是数据预处理、特征提取以及数据过滤对模型性能的影响。 为提升数据集的质量,STIV框架引入了一个全面的视频数据引擎,该引擎专注于以下几个关键问题: 如何通过先进的视频标注技术减少幻觉现象并改善结果?
在该框架下,STIV采用了Panda-70M作为工作示例,生成了一个经过筛选的子集——Panda-30M。 在预处理阶段,STIV使用了Py Scene Detect算法来去除突变和不一致的片段,从而生成更加连贯的剪辑。通过视频分割,66个不同类型的特征被提取,包括但不限于运动分数、美学分数、文本区域、帧尺寸、清晰度分数、时间一致性和视频方向等。这些关键特征为接下来的数据过滤提供了依据,以确保所处理的数据集的多样性和质量。 为了进一步提高训练数据的有效性,STIV框架实施了数据过滤策略,旨在降低数据集中的噪声和幻觉现象。通过处理和准备不同训练阶段所需的数据集,STIV有效提升了模型的学习效率和生成能力。高度质量的数据可以确保模型在学习过程中的有效性,进而提升最终生成视频的质量。 为全面评估模型性能,STIV框架采用了一系列指标进行定量分析,包括视频的时间质量和语义一致性。这些评估指标将模型生成的视频与输入要求进行对比,确保生成内容的高质量和一致性。总评分综合考虑视频生成质量和语义对齐程度,确保模型能够在多种场景中展现优异的性能。 通过一系列严格的数据处理和评估标准,STIV框架确保生成的视频不仅在技术上实现了创新,更在艺术表现和内容一致性上达到了高标准。这为后续的实验和模型优化奠定了坚实的基础。
在本节中,研究团队展示了STIV(可扩展的文本和图像条件视频生成)模型在多种视频生成任务(如文本到视频 T2V 和图像文本到视频 TI2V)上的实验结果。通过对不同设计选择的综合分析,本文探讨了这些选择对模型性能的显著影响,并提供了对生成视频质量的深入评估。 研究团队首先在VBench平台上进行评估,该平台提供了多个性能指标,主要包括视频的时间质量和语义一致性。实验的设置和结果如图所示(见图 1):
在文本到视频(T2V)任务中,STIV模型实现了优异的性能,其最高评分达到了83.1,超越了当前领先的开源和闭源模型(如CogVideoX-5B、Pika、Kling和Gen-3)。与此同时,STIV在图像文本到视频(TI2V)任务中也表现出色,其最佳模型在VBench I2V任务中取得了90.1的国家最佳成绩。这些结果突显了模型在处理多任务上的能力,表明STIV能够有效地集成文本和图像条件,从而增强生成视频的质量。 为进一步分析生成视频的质量,研究团队重点关注了视频的时间质量和语义一致性等指标。结果表明,尽管STIV的设计较为简单,但其在视频生成的各个维度上均有所提升。具体而言,通过使用联合图像文本条件下的无分类器引导(JIT-CFG),STIV解决了模型静态帧的问题,使得在TI2V任务中生成的视频呈现出更高的动态度和流畅性。 研究团队还强调了不同设计选择对软件表现的影响。例如,帧替换策略和图像条件失活方法的结合显著提高了模型的多任务学习能力,并保持了高水平的生成质量。同时,使用逐层穷举和随机失活策略不仅提高了训练的稳定性,还丰富了生成视频的多样性。 在定量分析中,STIV模型表现出色的同时,研究团队还注重于定性结果,提供了多种生成示例以供参考。这些示例包括不同主题和背景下的生成视频,以证明该模型在多样化视频生成任务中的有效性。在大多数生成样本中,视频均表现出较高的一致性和连续性,反映出STIV在处理复杂运动场景和多变环境时的卓越能力。 总体而言,研究结果清晰地表明了STIV模型作为一个单一模型同时处理T2V和TI2V任务的潜力,提供了一个透明且可扩展的构建视频生成解决方案的框架,为未来的研究和应用开辟了新的方向。 在本文中,STIV框架的提出为视频生成领域的研究提供了一种新颖且有效的方法。随着模型在T2V和TI2V任务上的性能显著提高,研究人员可以进一步拓展STIV框架的适用性,以应对更多复杂的视频生成挑战。 首先,未来的研究可以聚焦于如何将STIV应用于更广泛的上下文中,例如,将其集成到多模态学习框架内,利用额外的数据源(如声音、文本摘要等)来增强生成视频的表现。通过引入声音和棋牌游戏生成的元素,STIV可以生成更为细致、可交互的视频内容,为用户提供沉浸式体验。 此外,STIV框架的模型架构和训练策略为进一步提高生成视频的质量与多样性提供了基础。未来研究可以探索如何结合更先进的深度学习技术,例如自监督学习与强化学习,以改善模型在复杂场景下的表现。通过应用自监督技术,模型可以在无标注数据环境下进行训练,进而提高在实际应用中的鲁棒性和适应性。 进一步地,未来的研究可以着眼于模型的压缩和加速问题。随着视频生成模型的规模不断增大,如何在保证生成质量的前提下降低模型的计算资源需求将成为一个重要挑战。研究人员可以探索模型蒸馏、剪枝等方法,以提高STIV在移动设备或实时应用中的可用性。 最后,STIV框架在可解释性上的提升也是一个重要的研究方向。通过探索生成过程中各个环节(如图像条件和文本条件之间的相互作用),研究人员可以更好地理解模型的决策过程,从而提升模型的透明度和信任度。这种可解释性的提高不仅对于模型本身的优化至关重要,同时也为用户提供了更多对生成结果的直观理解。 综上所述,STIV框架在视频生成领域的应用前景广阔,未来的研究将能够推动其进一步的改进与创新,促进视频处理技术的整体进步。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: [email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧