专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
跨境电商Eason  ·  eBay经理号如何优化listing ·  3 天前  
跨境电商Eason  ·  eBay经理号如何优化listing ·  3 天前  
雨果网  ·  突发!欧盟拟取消150欧元免税政策 ·  4 天前  
51好读  ›  专栏  ›  我爱计算机视觉

MatchDiffusion:零训练的自动化视频匹配剪辑生成

我爱计算机视觉  · 公众号  ·  · 2024-12-16 20:26

正文




关注公众号,发现CV技术之美




本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/11907467340,完整代码将在论文被录用后公开。

  • 论文标题:MatchDiffusion: Training-free Generation of Match-Cuts
  • 论文链接:https://arxiv.org/pdf/2411.18677
  • 项目链接:https://matchdiffusion.github.io/

效果示例

1. 简介

在电影制作中,匹配剪辑(Match-Cut)是一种强大的叙事工具,通过将两个场景以视觉上无缝连接的方式过渡,可以传达深刻的意象和情感。《2001太空漫游》中骨头变为宇宙飞船的经典剪辑便是一个绝佳示例。然而,制作匹配剪辑需要高度精心的策划和大量资源,普通视频生成模型难以实现。

正如 John Lasseter 所说:“The art challenges the technology, and the technology inspires the art.” 这句话完美诠释了艺术与技术之间的相互促进关系。在匹配剪辑的领域,技术的突破不仅让艺术创作更加丰富多样,也让普通创作者得以用更少的资源实现更高的艺术追求。

为此,MatchDiffusion 提出了一种基于文本提示生成视频匹配剪辑的零训练方法。无需训练数据,仅借助预训练的扩散模型,通过“联合扩散(Joint Diffusion)”和“分离扩散(Disjoint Diffusion)”机制,生成视觉上连贯但语义上独特的视频对,极大简化了匹配剪辑的生成过程。以下展示的是基于 MatchDiffusion 模型的复现案例。通过这些案例可以看到,无需额外训练,仅通过文本提示即可生成视觉协调且语义独特的视频,完美契合匹配剪辑的需求。

复现结果示例

2. 核心方法

2.1 扩散模型简介

扩散模型是一种强大的生成模型,其核心通过逐步从高斯噪声中去噪以生成高质量的符合文本描述的视频。在扩散过程的初期阶段,模型构建视频的总体结构,包括场景布局、色彩分布和运动轨迹,这些被称为“广义结构特征”。

随着去噪的逐步进行,模型逐渐引入更细粒度的细节,如纹理、物体形状和光影效果,从而形成完整且逼真的视频。MatchDiffusion 充分利用了这一特性,在前几个去噪步骤中通过“联合扩散” (Joint Diffusion) 共享视频的整体结构,使两个视频在视觉上协调一致;随后,通过“分离扩散” (Disjoint Diffusion) 分别生成两个视频的语义细节。

这样的分阶段去噪策略保证了视频既能保持结构一致性,又能展示语义多样性,从而完美适配匹配剪辑的需求。类比艺术家作画,扩散过程的前几步专注于“打草稿”,决定了场景的整体布局和运动方向,而后几步则负责“上色”,将细节填充到每一帧中。

2.2 MatchDiffusion 的两阶段策略

技术框架

2.2.1 联合扩散(Joint Diffusion)

联合扩散是 MatchDiffusion 的第一阶段,其目标是通过共享噪声样本确保视频的结构一致性。在这一阶段:

  • 两个文本提示的噪声预测 被通过函数 平均组合。
  • 这种组合方法可以保证视频初期的布局、运动模式等结构特征对两个场景保持一致。模型通过前 次去噪迭代建立了“骨架”,这种骨架既符合两个文本提示的要求,又提供了足够的灵活性,为后续生成细节奠定了基础。
  • 比如,如果两个提示分别描述“阳光下的沙滩”和“雪山顶的风暴”,联合扩散将为两个视频构建相同的地平线布局和大致色彩过渡。

2.2.2 分离扩散(Disjoint Diffusion)

在联合扩散完成后,模型进入分离扩散阶段,使两个视频根据各自的文本提示生成独立的语义细节:

  • 从第 步开始,模型分别以 为条件,生成符合提示语义的视频细节。
  • 在这一阶段,两个视频独立去噪,生成特定的纹理、颜色和语义内容,同时保留在联合扩散中共享的结构一致性。模型可以分别根据两个提升展开去噪,添加独属于每个场景的细节,比如沙滩的波浪和雪山的暴风雪。
  • 这种方法确保最终的视频不仅在整体视觉效果上协调一致,还能通过语义上的差异性形成有趣的匹配剪辑。为匹配剪辑提供丰富的可能性。

2.2.3 用户介入(User Intervention)

MatchDiffusion 引入了用户干预机制,允许在生成过程中融入用户的修改以实现更细致的个性化调整。通过一种人机交互策略(human-in-the-loop strategy),用户可以对生成的视频进行进一步定制,例如调整色调以更好地匹配先前序列的视觉风格,或修改背景以增强场景的连贯性。这种干预不是通过后期处理完成,而是直接嵌入到扩散过程中的,从而保持生成结果的真实性和一致性。

具体来说,用户干预被定义为一种通用的用户驱动修改,记作 ,可以是自动化的(如颜色查找表调整)或手动的(如添加场景元素)。

在去噪视频的分离扩散路径中,我们将 应用于去噪结果 ,公式如下: 。然后将修改后的结果编码为其对应的潜在表示 ,并通过分离扩散路径继续生成,直到完成剩余的去噪迭代。这样的设计确保即使用户的干预可能在后处理中影响场景的真实性,扩散过程的后续迭代也能够自然地优化和整合这些修改。

如图 4 所示,用户可以通过掩码操作或背景替换等直接参与修改,从而生成更符合需求的最终视频。

用户介入示例

3. 实验与结果

3.1 实验设置

  • 模型:统一使用预训练的 CogVideoX-5B 扩散模型。
  • 视频长度:40 帧,匹配剪辑由前 20 帧和后 20 帧拼接组成。
  • 运行环境:NVIDIA A100 上生成一个匹配剪辑需要约 7 分钟。

3.2 定量指标

我们选择了两个具有代表性的基线模型 (Baseline):

  • Video-to-Video Translation (V2V):通过先生成一个符合第一个提示的场景,再对其进行噪声注入,调整为符合第二个提示的场景。CogVideoX-5B-V2V 在保持视频结构一致性方面表现良好,但当两个提示语义差距较大时容易失效。
  • Motion Transfer: 基于 SMM 或 MOFT 的运动迁移方法,从生成的第一个视频中提取运动模式并应用于第二段提示的视频生成。通过分离运动与内容,这类方法允许更大的语义灵活性,但可能导致场景结构的显著偏离。我们在实验中重新实现了 SMM 和 MOFT,以确保与 CogVideoX-5B 的兼容性。这种方法的灵活性较强,但容易破坏整体结构一致性。结果表明,相较于 MOFT,SMM 在生成的运动平滑性和一致性上表现得更为优异。这是因为 SMM 更加注重运动特征的提取与保留,使其能更好地适应匹配剪辑的需求,而 MOFT 虽然提供了更高的语义灵活性,但在多帧场景中容易引入不必要的视觉扭曲,从而破坏整体的结构连贯性。
定量分析

在评估模型时,我们选用了以下三种核心指标来对比不同方法的性能:

  • CLIPScore:衡量生成视频与文本提示匹配程度的关键指标。数值越高,视频与文本提示的语义契合度越高。CLIPScore 的计算基于视频 每帧与 的匹配得分的平均值。在表 1 中,MatchDiffusion 和 SMM 共同实现了最高得分 0.34,显示了其在文本语义匹配上的可靠性。
  • Motion Consistency:用于评价两个视频在运动模式上的一致性,即场景连接是否自然流畅。较高的数值表明运动衔接更流畅。MatchDiffusion 在此指标上达到 0.70,显著高于其他方法,表明其在运动一致性上的领先性能。
  • LPIPS:基于帧间感知相似性,用于评估两个视频之间的结构一致性。较低的 LPIPS 值表示过渡更平滑、结构更一致。V2V 方法在结构一致性上表现最佳(0.31),但其语义变化较小,而 MatchDiffusion 在兼顾结构一致性和语义变化方面取得了更好的平衡(0.32)。

综上,通过与基线模型(如 V2V 和运动迁移方法 MOFT、SMM)的对比可以看出,MatchDiffusion 通过与基线模型(如 V2V 和运动迁移方法 MOFT、SMM)的对比可以看出,MatchDiffusion 在匹配剪辑的连贯性和视觉一致性上表现显著更优。

图 9 展示了控制参数 K 对 CLIPScore、Motion Consistency 和 LPIPS 的影响,进一步验证了 MatchDiffusion 在不同生成需求下的灵活性和稳定性。

当 K 较小时,CLIPScore 保持在较高水平(约 0.32),视频的文本语义契合度较高,但 LPIPS 指标较高,表明两个视频在视觉上更独立,语义切换明显。

随着 K 增加,Motion Consistency 指标逐渐提升,视频的运动轨迹愈加协调一致,LPIPS 减小,结构连贯性增强,但 CLIPScore 稍有下降。这是因为较大的 K 值生成了混合视频,融合了两个提示的特性,导致语义契合性略微减弱。

总的来说,MatchDiffusion 能够通过调整 K 值在语义切换和视觉一致性之间灵活平衡,这是现有基线方法难以企及的优势。

K值分析

3.3 用户干预分析

用户介入评估

我们对 MatchDiffusion 的用户干预机制进行了系统的实验分析,以验证其是否能够在不破坏匹配剪辑真实感的情况下,灵活地修改视频内容。







请到「今天看啥」查看全文