专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

贾佳亚团队 x Adobe提出GenProp，物体追踪移除特效样样在行

我爱计算机视觉 · 公众号 · · 2025-01-25 22:16

正文

关注公众号，发现CV技术之美

Text-to-Video模型已展现出世界模拟器的潜力，这种潜力能革新传统视觉任务吗？

近日，贾佳亚团队联手Adobe团队，用GenProp（Generative Video Propagation）来给出答案。

GenProp可以完成几乎所有 “传播”（ Propagation）任务，即便是更接近感知任务的 实例追踪（Instance Tracking） ：

在人们的印象里，追踪（Tracking）问题已经得到了很好的解决。SOTA方法SAM在大规模分割数据上经过了专门的训练，精度很高。然而，传统感知方法的数据标注很难覆盖“千变万化”的影子，强如SAM也会在这类问题上犯错。

相比于SAM v2.1，GenProp展现出了 生成模型特有的优势 ：得益于video generation的基础能力，模型可以完整地 追踪物体的side effects，如狗和人的影子、反射等 。

这给我们带来了一些启发：

能够生成的视觉现象，是否都能够被感知？
生成式的大规模预训练，可能会弥补感知模型的一些缺陷。

GenProp并不追求在某个问题上成为定量的SOTA，而是希望能够发挥生成模型的作用， 拓展每个问题的边界，展现之前方法做不到的事情 。接下来，我们会看到GenProp对 物体移除、视频补全、物体替换、背景替换、物体插入、视频外绘 等问题的革新。

对于物体移除，传统方法只能移除物体本身。和追踪问题类似，GenProp也可以 同时移除物体产生的side effects ，如反射、影子。这对于传统方法很困难，因为数据多变、难以收集，需要模型对物理规律有理解。

对于物体插入，GenProp不仅能插入静止物体，还可以产生 合理的独立运动 ，如行驶的赛车、掉落的柠檬（符合物理规律）。

对于物体替换，GenProp不止能编辑外观（appearance editing），还能 大幅改变替换物体的形状 ，例如熊变成羊，人变成石台。而依靠attention map的传统视频编辑方法，如Video-P2P，都无法大幅改变形状。

GenProp还可以 编辑特效 ，如使钓鱼竿着火！须知，现阶段的编辑算法大多围绕物体和场景，对于特效的编辑能力都较弱。

对于背景替换，GenProp能使生成物体和新背景的相互作用，适应协调：

除此之外，GenProp在 没有outpainting数据pair训练 的情况下，涌现出了outpainting的能力，可以补全大面积运动的区域，体现了模型的通用能力：

化繁为简：通用框架与通用数据对

GenProp允许用户 在初始帧上做任意修改 ，并据此生成后续变化的内容。

在推理过程中，GenProp的框架通过选择性内容编码器（ Selective Content Encoder ，SCE）接收原始视频作为输入，以保留未改变区域的内容。首帧所做的更改会通过Image-to-Video（I2V）模型在整个视频中传播，而其他区域则保持不变。

如图所示，Selective Content Encoder负责重建原始视频的信息，Image-to-Video模型负责生产新的视频信息。通过调整Injection Weight，可以控制生成和重建的比例。

GenProp的框架在I2V生成模型的基础上集成了选择性内容编码器（Selective Content Encoder，SCE）和掩码预测解码器（Mask Decoder），强制模型传播编辑区域的同时，保留原始视频中其他所有区域的内容。通过Copy & Paste等合成数据，模型被训练以传播首帧中的各种变化，同时还可以预测每帧中被编辑区域的位置。

如图所示，训练过程中，仅需放开Selective Content Encoder和Mask Decoder的参数。合成数据只作为Selective Content Encoder的输入，用于监督的模型输出数据均采用原始视频，从而保证了 模型输出的视频质量不会被降低 。这也意味着，原始视频的caption可以直接送入text encoder。

具体来说，文章对实例分割数据采用了多种数据制造技术，针对不同的传播子任务进行了设计：

(1) Copy-and-Paste ：从一个视频中随机分割物体并粘贴到另一个视频中，模拟物体移除；

(2) Mask-and-Fill ：对遮罩区域进行图像修复，模拟选定区域内的编辑效果；

(3) Color Fill ：用特定颜色填充遮罩区域，代表基本的物体跟踪场景。

Copy & Paste合成数据如图所示（Video1和Video2是随机采样的视频）：

可以看出，GenProp的数据对并无涵盖所有的应用场景，但数据量很大。通过 有限的构造数据 ，SCE和I2V的分工得到了充分训练， 实现了“无限”应用 ，如特效编辑、outpainting等。

除此之外，GenProp提出了区域感知损失（ Region-Aware Loss ）。该loss通过限制梯度的方式， 削弱了SCE对于编辑区域的影响 ，帮助模型将编辑区域与原始内容区分开来。

可以观察到，在注意力图可视化过程中，注意力图逐渐聚焦于要移除的区域（左边的天鹅），引导I2V模型在这些区域内生成新内容，符合训练的预期：

贾佳亚团队 x Adobe提出GenProp，物体追踪移除特效样样在行

正文

化繁为简：通用框架与通用数据对

请到「今天看啥」查看全文