复旦&阿里 | 无需微调！DreamVideo再进化！DreamVideo-2：一键生成专属外观和运动轨迹的定制化视频！

3DCV · 公众号 · 互联网短视频科技自媒体 · 2024-11-02 00:00

主要观点总结

文章介绍了复旦大学人工智能方向博士卫昱杰关于DreamVideo-2的研究工作。该研究关注定制化视频生成，特别是无需推理时重新微调的一键生成专属外观和运动轨迹的定制化视频。文章还提到了研究背景、方法概述、数据集和可视化展示。

关键观点总结

关键观点1: 研究背景与目的

文章介绍了定制化视频生成的研究背景，现有的方法通常需要复杂的test-time fine-tuning，并且难以平衡物体学习和运动控制。因此，研究目标是提出一个Zero-Shot定制化视频生成框架DreamVideo-2，以简化生成过程并实现更好的物体学习和运动控制平衡。

关键观点2: 研究方法与特点

文章介绍了DreamVideo-2的研究方法和特点，包括物体学习和运动控制两个方面。物体学习方面，利用视频扩散模型的固有能力提取多尺度物体特征，无需额外的图像编码器。运动控制方面，采用边界框作为用户输入来描绘物体运动轨迹，并通过mask引导的运动模块实现精确的运动控制。此外，还介绍了平衡物体学习和运动控制的关键设计，包括Masked reference attention和Reweighted diffusion loss。

关键观点3: 实验数据与结果

文章展示了DreamVideo-2实验的结果和性能，包括与最先进方法的比较和可视化展示。此外，还介绍了构建的单物体视频数据集（DreamVideo-2数据集），其中包括每个视频的caption、所有帧前景物体的bounding box和mask标注。

关键观点4: 嘉宾介绍与联系方式

文章还介绍了嘉宾卫昱杰的基本信息，包括研究方向、个人主页等。同时提供了联系方式，方便有兴趣的读者进一步交流和合作。

正文

请到「今天看啥」查看全文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

本次分享我们邀请到了复旦大学人工智能方向在读博士 卫昱杰 为大家着重介绍他的工作： DreamVideo-2 。如果您有相关工作需要分享，欢迎文末联系我们。

DreamVideo-2 : Zero-Shot Subject-Driven Video Customization with Precise Motion Control
论文： https://arxiv.org/abs/2410.13830
主页： https://dreamvideo2.github.io/

直播信息

时间

2024年 11月11日 (周一) 19：00

主题

复旦&阿里 | 无需微调！DreamVideo再进化！
DreamVideo-2：一键生成专属外观和运动轨迹的定制化视频！

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

3DCV视频号 也将同步直播

嘉宾介绍

卫昱杰

复旦大学人工智能方向在读博士。研究方向为视频生成。

个人主页 ： https://weilllllls.github.io/

直播大纲

定制化图像生成的相关背景与方法回顾
定制化视频生成的相关背景与方法回顾
DreamVideo-2论文详解

参与方式

摘要

定制化视频生成取得了显著的进展，使得用户能够创造指定物体外观和运动轨迹的个性化视频。然而，现有的定制化方法通常需要复杂的test-time fine-tuning，并且难以平衡物体学习和运动控制，从而限制了它们的实际应用。在本文中，我们提出了一个Zero-Shot定制化视频生成框架DreamVideo-2，以单张物体图像和一个bounding box（边界框）序列作为输入，生成具有特定物体外观和运动轨迹的视频，而无需推理时重新微调。具体来说，我们引入了reference attention，其利用了模型固有的能力来进行物体学习，并设计了一个mask引导的运动模块来实现精确的运动控制。

虽然这两个组件实现了其预期功能，但我们观察到运动控制相比于物体学习往往占据主导地位。为了解决这个问题，我们提出了两个关键设计：1) Masked reference attention，它将混合mask引入到reference attention中，以增强指定位置的物体特征；2) Reweighted diffusion loss，它区分bounding box内外区域的贡献，以确保物体学习和运动控制之间的平衡。

此外，我们也构建了一个单物体视频数据集（DreamVideo-2数据集），其中每个视频带有caption，所有帧前景物体的bounding box和mask标注。大量实验结果表明，DreamVideo-2在物体定制和运动控制方面均优于最先进的方法。数据集、代码和模型将会公开。

方法概述

物体学习 ：给定单张输入图像，我们首先对其进行分割以获得具有空白背景的物体图像。为了捕捉物体外观的复杂细节，以前的工作通常使用额外的图像编码器来提取图像特征。然而，引入额外的网络往往会增加参数数量和训练成本。在本研究中，我们发现视频扩散模型本身足以提取外观特征，无需辅助模块，从而提高训练效率。基于此，我们提出了reference attention，利用模型的固有能力来提取多尺度物体特征。
运动控制 ：我们采用边界框作为用户输入来描绘物体运动轨迹，并将边界框序列转化为二值mask序列来作为最终的运动控制信号，以提高训练效率和运动控制精度。为了捕获运动信息，我们设计了一个mask引导的运动模块，该模块由一个时空编码器和空间ControlNet组成。虽然先前的研究证明了3D ControlNet从序列输入中提取控制信息的有效性，但其高昂的训练成本限制了实际应用。鉴于mask序列中简单的时序关系，我们认为轻量级的时空编码器足以提取必要的时序信息。因此，我们只需在其后附加一个空间ControlNet来进一步提高控制精度。
平衡物体学习和运动控制 ：虽然上述两个组件实现了其预期功能，但我们观察到，运动控制往往占据主导地位，这可能会损害物体ID的质量。为此，我们提出以下两个关键设计来有效平衡物体学习和运动控制。
1）Masked reference attention。我们提出了一个混合mask建模方案，并将其引入到所设计的reference attention中，使得模型在特征层面上更多地关注物体而较少地关注背景。
2）Reweighted diffusion loss。我们设计了一个损失函数来区分边界框内部和外部区域对标准扩散损失的贡献。具体而言，我们放大边界框内的贡献以增强物体学习，同时保留这些框外区域的原始扩散损失。

可视化展示

更多结果请见论文和项目主页。

注：本次分享我们邀请到了复旦大学人工智能方向在读博士 卫昱杰 为大家着重介绍他的工作：DreamVideo-2。如果您有相关工作需要分享，欢迎联系：cv3d008。