文章介绍了复旦大学人工智能方向博士卫昱杰关于DreamVideo-2的研究工作。该研究关注定制化视频生成,特别是无需推理时重新微调的一键生成专属外观和运动轨迹的定制化视频。文章还提到了研究背景、方法概述、数据集和可视化展示。
文章介绍了定制化视频生成的研究背景,现有的方法通常需要复杂的test-time fine-tuning,并且难以平衡物体学习和运动控制。因此,研究目标是提出一个Zero-Shot定制化视频生成框架DreamVideo-2,以简化生成过程并实现更好的物体学习和运动控制平衡。
文章介绍了DreamVideo-2的研究方法和特点,包括物体学习和运动控制两个方面。物体学习方面,利用视频扩散模型的固有能力提取多尺度物体特征,无需额外的图像编码器。运动控制方面,采用边界框作为用户输入来描绘物体运动轨迹,并通过mask引导的运动模块实现精确的运动控制。此外,还介绍了平衡物体学习和运动控制的关键设计,包括Masked reference attention和Reweighted diffusion loss。
文章展示了DreamVideo-2实验的结果和性能,包括与最先进方法的比较和可视化展示。此外,还介绍了构建的单物体视频数据集(DreamVideo-2数据集),其中包括每个视频的caption、所有帧前景物体的bounding box和mask标注。
文章还介绍了嘉宾卫昱杰的基本信息,包括研究方向、个人主页等。同时提供了联系方式,方便有兴趣的读者进一步交流和合作。
点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
本次分享我们邀请到了复旦大学人工智能方向在读博士
卫昱杰
为大家着重介绍他的工作:
DreamVideo-2
。如果您有相关工作需要分享,欢迎文末联系我们。
DreamVideo-2
: Zero-Shot Subject-Driven Video Customization with Precise Motion Control
论文
:
https://arxiv.org/abs/2410.13830
主页
:
https://dreamvideo2.github.io/
直播信息
时间
2024年
11月11日
(周一)
19:00
主题
复旦&阿里 | 无需微调!DreamVideo再进化!
DreamVideo-2:一键生成专属外观和运动轨迹的定制化视频!
直播平台
3D视觉工坊哔哩哔哩
扫码观看直播,或前往B站搜索3D视觉工坊观看直播
3DCV视频号
也将同步直播
嘉宾介绍
卫昱杰
复旦大学人工智能方向在读博士。研究方向为视频生成。
个人主页
:
https://weilllllls.github.io/
直播大纲
-
-
-
参与方式
摘要
定制化视频生成取得了显著的进展,使得用户能够创造指定物体外观和运动轨迹的个性化视频。然而,现有的定制化方法通常需要复杂的test-time fine-tuning,并且难以平衡物体学习和运动控制,从而限制了它们的实际应用。在本文中,我们提出了一个Zero-Shot定制化视频生成框架DreamVideo-2,以单张物体图像和一个bounding box(边界框)序列作为输入,生成具有特定物体外观和运动轨迹的视频,而无需推理时重新微调。具体来说,我们引入了reference attention,其利用了模型固有的能力来进行物体学习,并设计了一个mask引导的运动模块来实现精确的运动控制。
虽然这两个组件实现了其预期功能,但我们观察到运动控制相比于物体学习往往占据主导地位。为了解决这个问题,我们提出了两个关键设计:1) Masked reference attention,它将混合mask引入到reference attention中,以增强指定位置的物体特征;2) Reweighted diffusion loss,它区分bounding box内外区域的贡献,以确保物体学习和运动控制之间的平衡。
此外,我们也构建了一个单物体视频数据集(DreamVideo-2数据集),其中每个视频带有caption,所有帧前景物体的bounding box和mask标注。大量实验结果表明,DreamVideo-2在物体定制和运动控制方面均优于最先进的方法。数据集、代码和模型将会公开。
方法概述
-
物体学习
:给定单张输入图像,我们首先对其进行分割以获得具有空白背景的物体图像。为了捕捉物体外观的复杂细节,以前的工作通常使用额外的图像编码器来提取图像特征。然而,引入额外的网络往往会增加参数数量和训练成本。在本研究中,我们发现视频扩散模型本身足以提取外观特征,无需辅助模块,从而提高训练效率。基于此,我们提出了reference attention,利用模型的固有能力来提取多尺度物体特征。