专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
51好读  ›  专栏  ›  3DCV

复旦&阿里 | 无需微调!DreamVideo再进化!DreamVideo-2:一键生成专属外观和运动轨迹的定制化视频!

3DCV  · 公众号  · 互联网短视频 科技自媒体  · 2024-11-02 00:00

正文

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

本次分享我们邀请到了复旦大学人工智能方向在读博士卫昱杰为大家着重介绍他的工作:DreamVideo-2。如果您有相关工作需要分享,欢迎文末联系我们。

DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control
论文https://arxiv.org/abs/2410.13830
主页https://dreamvideo2.github.io/

直播信息

时间

2024年11月11日(周一)19:00

主题

复旦&阿里 | 无需微调!DreamVideo再进化!
DreamVideo-2:一键生成专属外观和运动轨迹的定制化视频!

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3DCV视频号也将同步直播

嘉宾介绍

卫昱杰

复旦大学人工智能方向在读博士。研究方向为视频生成。

个人主页https://weilllllls.github.io/

直播大纲

  1. 定制化图像生成的相关背景与方法回顾
  2. 定制化视频生成的相关背景与方法回顾
  3. DreamVideo-2论文详解

参与方式

摘要

定制化视频生成取得了显著的进展,使得用户能够创造指定物体外观和运动轨迹的个性化视频。然而,现有的定制化方法通常需要复杂的test-time fine-tuning,并且难以平衡物体学习和运动控制,从而限制了它们的实际应用。在本文中,我们提出了一个Zero-Shot定制化视频生成框架DreamVideo-2,以单张物体图像和一个bounding box(边界框)序列作为输入,生成具有特定物体外观和运动轨迹的视频,而无需推理时重新微调。具体来说,我们引入了reference attention,其利用了模型固有的能力来进行物体学习,并设计了一个mask引导的运动模块来实现精确的运动控制。

虽然这两个组件实现了其预期功能,但我们观察到运动控制相比于物体学习往往占据主导地位。为了解决这个问题,我们提出了两个关键设计:1) Masked reference attention,它将混合mask引入到reference attention中,以增强指定位置的物体特征;2) Reweighted diffusion loss,它区分bounding box内外区域的贡献,以确保物体学习和运动控制之间的平衡。

此外,我们也构建了一个单物体视频数据集(DreamVideo-2数据集),其中每个视频带有caption,所有帧前景物体的bounding box和mask标注。大量实验结果表明,DreamVideo-2在物体定制和运动控制方面均优于最先进的方法。数据集、代码和模型将会公开。

方法概述

  1. 物体学习:给定单张输入图像,我们首先对其进行分割以获得具有空白背景的物体图像。为了捕捉物体外观的复杂细节,以前的工作通常使用额外的图像编码器来提取图像特征。然而,引入额外的网络往往会增加参数数量和训练成本。在本研究中,我们发现视频扩散模型本身足以提取外观特征,无需辅助模块,从而提高训练效率。基于此,我们提出了reference attention,利用模型的固有能力来提取多尺度物体特征。

  2. 运动控制:我们采用边界框作为用户输入来描绘物体运动轨迹,并将边界框序列转化为二值mask序列来作为最终的运动控制信号,以提高训练效率和运动控制精度。为了捕获运动信息,我们设计了一个mask引导的运动模块,该模块由一个时空编码器和空间ControlNet组成。虽然先前的研究证明了3D ControlNet从序列输入中提取控制信息的有效性,但其高昂的训练成本限制了实际应用。鉴于mask序列中简单的时序关系,我们认为轻量级的时空编码器足以提取必要的时序信息。因此,我们只需在其后附加一个空间ControlNet来进一步提高控制精度。

  3. 平衡物体学习和运动控制:虽然上述两个组件实现了其预期功能,但我们观察到,运动控制往往占据主导地位,这可能会损害物体ID的质量。为此,我们提出以下两个关键设计来有效平衡物体学习和运动控制。
    1)Masked reference attention。我们提出了一个混合mask建模方案,并将其引入到所设计的reference attention中,使得模型在特征层面上更多地关注物体而较少地关注背景。
    2)Reweighted diffusion loss。我们设计了一个损失函数来区分边界框内部和外部区域对标准扩散损失的贡献。具体而言,我们放大边界框内的贡献以增强物体学习,同时保留这些框外区域的原始扩散损失。

可视化展示

更多结果请见论文和项目主页。

:本次分享我们邀请到了复旦大学人工智能方向在读博士卫昱杰为大家着重介绍他的工作:DreamVideo-2。如果您有相关工作需要分享,欢迎联系:cv3d008。