这个视频生成的研究方向有意思!
#ai创造营#
#ai视频#
MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。
摘要:
现实世界的视频由一系列事件组成。使用现有的视频生成器生成具有精确时间控制的此类序列是不可行的,因为这些生成器依赖于一段文本作为输入。当使用单个提示生成多个事件时,这些方法通常会忽略某些事件或无法按正确的顺序排列它们。
为了解决这一限制,我们提出了 MinT,这是一个具有时间控制的多事件视频生成器。我们的主要见解是将每个事件绑定到生成的视频中的特定时间段,这使模型可以一次关注一个事件。为了实现事件字幕和视频标记之间的时间感知交互,我们设计了一种基于时间的位置编码方法,称为 ReRoPE。这种编码有助于指导交叉注意操作。通过在时间基础数据上微调预先训练的视频扩散变换器,我们的方法可以生成具有平滑连接事件的连贯视频。
在文献中,我们的模型首次提供了对生成视频中事件时间的控制。大量实验表明,MinT 的表现远远优于现有的开源模型。
比如视频第一个Demo的控制如下:
[0.0s → 2.3s]: The woman tilts her head side to side, smiling at the camera.
[2.3s → 5.0s]: She waves hello with her right hand, still smiling.
[5.0s → 9.3s]: She rests both hands under her chin, tilting her head side to side with a smile.
中文:
[0.0 秒→ 2.3 秒]:女人左右歪着头,对着镜头微笑。
[2.3 秒→ 5.0 秒]:她用右手挥手打招呼,脸上依然带着微笑。
[5.0 秒→ 9.3 秒]:她双手托在下巴下,微笑着左右歪着头。
项目:mint-video.github.io
MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。
摘要:
现实世界的视频由一系列事件组成。使用现有的视频生成器生成具有精确时间控制的此类序列是不可行的,因为这些生成器依赖于一段文本作为输入。当使用单个提示生成多个事件时,这些方法通常会忽略某些事件或无法按正确的顺序排列它们。
为了解决这一限制,我们提出了 MinT,这是一个具有时间控制的多事件视频生成器。我们的主要见解是将每个事件绑定到生成的视频中的特定时间段,这使模型可以一次关注一个事件。为了实现事件字幕和视频标记之间的时间感知交互,我们设计了一种基于时间的位置编码方法,称为 ReRoPE。这种编码有助于指导交叉注意操作。通过在时间基础数据上微调预先训练的视频扩散变换器,我们的方法可以生成具有平滑连接事件的连贯视频。
在文献中,我们的模型首次提供了对生成视频中事件时间的控制。大量实验表明,MinT 的表现远远优于现有的开源模型。
比如视频第一个Demo的控制如下:
[0.0s → 2.3s]: The woman tilts her head side to side, smiling at the camera.
[2.3s → 5.0s]: She waves hello with her right hand, still smiling.
[5.0s → 9.3s]: She rests both hands under her chin, tilting her head side to side with a smile.
中文:
[0.0 秒→ 2.3 秒]:女人左右歪着头,对着镜头微笑。
[2.3 秒→ 5.0 秒]:她用右手挥手打招呼,脸上依然带着微笑。
[5.0 秒→ 9.3 秒]:她双手托在下巴下,微笑着左右歪着头。
项目:mint-video.github.io