专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
深焦DeepFocus  ·  公布|第五届山一国际女性电影展展映片单 ·  2 天前  
中央戏剧学院就业创业指导中心  ·  音乐剧《六个说谎的大学生》演员招募 ·  2 天前  
51好读  ›  专栏  ›  AI算法与图像处理

智谱「新清影」是怎样炼成的?CogVideoX+CogSound 技术详解

AI算法与图像处理  · 公众号  ·  · 2024-11-11 21:14

正文

来源:学术头条
早在 2021 年,我们便开始探索如何基于视频数据大规模训练视频生成模型,先后推出了 CogVideo (Hong et al. 2022)和 CogVideoX (Yang, Teng et al. 2024)系列模型。

CogVideoX 团队在数据筛选、模型结构、视频理解、transformer 架构和训练框架等多个方面进行了多项创新,并 验证了 scaling law 在视频生成方面的有效性

2024 年 7 月,清言上线了国内首个面向公众开放的视频生成产品“清影”。 如今, 清影迎来了重要升级: 10s 时长、4k、60 帧超高清画质、任意尺寸,自带音效,以及更好的人体动作和物理世界模拟


具体体现为:


  • 模型能力全面提升 :在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强。

  • 4K超高清分辨率 :支持生成 10s、4K、60 帧超高清视频,视觉体验拉到极致,动态画面更加流畅。

  • 可变比例 :支持任意比例的图像生成视频,超宽画幅也能轻松 Hold 住,从而适应不同的播放需求。

  • 多通道生成能力 :同一指令/图片可以一次性生成 4 个视频。

  • 带声效的AI视频 :新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。


此次新清影升级,基于 CogVideoX 模型的最新技术进展和我们最新推出的音效模型 CogSound。

在这篇博客中,我们将主要介绍 CogVideoX 的最新技术和音效模型 CogSound 的技术概况。


CogVideoX: 模型进一步升级

CogVideoX 是我们在视频生成领域的最新成果,在内容连贯性、可控性和训练效率等方面实现了多项创新。

先看 demo:

大幅度的镜头调度

细腻的人物表演

下图为 CogVideoX 的模型架构:

图|CogVideoX 架构

众所周知,数据是大模型训练的关键,但相当一部分视频数据的分布噪声很大,并不适用于视频生成模型的训练。这些问题包括(1)经人工编辑的视频可能扭曲真实动态信息,(2)因相机抖动和设备不达标等拍摄问题导致的视频质量大幅下降。除了视频的内在质量,视频数据对模型训练的支持程度也至关重要。我们将动态信息最少或动态方面缺乏连通性的视频看作是“是有害的”。为此,我们专门构建了一个自动化的数据筛选框架,来过滤不良数据。

针对内容连贯性问题,我们自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,大大减少了视频扩散生成模型的训练成本和难度。我们将因果三维卷积(Causal 3D convolution)作为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备了不同分辨率迁移使用的能力。同时,在时间维度上因果卷积的形式,也使得模型具备了视频编解码从前向后的序列独立性,便于通过微调向更高帧率和更长时间泛化。在工程部署方面,我们基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器做了微调和部署,使其能够在更小的显存占用下支持极高帧数视频的编解码。

图|3D VAE 结构由一个编码器、一个解码器和一个潜空间 regularizer 组成,实现了从像素到潜空间的 8×8×4 倍的压缩(a)。时间因果卷积的上下文并行实现(b)。

为解决大多现有视频数据缺乏对应描述性文本或描述质量低下的问题,我们自研了一 个端到端的专门用于标注视频数据的视频理解模型 CogVLM2-caption,为海量视频数据生成详细的、贴合内容的描述,进而增强模型的文本理解和指令遵循能力,更好地理解超长、复杂的 prompt,生成的视频也更符合用户的输入。

图|我们使用 Panda70M 模型生成短视频字幕,提取帧来创建密集图像字幕,并使用 GPT-4 将其汇总为最终的视频字幕。为了加快这一过程,我们使用 GPT-4 对 Llama 2 模型进行了微调。

我们也自研了一个融合文本、时间、空间三个维度的 transformer 架构。该架构摒弃了传统的 cross attention 模块,在输入阶段就将文本 embedding 和视频 embedding concat 起来,以便更充分地进行两 种模态的交互。我们通过 expert adaptive layernorm 弥补了文本和视频两个模态在特征空间上的差异,从而更有效地利用扩散模型中的时间步信息,使得模型能够高效地利用参数,进而更好地将视觉信息与语义信息对齐。

其中,注意力模块采用了 3D 全注意力机制,先前的研究通常使用分离的空间和时间注意力或分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,也无法与现有的高效训练框架适配。

在位置编码模块方面,我们设计了 3D RoPE,有效提升了在时间维度上捕捉帧间关系的能力,建立起了视频中的长程依赖。






请到「今天看啥」查看全文