专栏名称: GitHubStore

分享有意思的开源项目

中国版Sora：智谱AI发布开源视频生成模型CogVideoX

GitHubStore · 公众号 · · 2024-08-15 16:54

正文

项目简介

智谱AI联合清华大学发布了开源视频生成模型CogVideoX！发布4小时GitHub揽星超3.6k！

CogVideoX是清影同源的开源版本视频生成模型。

CogVideoX可生成6秒的视频，分辨率为720 x 480，帧率为8f/s，最高支持226 Tokens的英文提示词。

从4个示例视频的效果中可以看出，不仅画面中主要物体的轮廓和运动都非常自然，连灰尘和地毯这些细节都非常逼真！对应的英文提示词可以在模型页面找到。

团队表示技术报告和更多的模型也即将上线！

快速开始

提示词优化

在开始运行模型之前，请参考这里查看我们是怎么使用GLM-4(或者同级别的其他产品，例如GPT-4) 大模型对模型进行优化的，这很重要，由于模型是在长提示词下训练的，一个好的提示词直接影响了视频生成的质量。

SAT

查看sat文件夹下的sat_demo：包含了 SAT 权重的推理代码和微调代码，推荐基于此代码进行 CogVideoX 模型结构的改进，研究者使用该代码可以更好的进行快速的迭代和开发。(18 GB 推理, 40GB lora微调)

Diffusers

pip install -r requirements.txt

模型介绍

CogVideoX是清影同源的开源版本视频生成模型。

下表展示目前我们提供的视频生成模型列表，以及相关基础信息:

模型名	CogVideoX-2B
提示词语言	English
单GPU推理 (FP-16) 显存消耗	18GB using SAT 23.9GB using diffusers
多GPU推理 (FP-16) 显存消耗	20GB minimum per GPU using diffusers
微调显存消耗 (bs=1)	42GB
提示词长度上限	226 Tokens
视频长度	6 seconds
帧率（每秒）	8 frames
视频分辨率	720 * 480
量化推理	不支持
下载地址 (Diffusers 模型)	🤗 Huggingface 🤖 ModelScope
下载地址 (SAT 模型)	SAT

友情链接

我们非常欢迎来自社区的贡献，并积极的贡献开源社区。以下作品已经对CogVideoX进行了适配，欢迎大家使用:

Xorbits Inference: 性能强大且功能全面的分布式推理框架，轻松一键部署你自己的模型或内置的前沿开源模型。

完整项目代码结构

本开源仓库将带领开发者快速上手 CogVideoX 开源模型的基础调用方式、微调示例。

inference

diffusers_demo: 更详细的推理代码讲解，常见参数的意义，在这里都会提及。
diffusers_vae_demo: 单独执行VAE的推理代码，目前需要71GB显存，将来会优化。
convert_demo: 如何将用户的输入转换成适合 CogVideoX的长输入。因为CogVideoX是在长文本上训练的，所以我们需要把输入文本的分布通过LLM转换为和训练一致的长文本。脚本中默认使用GLM4，也可以替换为GPT、Gemini等任意大语言模型。
gradio_web_demo: 一个简单的gradio网页应用，展示如何使用 CogVideoX-2B 模型生成视频。与我们的 Huggingface Space 类似，你可以使用此脚本运行一个简单的网页应用，用于生成视频。

cd inference# For Linux and Windows users (and macOS with Intel??)python gradio_web_demo.py # humans mode
# For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py # humans mode

streamlit_web_demo: 一个简单的streamlit网页应用，展示如何使用 CogVideoX-2B 模型生成视频。

sat

sat_demo: 包含了 SAT 权重的推理代码和微调代码，推荐基于 CogVideoX 模型结构进行改进，创新的研究者使用改代码以更好的进行快速的堆叠和开发。

tools

本文件夹包含了一些工具，用于模型的转换 / Caption 等工作。

convert_weight_sat2hf: 将 SAT 模型权重转换为 Huggingface 模型权重。
caption_demo: Caption 工具，对视频理解并用文字输出的模型。

项目链接

https://github.com/THUDM/CogVideo/blob/main/README_zh.md