项目简介
智谱AI联合清华大学发布了开源视频生成模型CogVideoX!发布4小时GitHub揽星超3.6k!
CogVideoX是清影同源的开源版本视频生成模型。
CogVideoX可生成6秒的视频,分辨率为720 x 480,帧率为8f/s,最高支持226 Tokens的英文提示词。
从4个示例视频的效果中可以看出,不仅画面中主要物体的轮廓和运动都非常自然,连灰尘和地毯这些细节都非常逼真!对应的英文提示词可以在模型页面找到。
团队表示技术报告和更多的模型也即将上线!
快速开始
提示词优化
在开始运行模型之前,请参考这里 查看我们是怎么使用GLM-4(或者同级别的其他产品,例如GPT-4) 大模型对模型进行优化的,这很重要, 由于模型是在长提示词下训练的,一个好的提示词直接影响了视频生成的质量。
SAT
查看sat文件夹下的sat_demo:包含了 SAT 权重的推理代码和微调代码,推荐基于此代码进行 CogVideoX 模型结构的改进,研究者使用该代码可以更好的进行快速的迭代和开发。(18 GB 推理, 40GB lora微调)
Diffusers
pip install -r requirements.txt
模型介绍
CogVideoX是 清影 同源的开源版本视频生成模型。
下表展示目前我们提供的视频生成模型列表,以及相关基础信息:
模型名
|
CogVideoX-2B
|
提示词语言
|
English
|
单GPU推理 (FP-16) 显存消耗
|
18GB using SAT
23.9GB using diffusers
|
多GPU推理 (FP-16) 显存消耗
|
20GB minimum per GPU using diffusers
|
微调显存消耗 (bs=1)
|
42GB
|
提示词长度上限
|
226 Tokens
|
视频长度
|
6 seconds
|
帧率(每秒)
|
8 frames
|
视频分辨率
|
720 * 480
|
量化推理
|
不支持
|
下载地址 (Diffusers 模型)
|
🤗 Huggingface 🤖 ModelScope
|
下载地址 (SAT 模型)
|
SAT
|
友情链接
我们非常欢迎来自社区的贡献,并积极的贡献开源社区。以下作品已经对CogVideoX进行了适配,欢迎大家使用:
完整项目代码结构
本开源仓库将带领开发者快速上手
CogVideoX
开源模型的基础调用方式、微调示例。
inference
-
diffusers_demo: 更详细的推理代码讲解,常见参数的意义,在这里都会提及。
-
diffusers_vae_demo: 单独执行VAE的推理代码,目前需要71GB显存,将来会优化。
-
convert_demo: 如何将用户的输入转换成适合 CogVideoX的长输入。因为CogVideoX是在长文本上训练的,所以我们需要把输入文本的分布通过LLM转换为和训练一致的长文本。脚本中默认使用GLM4,也可以替换为GPT、Gemini等任意大语言模型。
-
gradio_web_demo: 一个简单的gradio网页应用,展示如何使用 CogVideoX-2B 模型生成视频。与我们的 Huggingface Space 类似,你可以使用此脚本运行一个简单的网页应用,用于生成视频。
cd inference
python gradio_web_demo.py
PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py
sat
tools
本文件夹包含了一些工具,用于模型的转换 / Caption 等工作。
https://github.com/THUDM/CogVideo/blob/main/README_zh.md