专栏名称: GitHubStore
分享有意思的开源项目
目录
相关文章推荐
要资讯  ·  周度直播预告 | 相约直播间 与您不见不散 ·  10 小时前  
BCG波士顿咨询  ·  中国传统外贸企业的新出海浪潮:渠道篇 ·  14 小时前  
蓝钻故事  ·  42年前旧作被扒,这一幕震撼上亿人 ·  昨天  
51好读  ›  专栏  ›  GitHubStore

中国版Sora:智谱AI发布开源视频生成模型CogVideoX

GitHubStore  · 公众号  ·  · 2024-08-15 16:54

正文

项目简介

智谱AI联合清华大学发布了开源视频生成模型CogVideoX!发布4小时GitHub揽星超3.6k!

CogVideoX是清影同源的开源版本视频生成模型。

CogVideoX可生成6秒的视频,分辨率为720 x 480,帧率为8f/s,最高支持226 Tokens的英文提示词。

从4个示例视频的效果中可以看出,不仅画面中主要物体的轮廓和运动都非常自然,连灰尘和地毯这些细节都非常逼真!对应的英文提示词可以在模型页面找到。

团队表示技术报告和更多的模型也即将上线!

快速开始

提示词优化

在开始运行模型之前,请参考这里 查看我们是怎么使用GLM-4(或者同级别的其他产品,例如GPT-4) 大模型对模型进行优化的,这很重要, 由于模型是在长提示词下训练的,一个好的提示词直接影响了视频生成的质量。

SAT

查看sat文件夹下的sat_demo:包含了 SAT 权重的推理代码和微调代码,推荐基于此代码进行 CogVideoX 模型结构的改进,研究者使用该代码可以更好的进行快速的迭代和开发。(18 GB 推理, 40GB lora微调)

Diffusers

pip install -r requirements.txt

模型介绍

CogVideoX是 清影 同源的开源版本视频生成模型。

下表展示目前我们提供的视频生成模型列表,以及相关基础信息:

模型名 CogVideoX-2B
提示词语言 English
单GPU推理 (FP-16) 显存消耗 18GB using SAT
23.9GB using diffusers
多GPU推理 (FP-16) 显存消耗 20GB minimum per GPU using diffusers
微调显存消耗 (bs=1) 42GB
提示词长度上限 226 Tokens
视频长度 6 seconds
帧率(每秒) 8 frames
视频分辨率 720 * 480
量化推理 不支持
下载地址 (Diffusers 模型) 🤗 Huggingface 🤖 ModelScope
下载地址 (SAT 模型) SAT


友情链接

我们非常欢迎来自社区的贡献,并积极的贡献开源社区。以下作品已经对CogVideoX进行了适配,欢迎大家使用:

  • Xorbits Inference: 性能强大且功能全面的分布式推理框架,轻松一键部署你自己的模型或内置的前沿开源模型。


完整项目代码结构

本开源仓库将带领开发者快速上手 CogVideoX 开源模型的基础调用方式、微调示例。

inference

  • diffusers_demo: 更详细的推理代码讲解,常见参数的意义,在这里都会提及。

  • diffusers_vae_demo: 单独执行VAE的推理代码,目前需要71GB显存,将来会优化。

  • convert_demo: 如何将用户的输入转换成适合 CogVideoX的长输入。因为CogVideoX是在长文本上训练的,所以我们需要把输入文本的分布通过LLM转换为和训练一致的长文本。脚本中默认使用GLM4,也可以替换为GPT、Gemini等任意大语言模型。

  • gradio_web_demo: 一个简单的gradio网页应用,展示如何使用 CogVideoX-2B 模型生成视频。与我们的 Huggingface Space 类似,你可以使用此脚本运行一个简单的网页应用,用于生成视频。

cd inference# For Linux and Windows users (and macOS with Intel??)python gradio_web_demo.py # humans mode
# For macOS with Apple Silicon users, Intel not supported, this maybe 20x slower than RTX 4090PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py # humans mode

  • streamlit_web_demo: 一个简单的streamlit网页应用,展示如何使用 CogVideoX-2B 模型生成视频。

sat

  • sat_demo: 包含了 SAT 权重的推理代码和微调代码,推荐基于 CogVideoX 模型结构进行改进,创新的研究者使用改代码以更好的进行快速的堆叠和开发。



tools

本文件夹包含了一些工具,用于模型的转换 / Caption 等工作。

  • convert_weight_sat2hf: 将 SAT 模型权重转换为 Huggingface 模型权重。

  • caption_demo: Caption 工具,对视频理解并用文字输出的模型。



项目链接

https://github.com/THUDM/CogVideo/blob/main/README_zh.md







请到「今天看啥」查看全文