专栏名称: AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

国产AI视频生成CogVideoX v1.5，开源。

AI算法与图像处理 · 公众号 · · 2024-11-26 20:28

正文

来源： GLM大模型

自8月初以来，我们陆续推出了CogVideoX系列模型（2B、 5B、5B-I2V ），这些开源模型已成为行业领先，深受开发者喜爱。

经过持续迭代，我们在此 发布并开源最新版本的视频模型 CogVideoX v1.5。

相比于原有模型，CogVideoX v1.5 将包含 5/10秒、768P、16 帧的视频生成能力，I2V模型支持任意尺寸比例，大幅提升图生视频质量及复杂语义理解 。

此次开源包括两个模型：

> 新清影

CogVideoX v1.5 也将同步上线到清影（ https://chatglm.cn/video ），并与新推出的CogSound音效模型结合，「新清影」将提供以下特色服务：

下图为 CogVideoX 的模型架构：

图｜CogVideoX 架构

数据：

数据是训练大型模型的核心，但许多视频数据存在分布噪声，不适合用于视频生成模型的训练。这些问题包括人工编辑扭曲真实动态和拍摄质量问题导致的视频降质。除了视频的内在质量，视频数据对模型训练的支持程度也至关重要。

我们将缺乏动态连通性的视频视为有害数据，并开发了一个自动化筛选框架以过滤这些数据。

数据增强：

针对现有视频数据缺少高质量描述文本的问题，我们开发了端到端的视频理解模型 CogVLM2-caption，专门用于生成精准的视频内容描述。这一模型提升了文本理解和指令遵循能力，能够更好地处理长且复杂的指令，确保生成的视频更贴近用户输入。

推荐文章

中国城市规划 · 两会关注 | 范嗣斌：共谋共建推进城市更新，助力城市高质量发展

2 天前

中国交建 · 土石方变废为宝

昨天

中国城市规划 · 两会声音 | 冯远：保障政府投资建筑项目设计合理取费

3 天前

中国交建 · “中华水塔”上的泥浆净化站

3 天前

中国交建 · 像开飞机一样！“失重感”大桥意外走红，背后原因竟然是······

3 天前

品途商业评论 · "国民岳父"王健林和马云爸爸要天价“包养”美国落魄"贵族"派拉蒙，排队做冤大头？| 品途出品

7 年前

思路网 · 共享单车、充电宝都弱爆了，“共享百货”已经现身

7 年前

上海网络辟谣 · 泰国普吉岛机场廊桥闹鬼？视频拍摄者已出来辟谣

7 年前

余晃晃 · 《二十二》：“你们来看阿婆，阿婆就很开心了。”

7 年前

清南师兄 · 清南星座运势8.21-8.27

7 年前