专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
目录
相关文章推荐
中国城市规划  ·  两会关注 | ... ·  2 天前  
中国交建  ·  土石方变废为宝 ·  昨天  
中国城市规划  ·  两会声音 | ... ·  3 天前  
中国交建  ·  “中华水塔”上的泥浆净化站 ·  3 天前  
51好读  ›  专栏  ›  AI算法与图像处理

国产AI视频生成CogVideoX v1.5,开源。

AI算法与图像处理  · 公众号  ·  · 2024-11-26 20:28

正文

来源: GLM大模型

自8月初以来,我们 陆续推出了CogVideoX系列模型 (2B、 5B、5B-I2V ),这些开源模型已成为行业领先,深受开发者喜爱。

经过持续迭代,我们在此 发布并开源最新版本的视频模型 CogVideoX v1.5。

相比于原有模型,CogVideoX v1.5 将包含 5/10秒、768P、16 帧的视频生成能力,I2V模型支持任意尺寸比例,大幅提升图生视频质量及复杂语义理解


此次开源包括两个模型:

  • CogVideoX v1.5-5B

  • CogVideoX v1.5-5B-I2V


> 新清影

CogVideoX v1.5 也将同步上线到清影( https://chatglm.cn/video ),并与新推出的CogSound音效模型结合,「新清影」将提供以下特色服务:

  • 质量提升:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强。
  • 超高清分辨率:支持生成 10s、4K、60 帧超高清视频。
  • 可变比例:支持任意比例,从而适应不同的播放场景。
  • 多通道输出:同一指令/图片可以一次性生成 4 个视频。
  • 带声效的 AI 视频:新清影可以生成与画面匹配的音效。


> CogVideoX 技术

下图为 CogVideoX 的模型架构:


图|CogVideoX 架构


数据:

数据是训练大型模型的核心,但许多视频数据存在分布噪声,不适合用于视频生成模型的训练。这些问题包括人工编辑扭曲真实动态和拍摄质量问题导致的视频降质。除了视频的内在质量,视频数据对模型训练的支持程度也至关重要。

我们将缺乏动态连通性的视频视为有害数据,并开发了一个自动化筛选框架以过滤这些数据。

数据增强:

针对现有视频数据缺少高质量描述文本的问题,我们开发了端到端的视频理解模型 CogVLM2-caption,专门用于生成精准的视频内容描述。这一模型提升了文本理解和指令遵循能力,能够更好地处理长且复杂的指令,确保生成的视频更贴近用户输入。







请到「今天看啥」查看全文