市面上的AI产品发布之后,大多会随着时间推移变得越来越强。
几个月前果核给大家介绍过清影AI生成视频功能,当时基于视频生成模型 CogVideoX 的清影上线清言 app,只用一段指令和一张图就能在半分钟内容生成6s 1440x960 清晰度的视频,也是国内最早开放出来,“人人可用”的生成视频功能。
而最近,“新清影”进行了大幅度升级,来到了 Next level。
(新清影-图生视频2.0)
这次升级的点有:10s时长、4k、60 帧超高清画质、任意尺寸,自带音效,以及更好人体动作和物理世界模拟。
最重要的是:这些功能(音效本月上线)都上线了智谱清言 app,用到的模型CogVideoX V1.5 也同步开源!
首先是可以体验到的图片转视频,视频生成的质量更高,时间更长。之前的视频生成尺寸为6s的1440*960,升级后可以生成10s的4K视频,时长后续还会升级到16s!
除了时间更长,新清影还带来了视频比例控制和音效生成等功能,对物理世界的认识也更深了。下面就一起来看看!
在新清影里用到的CogVideoX 模型,是本次升级的一个亮点,据了解,模型在调用训练素材的时候,团队构建了自动化的数据筛选框架,来过滤和筛选那些相机抖动的视频。然后针对连贯性做了一个三维变分自编码器结构(3D VAE),可以将原视频空间压缩至 2% 大小,方便训练。
之后是用来标注的自研视频理解模型 CogVLM2-caption、用来融合融合文本、时间、空间三个维度的 transformer 架构、 3D 全注意力机制和3D RoPE位置编码模块,更好的扩散模型高效训练框架等等。
种种优化下来,现在可以实现更长的视频和效果,像是下面的牛奶倾倒,流动效果和预瓶子碰撞的效果都挺真实。
(物理效果优化)
再来看两张比较惊艳的效果。
(面部表情控制)
(动作方向控制)
从上面的官方演示效果来看,还是很不错的。
接下来,咱们直接自己上手来试一下,从网上找来了一张图片,想让它变成在风中摇曳。但这个要求太容易了,想看看生成图片中没有的元素(一只小蜜蜂)能不能做到。
(静态原图)
上面的是原图,就是一张静态的图片,下面是按照要求生成后的效果。
(加入风曳和蜜蜂的效果)
感觉还挺有意思,它把蜜蜂藏在了眼皮子底下,最后还藏起来了,说明这个模型是理解空间的遮挡关系的,有点意思。
另外在测试的时候,也能发现它能处理光影效果。下面是原图和用的提示词:
生成的效果如下:
(阴影对物体的影响效果)
在经过阴影区域的时候,能看到对车身也是有影响的。
你也可以多尝试一下,来生成不同视频趣味风格:像是前面的车加速甩开后面的车。
(带有镜头感的效果)
能感受到是处于加速过程的,还挺有镜头感。
来试试人物效果。
这个生成效果可以与其他物体进行交互,液体的溅落也能表现出来,以后录制讲解视频,当视频素材的时候,画面就不会显得过于死板了。拳击练习这个是10s的视频,在翻了一倍的长度下表现也还不错,如果实际使用的话,用来搭配某些台词的话,可以前后剪辑一下,分开做个小镜头。(人物镜头效果)
第三张的效果是比较完美的,不说你可能看不出来它原本只是一张图片。
还有比例控制功能,用来生成各种尺寸的内容。
图片转视频的升级,现在到智谱清言App也可以体验。
智谱清言体验地址:
https://chatglm.cn/video
CogVideoX开源地址:
https://github.com/thudm/cogvideo
另外,这次的模型依旧保持开源!
再来看看,本次的主要升级点:
模型能力全面提升:新清影在图像质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强;更强的人物面部、表演细节、动作连贯性和物理特性模拟,提高了视频的自然度和逼真度。
4K超高清分辨率:新清影支持生成10s、4K、60帧超高清视频,视觉体验拉到极致,动态画面更加流畅。
可变比例:新清影支持任意比例的图像生成视频,超宽画幅也能轻松Hold住。
多通道生成能力:同一指令/图片可以一次性生成4个视频。
带声效的AI视频:新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。
对于喜欢捣鼓AI视频的朋友来说,惊喜不止一个!
在后续要上线的音效功能里,也能生成更优质的整体效果:
(动物叫声)
某手机系统的“动物叫”铃声表示:勿Q。
当然,新清影能做的不仅仅是给动物配音,它所做的工作是理解视频画面,然后加上合适的配音。
以后就不用到处寻找音效,生成创意视频更容易,画面是怪兽的话,也能根据动作来添加嘶吼音效。
(怪物嘶吼效果)
新清影这次升级最有意思的就是带来了新的音频模型(本月上线)——音效模型CogSound和音乐模型CogMusic,它能基于GLM-4V的视频理解能力,来识别理解视频表达的语义和情感。
然后使用基于Unet的LatentDiffusion潜空间扩散,进行高效音频生成,生成“应景”的音效,像是:爆炸、水流、乐器和动物声音等等。
配合他们之前发布的GLM-4-Voice情感语音模型,以后创作AI视频会更简单,终极形态是在生成视频时,相关的人声和配音都能生成!
其实现在就能结合测试的工具链,实现一个小小的里程碑式效果,官方制作了一个视频,将AI元素整合进了一个片段里,下面这个影片由 GLM 多模态大模型生成,其中一些片段是有一点点大片的感觉了,未来可以持续优化。
视频生成 CogVideoX
音效生成 CogSound
人物旁白 GLM-4-Voice
(多模态ai和影视结合)
对于个人用户来说,上次用清影给大家制作视频生成功能演示时,还需要自己在剪辑软件里面找合适的音效。
像是大炮或者武器的音效,找到后放到时间轴上,还与场景不是一一匹配的,需要自己进行重组一下,有了CogSound之后,这一步可以省了。
除了前面的鸟叫视频,也拿爆炸视频试了一下。
(建筑爆炸音效)
能听出来前面还有点碎片的声音效果,总体来说有点超出预期。
虽然说清影的效果距离完美还有长路要走,但是也能看到它的进步是非常快的,前几个月的视频还有些“模糊”,现在的清晰度就已经达到超清“能看”的水平。
话说回来,视频生成的玩法越来越多,之前AI视频火起来还是因为OpenAI的Sora模型,结果Sora一直在鸽...
在前几天OpenAI的奥特曼和高管参加的Reddit有问必答活动上表示,Sora因为安全和性能的问题还要继续鸽,具体发布时间不确定。
(PR也即将上线的功能)
大家期望的项目看不到,倒让国内外的模型有了发挥的空间,就连大家熟悉的Adobe PR也准备上线视频生成功能,时长有5秒,暂时不清楚怎么收费。
而随着国内清影新功能的不断上线和优化,可以相信的是,清影在未来能够突破更多的技术瓶颈。
也可以朝着智能化方向发展,通过分析使用者的创作习惯和偏好,为用户提供个性化的视频生成建议,甚至自动生成初步的视频模板,以后只需在此基础上进行微调即可完成创作,从而进一步降低创作门槛,让更多人能够享受到 AI 视频创作的乐趣。
感兴趣的朋友们可以提前玩起来了!
智谱清言体验地址(点文末阅读原文也可跳转):
https://chatglm.cn/video
CogVideoX开源地址:
https://github.com/thudm/cogvideo