专栏名称: 果核剥壳
果核剥壳,分享数码体验,新奇软件,行业动态,丰富你的生活,提高你的效率,让网络更有滋味!
目录
相关文章推荐
中国交通信息化  ·  公路交通数字孪生应用开发平台设计与应用 ·  昨天  
中国交通信息化  ·  公路交通数字孪生应用开发平台设计与应用 ·  昨天  
Marine Sedimentology  ·  Palaeo-3:深海环境中自生黄铁矿的形貌 ... ·  2 天前  
Marine Sedimentology  ·  Palaeo-3:深海环境中自生黄铁矿的形貌 ... ·  2 天前  
IPO早知道  ·  维立志博就全球首创抗体与Aditum共同成立 ... ·  5 天前  
51好读  ›  专栏  ›  果核剥壳

高清无码,这个工具又升级了!

果核剥壳  · 公众号  · 科技创业 科技自媒体  · 2024-11-08 18:30

正文


市面上的AI产品发布之后,大多会随着时间推移变得越来越强。


几个月前果核给大家介绍过清影AI生成视频功能,当时基于视频生成模型 CogVideoX 的清影上线清言 app,只用一段指令和一张图就能在半分钟内容生成6s 1440x960 清晰度的视频,也是国内最早开放出来,“人人可用”的生成视频功能。


而最近,“新清影”进行了大幅度升级,来到了 Next level。


(新清影-图生视频2.0)


这次升级的点有:10s时长、4k、60 帧超高清画质、任意尺寸,自带音效,以及更好人体动作和物理世界模拟。


最重要的是:这些功能(音效本月上线)都上线了智谱清言 app,用到的模型CogVideoX V1.5 也同步开源!


首先是可以体验到的图片转视频,视频生成质量更高,时间更长。之前的视频生成尺寸为6s的1440*960,升级后可以生成10s的4K视频,时长后续还会升级到16s



除了时间更长,新清影还带来了视频比例控制和音效生成等功能,对物理世界的认识也更深了。下面就一起来看看!



视频效果升级



在新清影里用到的CogVideoX 模型,是本次升级的一个亮点,据了解,模型在调用训练素材的时候,团队构建了自动化的数据筛选框架,来过滤和筛选那些相机抖动的视频。然后针对连贯性做了一个三维变分自编码器结构(3D VAE),可以将原视频空间压缩至 2% 大小,方便训练。



之后是用来标注的自研视频理解模型 CogVLM2-caption、用来融合融合文本、时间、空间三个维度的 transformer 架构、 3D 全注意力机制和3D RoPE位置编码模块,更好的扩散模型高效训练框架等等。



种种优化下来,现在可以实现更长的视频和效果,像是下面的牛奶倾倒,流动效果和预瓶子碰撞的效果都挺真实。


(物理效果优化


再来看两张比较惊艳的效果。


(面部表情控制


(动作方向控制


从上面的官方演示效果来看,还是很不错的。


接下来,咱们直接自己上手来试一下,从网上找来了一张图片,想让它变成在风中摇曳。但这个要求太容易了,想看看生成图片中没有的元素(一只小蜜蜂)能不能做到。



(静态原图


上面的是原图,就是一张静态的图片,下面是按照要求生成后的效果。


(加入风曳和蜜蜂的效果


感觉还挺有意思,它把蜜蜂藏在了眼皮子底下,最后还藏起来了,说明这个模型是理解空间的遮挡关系的,有点意思。


另外在测试的时候,也能发现它能处理光影效果。下面是原图和用的提示词:

赛车继续向着车头方向,镜头跟随。



生成的效果如下:


(阴影对物体的影响效果


在经过阴影区域的时候,能看到对车身也是有影响的。


你也可以多尝试一下,来生成不同视频趣味风格:像是前面的车加速甩开后面的车。


(带有镜头感的效果


能感受到是处于加速过程的,还挺有镜头感。


来试试人物效果。


(与环境交互效果

这个生成效果可以与其他物体进行交互,液体的溅落也能表现出来,以后录制讲解视频,当视频素材的时候,画面就不会显得过于死板了。

(人物大幅度动作效果

拳击练习这个是10s的视频,在翻了一倍的长度下表现也还不错,如果实际使用的话,用来搭配某些台词的话,可以前后剪辑一下,分开做个小镜头。

(人物镜头效果


第三张的效果是比较完美的,不说你可能看不出来它原本只是一张图片。


还有比例控制功能,用来生成各种尺寸的内容。



图片转视频的升级,现在到智谱清言App也可以体验。



智谱清言体验地址:

https://chatglm.cn/video


CogVideoX开源地址:

https://github.com/thudm/cogvideo


另外,这次的模型依旧保持开源!




再来看看,本次的主要升级点:

模型能力全面提升:新清影在图像质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强;更强的人物面部、表演细节、动作连贯性和物理特性模拟,提高了视频的自然度和逼真度。


4K超高清分辨率:新清影支持生成10s、4K、60帧超高清视频,视觉体验拉到极致,动态画面更加流畅。


可变比例:新清影支持任意比例的图像生成视频,超宽画幅也能轻松Hold住。


多通道生成能力:同一指令/图片可以一次性生成4个视频。


带声效的AI视频:新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。


对于喜欢捣鼓AI视频的朋友来说,惊喜不止一个!



新增视频音效



在后续要上线的音效功能里,也能生成更优质的整体效果:

像是为视频中的动物配上叫声,来感受一下。


(动物叫声


某手机系统的“动物叫”铃声表示:勿Q。


当然,新清影能做的不仅仅是给动物配音,它所做的工作是理解视频画面,然后加上合适的配音。


以后就不用到处寻找音效,生成创意视频更容易,画面是怪兽的话,也能根据动作来添加嘶吼音效。


(怪物嘶吼效果


新清影这次升级最有意思的就是带来了新的音频模型(本月上线)——音效模型CogSound和音乐模型CogMusic,它能基于GLM-4V的视频理解能力,来识别理解视频表达的语义和情感。



然后使用基于Unet的LatentDiffusion潜空间扩散,进行高效音频生成,生成“应景”的音效,像是:爆炸、水流、乐器和动物声音等等


配合他们之前发布的GLM-4-Voice情感语音模型,以后创作AI视频会更简单,终极形态是在生成视频时,相关的人声和配音都能生成!


其实现在就能结合测试的工具链,实现一个小小的里程碑式效果,官方制作了一个视频,将AI元素整合进了一个片段里,下面这个影片由 GLM 多模态大模型生成,其中一些片段是有一点点大片的感觉了,未来可以持续优化。

视频生成 CogVideoX 

音效生成 CogSound

人物旁白 GLM-4-Voice


(多模态ai和影视结合


对于个人用户来说,上次用清影给大家制作视频生成功能演示时,还需要自己在剪辑软件里面找合适的音效。



像是大炮或者武器的音效,找到后放到时间轴上,还与场景不是一一匹配的,需要自己进行重组一下,有了CogSound之后,这一步可以省了。


除了前面的鸟叫视频,也拿爆炸视频试了一下。


(建筑爆炸音效


能听出来前面还有点碎片的声音效果,总体来说有点超出预期


虽然说清影的效果距离完美还有长路要走,但是也能看到它的进步是非常快的,前几个月的视频还有些“模糊”,现在的清晰度就已经达到超清“能看”的水平。


话说回来,视频生成的玩法越来越多,之前AI视频火起来还是因为OpenAI的Sora模型,结果Sora一直在鸽...


在前几天OpenAI的奥特曼和高管参加的Reddit有问必答活动上表示,Sora因为安全和性能的问题还要继续鸽,具体发布时间不确定。


(PR也即将上线的功能


大家期望的项目看不到,倒让国内外的模型有了发挥的空间,就连大家熟悉的Adobe PR也准备上线视频生成功能,时长有5秒,暂时不清楚怎么收费。


而随着国内清影新功能的不断上线和优化,可以相信的是,清影在未来能够突破更多的技术瓶颈。


也可以朝着智能化方向发展,通过分析使用者的创作习惯和偏好,为用户提供个性化的视频生成建议,甚至自动生成初步的视频模板,以后只需在此基础上进行微调即可完成创作,从而进一步降低创作门槛,让更多人能够享受到 AI 视频创作的乐趣。


感兴趣的朋友们可以提前玩起来了!



智谱清言体验地址(点文末阅读原文也可跳转):

https://chatglm.cn/video


CogVideoX开源地址:

https://github.com/thudm/cogvideo

推荐文章
中国交通信息化  ·  公路交通数字孪生应用开发平台设计与应用
昨天
中国交通信息化  ·  公路交通数字孪生应用开发平台设计与应用
昨天
墨香中华  ·  有人偷偷爱着你
7 年前