专栏名称: 果核剥壳
果核剥壳,分享数码体验,新奇软件,行业动态,丰富你的生活,提高你的效率,让网络更有滋味!
目录
相关文章推荐
绍兴交通  ·  交通运输部示范典型案例,绍兴+2 ·  20 小时前  
绍兴交通  ·  交通运输部示范典型案例,绍兴+2 ·  20 小时前  
西安头条  ·  一男童在商场突遭意外!警方已介入 ·  昨天  
西安头条  ·  一男童在商场突遭意外!警方已介入 ·  昨天  
小小牛财经  ·  DeepSeek出海中东:在沙特达曼的阿美数 ... ·  2 天前  
小小牛财经  ·  DeepSeek出海中东:在沙特达曼的阿美数 ... ·  2 天前  
经济日报  ·  又一国际巨头将“一拆三” ·  2 天前  
经济日报  ·  又一国际巨头将“一拆三” ·  2 天前  
51好读  ›  专栏  ›  果核剥壳

高清无码,这个工具又升级了!

果核剥壳  · 公众号  · 科技创业 科技自媒体  · 2024-11-08 18:30

主要观点总结

本文介绍了市面AI产品的发展趋势以及最新升级的一款AI视频生成产品——新清影。新清影在视频生成方面有了显著的升级,包括视频质量、时长、比例控制、音效生成等功能。文章详细描述了新清影的升级特点和亮点技术,如模型能力提升、视频美学表现、运动合理性等,以及未来可能的发展方向和个性化服务。

关键观点总结

关键观点1: 新清影的升级特点

包括视频时长延长至10s、4K超高清画质、任意尺寸支持、自带音效、人体动作和物理世界模拟能力增强等。

关键观点2: 新清影的亮点技术

包括模型能力提升、使用自动化数据筛选框架过滤视频素材、三维变分自编码器结构等。

关键观点3: 音效模型CogSound和音乐模型CogMusic的应用

基于视频理解能力为视频添加合适的配音,生成应景的音效,如爆炸、水流等声音。

关键观点4: 未来AI视频发展的方向

随着国内清影新功能的不断上线和优化,未来清影将突破更多技术瓶颈,朝着智能化方向发展,提供个性化的视频生成建议。


正文


市面上的AI产品发布之后,大多会随着时间推移变得越来越强。


几个月前果核给大家介绍过清影AI生成视频功能,当时基于视频生成模型 CogVideoX 的清影上线清言 app,只用一段指令和一张图就能在半分钟内容生成6s 1440x960 清晰度的视频, 也是国内最早开放出来,“人人可用”的生成视频功能。


而最近,“新清影”进行了大幅度升级,来到了 Next level。


(新清影-图生视频2.0)


这次升级的点有:10s时长、4k、60 帧超高清画质、任意尺寸,自带音效,以及更好人体动作和物理世界模拟。


最重要的是: 这些功能(音效本月上线)都 上线了智谱清言 app,用到的模型CogVideoX V1.5 也同步开源!


首先是可以体验到的图片转视频,视频生成 质量更高,时间更长。之前的视频生成尺寸为6s的1440*960,升级后可以生成10s的4K视频, 时长后续还会升级到16s



除了时间更长,新清影还带来了视频比例控制和音效生成等功能,对物理世界的认识也更深了。下面就一起来看看!



视频效果升级



在新清影里用到的CogVideoX 模型,是本次升级的一个亮点,据了解,模型在调用训练素材的时候,团队构建了自动化的数据筛选框架,来过滤和筛选那些相机抖动的视频。 然后针对连贯性做了一个三维变分自编码器结构(3D VAE),可以将原视频空间压缩至 2% 大小,方便训练。



之后是用来标注的自研视频理解模型 CogVLM2-caption、用来融合融合文本、时间、空间三个维度的 transformer 架构、 3D 全注意力机制和3D RoPE位置编码模块,更好的扩散模型高效训练框架等等。



种种优化下来,现在可以实现更长的视频和效果,像是下面的牛奶倾倒,流动效果和预瓶子碰撞的效果都挺真实。


(物理效果优化


再来看两张比较惊艳的效果。


(面部表情控制


(动作方向控制


从上面的官方演示效果来看,还是很不错的。


接下来,咱们直接自己上手来试一下,从网上找来了一张图片,想让它变成在风中摇曳。 但这个要求太容易了,想看看生成图片中没有的元素(一只小蜜蜂)能不能做到。



(静态原图


上面的是原图,就是一张静态的图片,下面是按照要求生成后的效果。


(加入风曳和蜜蜂的效果


感觉还挺有意思,它把蜜蜂藏在了眼皮子底下,最后还藏起来了,说明这个模型是理解空间的遮挡关系的,有点意思。


另外在测试的时候,也能发现它能处理光影效果。下面是原图和用的提示词:

赛车继续向着车头方向,镜头跟随。



生成的效果如下:


(阴影对物体的影响效果


在经过阴影区域的时候,能看到对车身也是有影响的。


你也可以多尝试一下,来生成不同视频趣味风格:像是前面的车加速甩开后面的车。


(带有镜头感的效果


能感受到是处于加速过程的,还挺有镜头感。


来试试人物效果。


(与环境交互效果

这个生成效果可以与其他物体进行交互,液体的溅落也能表现出来,以后录制讲解视频,当视频素材的时候,画面就不会显得过于死板了。

(人物大幅度动作效果

拳击练习这个是10s的视频,在翻了一倍的长度下表现也还不错,如果实际使用的话,用来搭配某些台词的话,可以前后剪辑一下,分开做个小镜头。

(人物镜头效果


第三张的效果是比较完美的,不说你可能看不出来它原本只是一张图片。


还有比例控制功能,用来生成各种尺寸的内容。



图片转视频的升级,现在到智谱清言App也可以体验。



智谱清言体验地址:

https://chatglm.cn/video


CogVideoX开源地址:

https://github.com/thudm/cogvideo


另外,这次的模型依旧保持开源!




再来看看,本次的主要升级点:

模型能力全面提升:新清影在图像质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强;更强的人物面部、表演细节、动作连贯性和物理特性模拟,提高了视频的自然度和逼真度。


4K超高清分辨率:新清影支持生成10s、4K、60帧超高清视频,视觉体验拉到极致,动态画面更加流畅。


可变比例:新清影支持任意比例的图像生成视频,超宽画幅也能轻松Hold住。


多通道生成能力:同一指令/图片可以一次性生成4个视频。


带声效的AI视频:新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。


对于喜欢捣鼓AI视频的朋友来说,惊喜不止一个!



新增视频音效



在后续要上线的音效功能里,也能生成更优质的整体效果:

像是为视频中的动物 配上 叫声,来感受一下。


(动物叫声


某手机系统的“ 动物叫 ”铃声表示:勿Q。


当然, 新清影能做的不仅仅是给动物配 音,它所做的工作是理解视频画面,然后加上合适的配音。


以后就不用到处寻找音效,生成创意视频更容易,画面是怪兽的话,也能根据动作来添加嘶吼音效。


(怪物嘶吼效果


新清影这次升级最有意思的就是带来了新的音频模型(本月上线)——音效模型CogSound和音乐模型CogMusic,它能基于GLM-4V的视频理解能力,来识别理解视频表达的语义和情感。



然后使用基于Unet的LatentDiffusion潜空间扩散,进行高效音频生成,生成“应景”的音效,像是:爆炸、水流、乐器和动物声音等等


配合他们之前发布的GLM-4-Voice情感语音模型,以后创作AI视频会更简单,终极形态是在生成视频时,相关的人声和配音都能生成!


其实现在就能结合测试的工具链,实现一个小小的里程碑式效果,官方制作了一个视频,将AI元素整合进了一个片段里,下面这个 影片由 GLM 多模态大模型生成,其中一些片段是有一点点大片的感觉了,未来可以持续优化。

视频生成 CogVideoX







请到「今天看啥」查看全文


推荐文章
绍兴交通  ·  交通运输部示范典型案例,绍兴+2
20 小时前
绍兴交通  ·  交通运输部示范典型案例,绍兴+2
20 小时前
经济日报  ·  又一国际巨头将“一拆三”
2 天前
经济日报  ·  又一国际巨头将“一拆三”
2 天前
考研研学姐  ·  盘点机械类强校“五虎四龙”
8 年前