专栏名称: 果核剥壳

果核剥壳，分享数码体验，新奇软件，行业动态，丰富你的生活，提高你的效率，让网络更有滋味！

高清无码，这个工具又升级了！

果核剥壳 · 公众号 · 科技创业科技自媒体 · 2024-11-08 18:30

主要观点总结

本文介绍了市面AI产品的发展趋势以及最新升级的一款AI视频生成产品——新清影。新清影在视频生成方面有了显著的升级，包括视频质量、时长、比例控制、音效生成等功能。文章详细描述了新清影的升级特点和亮点技术，如模型能力提升、视频美学表现、运动合理性等，以及未来可能的发展方向和个性化服务。

关键观点总结

关键观点1: 新清影的升级特点

包括视频时长延长至10s、4K超高清画质、任意尺寸支持、自带音效、人体动作和物理世界模拟能力增强等。

关键观点2: 新清影的亮点技术

包括模型能力提升、使用自动化数据筛选框架过滤视频素材、三维变分自编码器结构等。

关键观点3: 音效模型CogSound和音乐模型CogMusic的应用

基于视频理解能力为视频添加合适的配音，生成应景的音效，如爆炸、水流等声音。

关键观点4: 未来AI视频发展的方向

随着国内清影新功能的不断上线和优化，未来清影将突破更多技术瓶颈，朝着智能化方向发展，提供个性化的视频生成建议。

正文

市面上的AI产品发布之后，大多会随着时间推移变得越来越强。

几个月前果核给大家介绍过清影AI生成视频功能，当时基于视频生成模型 CogVideoX 的清影上线清言 app，只用一段指令和一张图就能在半分钟内容生成6s 1440x960 清晰度的视频，也是国内最早开放出来，“人人可用”的生成视频功能。

而最近，“新清影”进行了大幅度升级，来到了 Next level。

（新清影-图生视频2.0）

这次升级的点有：10s时长、4k、60 帧超高清画质、任意尺寸，自带音效，以及更好人体动作和物理世界模拟。

最重要的是： 这些功能（音效本月上线）都 上线了智谱清言 app，用到的模型CogVideoX V1.5 也同步开源！

首先是可以体验到的图片转视频，视频生成的质量更高，时间更长。之前的视频生成尺寸为6s的1440*960，升级后可以生成10s的4K视频，时长后续还会升级到16s ！

除了时间更长，新清影还带来了视频比例控制和音效生成等功能，对物理世界的认识也更深了。下面就一起来看看！

视频效果升级

在新清影里用到的CogVideoX 模型，是本次升级的一个亮点，据了解，模型在调用训练素材的时候，团队构建了自动化的数据筛选框架，来过滤和筛选那些相机抖动的视频。然后针对连贯性做了一个三维变分自编码器结构（3D VAE），可以将原视频空间压缩至 2% 大小，方便训练。

之后是用来标注的自研视频理解模型 CogVLM2-caption、用来融合融合文本、时间、空间三个维度的 transformer 架构、 3D 全注意力机制和3D RoPE位置编码模块，更好的扩散模型高效训练框架等等。

种种优化下来，现在可以实现更长的视频和效果，像是下面的牛奶倾倒，流动效果和预瓶子碰撞的效果都挺真实。

（物理效果优化）

再来看两张比较惊艳的效果。

（面部表情控制）

（动作方向控制）

从上面的官方演示效果来看，还是很不错的。

接下来，咱们直接自己上手来试一下，从网上找来了一张图片，想让它变成在风中摇曳。但这个要求太容易了，想看看生成图片中没有的元素（一只小蜜蜂）能不能做到。

（静态原图）

上面的是原图，就是一张静态的图片，下面是按照要求生成后的效果。

（加入风曳和蜜蜂的效果）

感觉还挺有意思，它把蜜蜂藏在了眼皮子底下，最后还藏起来了，说明这个模型是理解空间的遮挡关系的，有点意思。

另外在测试的时候，也能发现它能处理光影效果。下面是原图和用的提示词：

赛车继续向着车头方向，镜头跟随。

生成的效果如下：

（阴影对物体的影响效果）

在经过阴影区域的时候，能看到对车身也是有影响的。

你也可以多尝试一下，来生成不同视频趣味风格：像是前面的车加速甩开后面的车。

（带有镜头感的效果）

能感受到是处于加速过程的，还挺有镜头感。

来试试人物效果。

（与环境交互效果）

这个生成效果可以与其他物体进行交互，液体的溅落也能表现出来，以后录制讲解视频，当视频素材的时候，画面就不会显得过于死板了。

（人物大幅度动作效果）

拳击练习这个是10s的视频，在翻了一倍的长度下表现也还不错，如果实际使用的话，用来搭配某些台词的话，可以前后剪辑一下，分开做个小镜头。

（人物镜头效果）

第三张的效果是比较完美的，不说你可能看不出来它原本只是一张图片。

还有比例控制功能，用来生成各种尺寸的内容。

图片转视频的升级，现在到智谱清言App也可以体验。

智谱清言体验地址：

https://chatglm.cn/video

CogVideoX开源地址：

https://github.com/thudm/cogvideo

另外，这次的模型依旧保持开源！

再来看看，本次的主要升级点：

模型能力全面提升：新清影在图像质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强；更强的人物面部、表演细节、动作连贯性和物理特性模拟，提高了视频的自然度和逼真度。

4K超高清分辨率：新清影支持生成10s、4K、60帧超高清视频，视觉体验拉到极致，动态画面更加流畅。

可变比例：新清影支持任意比例的图像生成视频，超宽画幅也能轻松Hold住。

多通道生成能力：同一指令/图片可以一次性生成4个视频。

带声效的AI视频：新清影可以生成与画面匹配的音效了。音效功能将很快在本月上线公测。

对于喜欢捣鼓AI视频的朋友来说，惊喜不止一个！

新增视频音效

在后续要上线的音效功能里，也能生成更优质的整体效果：

像是为视频中的动物配上叫声，来感受一下。

（动物叫声）

某手机系统的“ 动物叫 ”铃声表示：勿Q。

当然，新清影能做的不仅仅是给动物配音，它所做的工作是理解视频画面，然后加上合适的配音。

以后就不用到处寻找音效，生成创意视频更容易，画面是怪兽的话，也能根据动作来添加嘶吼音效。

（怪物嘶吼效果）

新清影这次升级最有意思的就是带来了新的音频模型（本月上线）——音效模型CogSound和音乐模型CogMusic，它能基于GLM-4V的视频理解能力，来识别理解视频表达的语义和情感。

然后使用基于Unet的LatentDiffusion潜空间扩散，进行高效音频生成，生成“应景”的音效，像是：爆炸、水流、乐器和动物声音等等。

配合他们之前发布的GLM-4-Voice情感语音模型，以后创作AI视频会更简单，终极形态是在生成视频时，相关的人声和配音都能生成！

其实现在就能结合测试的工具链，实现一个小小的里程碑式效果，官方制作了一个视频，将AI元素整合进了一个片段里，下面这个影片由 GLM 多模态大模型生成，其中一些片段是有一点点大片的感觉了，未来可以持续优化。

视频生成 CogVideoX