专栏名称: 歸藏的AI工具箱

产品设计师🎨 AI画图工具操作员🔧 AI课程撰写与信息收集整理📰 致力于发掘借助AI工具改善设计与产品开发流程的各种可能性🤔

腾讯杀疯了！开源超大混元视频生成模型

歸藏的AI工具箱 · 公众号 · 科技创业科技自媒体 · 2024-12-03 17:01

主要观点总结

腾讯最近开源了强大的MoE LLM和3D生成模型，并发布了混元视频生成相关模型。混元视频生成模型在美学表现、稳定性、运动幅度品质等方面表现一流，支持多种特色内容表现，如中国风格特色内容、电影级光效等。模型具有原生的镜头切换能力，整体运动幅度远好于其他视频生成模型。模型技术采用时空压缩的潜在空间设计和因果3D变分自编码器进行压缩。目前可以在网页端和元宝APP的AI应用上免费使用。除了视频生成模型，还演示了其他跟视频相关的AI玩法，如通过语音和图片生成面部说话和动作视频，视频自动配音项目以及面部表情和唇形同步视频迁移模型等。

关键观点总结

关键观点1: 腾讯开源了强大的MoE LLM和3D生成模型，并发布了混元视频生成模型。

这是目前开源模型中参数最多、性能最强的文生视频大模型，包含130亿参数。

关键观点2: 混元视频生成模型在美学表现、稳定性、运动幅度品质等方面表现一流。

该模型能够生成高质量的视频内容，支持多种特色内容表现，如中国风格特色内容、电影级光效等。

关键观点3: 混元视频生成模型具有强大的运动处理能力。

其整体运动幅度远好于其他视频生成模型，尤其是手部肢体等细节处理非常流畅。

关键观点4: 模型技术采用时空压缩的潜在空间设计和因果3D变分自编码器进行压缩。

混元视频模型采用了双流到单流的混合设计，并在架构上进行了创新。

关键观点5: 混元视频生成模型目前可以在网页端和元宝APP的AI应用上免费使用。

用户现在就可以在线使用混元视频生成模型，并且未来一个月还将支持图生视频功能。

正文

前段时间腾讯开源了应该是当前最大的 MoE LLM 和强大的 3D 生成模型，本来以为已经够强了，没想到全线开花，今天又会发布了混元视频生成相关模型。

我已经测试了一段时间混元视频生成模型整体效果非常厉害，在美学表现、稳定性、运动幅度的品质上都是一流的，重要的是这个级别的模型还是开源的，直接把一堆二线模型杀穿了，非常期待更多的社区玩法和内容。

今天的主要发布内容有：

13B 的开源混元视频生成模型（网页端和 APP）
基于说话音频生成对应的人物说话视频项目（待上线）
端到端的视频自动配音模型（待上线）
面部表情迁移模型（待上线）

模型测试

腾讯这个现在应该是现在最强的开源视频生成模型了，在写实视频领域已经是一流视频生成模型了，可以看看我前段时间跑的一些 Demo。

基本的视频生成模型的要求来看美学表现、画质、运动幅度、稳定性、都很强基本在一流水准。

同时在测试中我也发现了一些非常强的其他特点：

首先是中国风格特色内容的表现非常强，比如下面这个关于古装美女和白鹿的视频，人物的表情动作都非常生动，尤其是衣服，没有 AI 生成的那种多余的结构和离谱花纹。

雪地里，一只长着鹿角、黑色长发和两只大鹿角的白鹿站在一位身着勃艮第汉服的美女身旁。这个场景捕捉到了她与她的宠物相遇的瞬间，创造了一个电影般的构图。该场景由高品质的 SONY 摄像机拍摄，具有真实感，写实风格。

神兽变身，琼枝玉叶，人形终极形态，神兽力量与人类智慧的完美融合，身着华丽精致的古风服饰，绣有虎纹和神秘符文，尽显无与伦比的威严与优雅、写实摄影风格、奇幻艺术美学、电影级光效、中国怪诞美学、浪漫风光、细腻线条、仙境背景、自然光、8K、精致细节、唯美光效，写实风格

另外的话他们也支持原生的镜头切换能力，而且在切换过程中可以保证画面主体的一致性，比如下面这例子中的金字塔以及人物的装扮角色，以及舞狮的狮子。

一位身着黑色极简长袍的神秘人物，长袍随寒风轻轻飘动，脚印深深陷入白雪之中，四周是广袤的雪原和遥远的冰雪覆盖岩石山脉，中央矗立着一座巨大的黑色金字塔，表面如镜面般光滑反射着周围景色，神秘人物缓步向金字塔走去，呈现超现实主义的科幻风格，庄严而神秘的异世界氛围，镜头缓缓后退升高的动态构图，自然的冷色调光线与金字塔表面的反光交织，远景到全景的渐变展现场景的宏大。

庄严肃穆的狮头面具的空灵特写，饰以繁复的金色和红色点缀，眼神充满古老的智慧，柔和的晚风吹动装饰品飘扬，村庄广场被节日的灯光照亮，远处的烟花描绘着夜空，4K 分辨率，丰富的纹理，高动态范围 (HDR)，景深，文化传承，情感氛围，淡出效果，龙的艺术，传统中国水墨画风格，写实风格

另外一个重要特点是腾讯视频模型的整体运动幅度远好于其他视频生成模型，尤其是手部肢体等，比如下面这个滑雪的视频角色换刃非常的流畅。

从侧后方角度拍摄的单板滑雪运动员在新雪中驰骋的特写镜头，远处白雪皑皑的群山清晰可见，背景是壮丽的日落。该场景使用佳能 EOS-1D X Mark III 和 50mm f/1.4 镜头拍摄，在一个阳光明媚的傍晚，雪地上反射着阳光，传达出动感和活力的氛围，色彩鲜艳，对比强烈。

模型技术介绍

HunyuanVideo 应该是目前开源模型中参数最多、性能最强的文生视频大模型。它包含130亿参数。

混元视频模型采用了时空压缩的潜在空间设计，通过因果3D变分自编码器进行压缩。模型使用大语言模型编码文本提示作为条件，并结合高斯噪声作为输入来生成潜在表示，最后通过3D变分自编码器解码器生成图像或视频。

在架构上，混元视频模型采用了双流到单流的混合设计。在双流阶段，视频和文本标记分别通过多个Transformer模块独立处理；在单流阶段，将视频和文本标记连接起来进行多模态信息融合。

模型创新地使用了多模态大语言模型作为文本编码器，这种方式相比传统的CLIP和T5-XXL具有更好的图文对齐效果和复杂推理能力。为了增强文本特征，模型还引入了双向token优化器。

在实现细节上，模型使用了3D变分自编码器来压缩视频空间，并提供了两种提示词重写模式：普通模式侧重准确理解用户意图，大师模式则着重提升视觉质量的描述。

如何使用

你现在可以在网页端和元宝 APP 的 AI 应用-AI 视频位置在线使用混元视频生成模型，目前只支持文生视频、一个月左右会支持图生视频，而且还是免费的。

官网：https://aivideo.hunyuan.tencent.com

代码：https://github.com/Tencent/HunyuanVideo

模型：https://huggingface.co/tencent/HunyuanVideo

技术报告：https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

其他视频玩法

除了视频生成模型本身混元还演示了一堆其他跟视频相关非常有想象力的其他AI 视频玩法。