腾讯混元文生视频上线，我们用它做了个短片

腾讯 · 公众号 · 科技公司 · 2024-12-03 15:21

正文

今天，腾讯混元大模型上线新能力：

文生视频！

一句话就能生成视频，我们用它做了个短片，请看：

不仅上线，而且开源。

这个参数量130亿的视频生成大模型，已经在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费使用和开发生态插件。 这也是当前最大的视频开源模型。

试过方知好。打开【腾讯元宝APP】，进入【AI应用】，选择【AI视频】，即可申请试用。

目前的生成视频 支持中英文双语输入、多种视频尺寸以及多种视频清晰度。

提示词：肩摄视角平移切入，清晨阳光透过纱帘洒落。画面中央是一位老爷爷，正在木工台前专注雕刻。摄影机徐徐推近，特写他布满皱纹的手指和木屑纷飞。背景虚化的老房间里，木工工具整齐排列，墙上挂满完成的作品。

竖屏拍摄，还有自然的镜头移动，前景遮挡。是个很好的摄影师了。

腾讯混元视频生成大模型可以生成 超写实的高质量视频 。比如，像冲浪、跳舞这种大动作场景， 生成的画面自然合理，不容易变形 。

提示词：超大水管浪尖，冲浪者在浪尖起跳，完成空中转体。摄影机从海浪内部穿越而出，捕捉阳光透过海水的瞬间。水花在空中形成完美弧线，冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

在镜面或镜子场景中，可以做到镜面反射动作和外面完全同步， 光影反射基本符合物理规律 。

提示词：手持长焦跟拍，磨砂金属车厢在高速中留下光带。隧道灯光断续闪过，映照出乘客若隐若现的侧脸。防护玻璃上的水珠随速度扭曲变形，构建出城市地下的光影迷宫。

而且，它还能在 保持主角不变的情况下自动切换镜头 ，非常智能。

提示词：特写镜头拍摄的是一位60多岁、留着胡须的灰发男子，他坐在巴黎的一家咖啡馆里，沉思着宇宙的历史，他的眼睛聚焦在画外走动的人们身上，而他自己则基本一动不动地坐着，他身穿羊毛大衣西装外套，内衬系扣衬衫，戴着棕色贝雷帽和眼镜，看上去很有教授风范，片尾他露出一丝微妙的闭嘴微笑，仿佛找到了生命之谜的答案，灯光非常具有电影感，金色的灯光，背景是巴黎的街道和城市，景深，35 毫米电影胶片。

腾讯混元视频生成大模型 采用DiT架构 ，并在架构设计上进行多处升级。

适配了 新一代文本编码器提升语义遵循 ，其具备强大的语义跟随能力，更好地应对多个主体描绘，实现更加细致的指令和画面呈现；

提示词：超广角俯拍，热气球节。数百只彩色热气球缓缓升空，篝火在地面点亮黎明。云层被晨光染成粉色，构成壮观的空中景观。

采用统一的全注意力机制 ，使得每帧视频的衔接更为流畅，并能实现主体一致的多视角镜头切换；

提示词：跳跃剪辑，咖啡馆内，蓝色主光，红色窗帘，女子侧脸特写，画面构图充满几何美感。

通过先进的图像视频混合VAE（3D 变分编码器） ，让模型在细节表现有明显提升，特别是小

腾讯混元文生视频上线，我们用它做了个短片

正文

请到「今天看啥」查看全文