今天,腾讯混元大模型上线新能力:
文生视频!
一句话就能生成视频,我们用它做了个短片,请看:
不仅上线,而且开源。
这个参数量130亿的视频生成大模型,
已经在 Hugging Face 平台及 Github 上发布
,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。
这也是当前最大的视频开源模型。
试过方知好。
打开【腾讯元宝APP】,进入【AI应用】,选择【AI视频】,即可申请试用。
目前的生成视频
支持中英文双语输入、多种视频尺寸以及多种视频清晰度。
提示词:肩摄视角平移切入,清晨阳光透过纱帘洒落。画面中央是一位老爷爷,正在木工台前专注雕刻。摄影机徐徐推近,特写他布满皱纹的手指和木屑纷飞。背景虚化的老房间里,木工工具整齐排列,墙上挂满完成的作品。
竖屏拍摄,还有自然的镜头移动,前景遮挡。是个很好的摄影师了。
腾讯混元视频生成大模型可以生成
超写实的高质量视频
。比如,像冲浪、跳舞这种大动作场景,
生成的画面自然合理,不容易变形
。
提示词:超大水管浪尖,冲浪者在浪尖起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。
在镜面或镜子场景中,可以做到镜面反射动作和外面完全同步,
光影反射基本符合物理规律
。
提示词:手持长焦跟拍,磨砂金属车厢在高速中留下光带。隧道灯光断续闪过,映照出乘客若隐若现的侧脸。防护玻璃上的水珠随速度扭曲变形,构建出城市地下的光影迷宫。
而且,它还能在
保持主角不变的情况下自动切换镜头
,
非常智能。
提示词:特写镜头拍摄的是一位60多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35 毫米电影胶片。
腾讯混元视频生成大模型
采用DiT架构
,并在架构设计上进行多处升级。
适配了
新一代文本编码器提升语义遵循
,其具备强大的语义跟随能力,更好地应对多个
主体描绘,实现更加细致的指令和画面呈现;
提示词:超广角俯拍,热气球节。数百只彩色热气球缓缓升空,篝火在地面点亮黎明。云层被晨光染成粉色,构成壮观的空中景观。
采用统一的全注意力机制
,使得每帧视频的衔接更为流畅,并能实现主体一致的
多视角镜头切换;
提示词:跳跃剪辑,咖啡馆内,蓝色主光,红色窗帘,女子侧脸特写,画面构图充满几何美感。
通过先进的图像视频混合VAE(3D 变分编码器)
,让模
型在细节表现有明显提升,特别是小