昨天,腾讯放出了自家的视频生成大模型。
至此字节、阿里、腾讯三家的视频生成模型都已经全部放出。
官方用这个模型和市面上最好的四家Sora
类
模型进行了对比,经过千题盲测,结果如下:
可以看出,这个模型在文本对齐方面,和国内最好的两家打平,而在运动质量方面显著胜出。
作为开源模型,整体表现并不输闭源模型,可以说相当惊喜。
模型实际体验
我用这个视频的实际感受是,在现实风格方面的稳定性很强,美学也不错。
下面是我用这个视频模型,做的一些火星相关的片段,所有的片段都是单次抽卡。
群友对这个视频模型的一些印象是这样的:
特写镜头拍摄的是一位 60 多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35 毫米电影胶片。
模型的特点和发展规划
发布会上,负责人聊了聊
模型目前的几个特点:
(1)超写实质感:
模型生成的视频内容具备高清质感、真实感,可用于工业级商业场景例如广告宣传、创意视频生成等商业应用。
(2)高语义遵循:
用户可以进行细致的刻画,例如生成主体的细节,人物概念的组合等。模型可以准确地表达出文本的内容。
(3)运动画面流畅:
可生成大幅度的合理运动,运动镜头流畅、符合物理规律,不易变形。
(4)原生镜头转换:
模型原生具备自动生成多视角同主体的镜头切换画面,增强画面叙事感。
在发布会之后,模型负责人又跟大家闲聊了一会儿,讲到为什么图片生成模型的发展这么好?这跟开源社区如 ComfyUI 的努力是分不开的。
而在文生视频领域,行业还是一个非常早期的阶段,所以
在混元的后续规划方面
,因此并不急于做商业化,而是选择全面开源,希望吸引更多的创作者,一起推动视频模型行业的发展。
另外在视频生成之外,团队
还在探索视频配音模型、配乐模型、语音驱动的2D照片数字人等,最终要为创作者打造一个一站式的短视频内容制作工具。
模型使用和开源地址
模型目前
已上线腾讯元宝
APP,可在AI应用中的“AI视频”板块申请试用,完全免费。
企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。