专栏名称: 橘子汽水铺
橘子汽水铺 by orange.ai。 AI创始人, AI投资人,AI产品经理都在关注的AI科技自媒体。 聚焦最有商业价值的AI资讯,分享一线的AI产品经理经验。
目录
相关文章推荐
前端早读课  ·  【开源】TinyEngine开启新篇章,服务 ... ·  昨天  
前端大全  ·  Create React ... ·  5 天前  
Python开发者  ·  “李飞飞团队50 美元炼出 ... ·  4 天前  
Python开发者  ·  国产 DeepSeek V3 ... ·  5 天前  
51好读  ›  专栏  ›  橘子汽水铺

腾讯发布最强开源视频生成模型,千题盲测第一,实际体验如何?

橘子汽水铺  · 公众号  ·  · 2024-12-04 08:00

正文

昨天,腾讯放出了自家的视频生成大模型。

至此字节、阿里、腾讯三家的视频生成模型都已经全部放出。

官方用这个模型和市面上最好的四家Sora 模型进行了对比,经过千题盲测,结果如下:

可以看出,这个模型在文本对齐方面,和国内最好的两家打平,而在运动质量方面显著胜出。

作为开源模型,整体表现并不输闭源模型,可以说相当惊喜。

模型实际体验

我用这个视频的实际感受是,在现实风格方面的稳定性很强,美学也不错。

下面是我用这个视频模型,做的一些火星相关的片段,所有的片段都是单次抽卡。

群友对这个视频模型的一些印象是这样的:

  • 模型调性,在写实风格方面很强,但在动画方面很弱

  • 模型对语义遵循方面不错,和一线模型对齐

  • 模型具备原生转场和切镜能力,可以在五秒的视频中自动化进行镜头切换,可以通过 prompt 主动触发,模型也会在提示词较长时自动切换镜头

特写镜头拍摄的是一位 60 多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35 毫米电影胶片。


模型的特点和发展规划

发布会上,负责人聊了聊 模型目前的几个特点:


(1)超写实质感: 模型生成的视频内容具备高清质感、真实感,可用于工业级商业场景例如广告宣传、创意视频生成等商业应用。

(2)高语义遵循: 用户可以进行细致的刻画,例如生成主体的细节,人物概念的组合等。模型可以准确地表达出文本的内容。

(3)运动画面流畅: 可生成大幅度的合理运动,运动镜头流畅、符合物理规律,不易变形。

(4)原生镜头转换: 模型原生具备自动生成多视角同主体的镜头切换画面,增强画面叙事感。


在发布会之后,模型负责人又跟大家闲聊了一会儿,讲到为什么图片生成模型的发展这么好?这跟开源社区如 ComfyUI 的努力是分不开的。

而在文生视频领域,行业还是一个非常早期的阶段,所以 在混元的后续规划方面 ,因此并不急于做商业化,而是选择全面开源,希望吸引更多的创作者,一起推动视频模型行业的发展。

另外在视频生成之外,团队 还在探索视频配音模型、配乐模型、语音驱动的2D照片数字人等,最终要为创作者打造一个一站式的短视频内容制作工具。

模型使用和开源地址

模型目前 已上线腾讯元宝 APP,可在AI应用中的“AI视频”板块申请试用,完全免费。

企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。







请到「今天看啥」查看全文