专栏名称: 奇舞精选
《奇舞精选》是由奇舞团维护的前端技术公众号。除周五外,每天向大家推荐一篇前端相关技术文章,每周五向大家推送汇总周刊内容。
目录
相关文章推荐
51好读  ›  专栏  ›  奇舞精选

太逼真了!Gen-3 Alpha重磅发布,Sora最强竞争对手!

奇舞精选  · 公众号  ·  · 2024-07-02 18:00

正文

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

6月17日晚,著名生成式AI平台Runway在官网发布了,全新文生视频模型——Gen-3 Alpha。

与Gen-2相比,Gen-3在生成视频的质量、色彩、饱和度、光影、文本语义还原、运镜、动作一致性、场景切换等实现大幅度提升。

此外,Gen-3和Sora、可灵、Dream Machine一样是个世界模型,具备模拟物理世界的能力。也就是说, 其生成视频的物理效果,例如,下落、碰撞、触摸、风吹、生长、雨水等都非常逼真

值得一提的是,Runway的联合创始人曾在今年2月25日说过,要做出比Sora更好的文生视频,果然兑现了诺言。

Gen-3案例展示与解读

虽然Gen-3还没有正式全面公测,但已经邀请了影视、开发等人员进行了内测,流出来的视频效果非常棒, 一次可以生成11秒的视频。

下面「AIGC开放社区」选了一些非常有特色的Gen-3视频,并为大家解读它们到底好在哪里。

例如,一顶卷发假发和墨镜突然落在他的头上,一位悲伤的秃头中年男人变得高兴起来。

在这个案例中,我们可以仔细观察他的眼睛睁开速度和嘴巴逐渐微笑的走势,以及戴上假发、墨镜之后,笑容发生的微妙变化,是不是看起来非常逼真。

在高速行驶的火车车窗旁,一名女子的微妙倒影,这个主要体现了Gen-3强大的光影能力。

火车在飞速行驶中,车窗外的霓虹灯照在女人的脸上, 在她的脸颊、鼻子上都有不同层次的效果,同时她受到光的刺激后,还会自然地眨眼,这一点很人性化、很了不起

这个在闹市的火焰圈,也展示出了同样的光影渐变效果。

一位年轻女子驾驶汽车的特写镜头,看上去若有所思,透过雨天的车窗可以看到模糊的绿色森林。这个和上一个火车女的案例差不多,但生成的难度要大很多。

首先, 要体现女子的表情,文本要求的是“若有所思” ,Gen-3选择使用紧闭嘴巴和不眨眼来表现;

其次就是透过雨天的车窗,这就需要雨点在汽车高速行驶之下表现出不同的雨水拍打效果 。整体来看,完成的非常棒!

一个晶莹剔透的水晶盒,有一些彩色的球掉落下来。我们观察到,第一批掉落下来的篮球、绿球、黄球的回弹性非常好, 随着掉落的球越来越多,弹性也变得缓慢起来 ,这个展示的就是物理下落和碰撞等效果。

一个蚂蚁从巢穴中出来的,很近的特写镜头。镜头拉回来,露出山那边的一个街区。这个主要体现了Gen-3的运镜、场景切换的能力。

给完蚂蚁特写之后, 就是一个非常大的远景运镜,接着就要缓慢生成远处的街景,这对场景的连贯、一致性要求非常高

空中拍摄的海洋,水中形成漩涡、不断旋转,直到露出下面炽热的深处。这个也是运镜和场景切换能力。

手持跟踪拍摄,跟踪废弃街道上漂浮的红色气球。这个展示了近大远小的物理效果,我们看到随着气球逐渐飘向远方,气球正在缓慢变小但是毫无违和感;再就是光影效果, 仅在10秒钟镜头的光影却发生了两次变化,一次是短、一次是长

一个废旧的空仓库,从地下冒出来一大片奇妙的绿色丛林。注意深林在出现的过程中发生了两次生成变化。

第一次, 草坪是平的,在马上要见到阳光后,平的草坪立马变成了绿色的植被,同时遮盖住透进来的阳光 整个生长过程,基本是符合现实世界的规律。

世界模型的重要性

从上面这些案例,能体会到模拟物理世界的重要性了吧。其实,世界模型应用最广泛的是在汽车自动驾驶,可以帮助汽车在变化多端的环境中做出明智的决策、规划行动。

所以,OpenAI、Runway等也希望把该技术引入到文生视频领域,来增强生成视频的质量。

但开发特定的世界模型并不容易,首先需要对现实世界的动态和结构进行精确捕捉和模拟。 这涉及到物体的物理属性,比如它们的大小、形状和质地,还有它们如何随时间在环境中移动和变化

例如,在自动驾驶汽车领域,它需要一个能够准确预测其他车辆、行人、交通信号和道路条件变化的世界模型。

物理模拟是世界模型中核心模块之一 ,它允许AI模拟现实世界的物理定律,这对于预测物体如何运动和相互作用至关重要。例如,机器人在抓取物体时,它需要模拟物体的重量和可能的移动轨迹,以确保动作的精确和稳定。

此外,需要大量多类型数据,包括视频、图片、传感器等提供了源源不断的环境信息。然后通过深度学习、极佳的算法从这些数据中提取特征,学习规律,模拟出能够反映现实世界的模型。

世界模型不仅能体现当前的状态,其预测能力也是非常强 。通过学习历史数据和模式,模型能够预测未来可能发生的情况,我们从视频生成的效果就能看出这一点,例如,那个在仓库中生长出绿色强的案例。

此外,世界模型使机器能够与环境进行交互,实时根据环境反馈调整行为。例如,自动驾驶汽车在行驶中会不断更新其世界模型,以反映周围环境的最新变化,并据此做出快速而准确的驾驶决策;

而文生视频模型,可以根据文本语义提示,在生成过程中实时调整生成的内容更好地还原文本提示。

2024——文生视频元年

在今年2月,Sora席卷全球成为现象级产品时,就有网友问过Runway的联合创始人Cristóbal Valenzuela:“几个月后,Runway能做出与Sora类似的产品吗?”

Cristóbal回答的也比较简单直接,会比Sora更好。从Gen-3生成的效果来看,他确实没吹牛做到了。

不少网友表示,Gen-3出现后,Sora迎来了最强竞争对手,整个文生视频赛道的竞争也变得更加残酷。

对Gen-3生成的视频质量也非常认可,并且认可这是文生视频领域最大竞争对手之一。







请到「今天看啥」查看全文