专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
相关文章推荐
Wind万得  ·  小米SU7 Ultra曝光,多款新品同台发布 ·  11 小时前  
法询金融固收组  ·  财政部11号文 ·  3 天前  
深圳市中级人民法院  ·  盗用身份证,“贷”价惨重! ·  3 天前  
深圳市中级人民法院  ·  盗用身份证,“贷”价惨重! ·  3 天前  
金融早实习  ·  麦星投资2025年实习生招聘 ·  3 天前  
51好读  ›  专栏  ›  AI科技大本营

视频生成赛道王者归来!Runway 最新 Gen-3 Alpha 炸场

AI科技大本营  · 公众号  ·  · 2024-06-18 18:28

正文

作者 | 王轶群,王启隆
出品丨AI 科技大本营(ID:rgznai100)

视频生成大模型赛道强者接连诞生。

继 Vidu、快手可灵、Luma AI 轮番炸场后,又一位 Sora 挑战者来了!

这次是由视频生成领域的核心玩家 Runway 宣布即将推出的 Gen-3 Alpha。

Runway 官方介绍, Gen-3 Alpha 是其 推出的最新视频生成基础模型,“第三代 Alpa 是高保真、可控视频生成的新前沿”。

Runway 表示, Gen-3 Alpha 能生成具有复杂场景变化、多种电影风格选择以及详细艺术指导的高质量视频。
“Gen-3 Alpha 是 Runway 在全新大规模多模态训练基础设施上训练的首个模型,标志着我们在构建通用世界模型(General World Models)目标上的重要进展。”该公司强调。
话不多说,先上官方视频——来看看由 Gen-3 Alpha 制作的一个完整视频短片长什么样?场面恢弘,大片既视感!
简单提示词,即可诞生影视级画面
提示词:一个超速行驶的 日本城市 列车, 窗户上 映射出一个女人的微妙倒影。
可以看到,人物面部柔和自然,倒影的沿路光线在女人面部丝滑流转,光影效果堪比影视片段。
提示词:一位宇航员在里约热内卢的小巷中奔跑。
宇航员运动流畅,其运动速度与两边街景的倒退速度基本一致,整体画面毫无违和感。
提示词:第一人称视角(FPV)穿过森林,到达一座废弃的房子,然后进入海浪。
镜头一路纵深,从幽静森林到古建筑藏书阁,再到石柱长廊,直到海浪直接冲刷进来。这场景转化,在传统影视制作上,应该需要不少技术及经费,而在 Runway Gen-3 Alpha 的官方演示中,只需一句提示词描述。
提示词:一名老年男子在侧光下弹钢琴。
手指纹路、身体摆动、衣服褶皱,还有光源由远及近的变化,就好像在摄影棚拍摄的一样。
提示词:在 1980 年代风格的厨房里,镜头以电影般的缓缓推移,最终聚焦于一只站立的鸵鸟。

复古的陈列及光线下,一只鸵鸟活灵活现,同时运镜也很稳。时光穿越和奇妙组合,在简单提示词下就这样轻松实现了。
Runway 官方表示,以上视频皆由 Gen-3 Alpha 生成,未经任何修改。
该公司介绍道, Gen-3 Alpha 在视频和图像上联合训练,将支持 Runway 的文本转视频、图像转视频和文本转图像工具,还包括现有的控制模式如运动刷、先进摄像机控制和导演模式,以及即将推出的更多精细控制结构、风格和运动的工具。
从其官网的几个视频 demo 的展示来看,效果确实不错。
跨学科团队支持,为创意而生
只有单人的微场景视频吗?
不, Gen-3 Alpha 可以整场演唱会!
其热闹非凡的效果,多人躁动的场面,舞台灯光的快速变化,以及航拍到近场的视角,让网友直呼效果炸裂、迫不及待想尝试:“看起来比其他 AI 生成的视频好多了!令人印象深刻!以 这样的发展速度,你很快就无法区分 AI 生成的视频和真实视频了。” “难以置信。你知道生成这个要花多少钱吗?”
还有网友表示想去听演唱会、震惊没有长得一样的两人:“我肯定会去听那场音乐会。看起来很有趣。” “让我吃惊的是,视频中包含的粒子或信息的数量(例如人数)不会让视频花费更多的推理/计算时间,我的假设是正确的,对吧?只有视频长度会花费更多的计算时间,对吧?这真是令人吃惊!” “没有两个人长得一模一样!”
官方表示,Gen-3 Alpha 为创意和创作而生,是为创意应用从头开始训练的。
为什么能生成如此效果炸裂而又流畅自然的视频?
其背后的跨学科研究团队的付出不容忽视。据 Runway 介绍,训练 Gen-3 Alpha 是一支由研究科学家、工程师和艺术家组成的跨学科团队的合作成果。这样团队支持,能让 Gen-3 Alpha 诠释各种风格和电影术语。
据 iamneubert 的 Nicolas Neubert 透露,Gen-3 Alpha 模型的生成速度非常之快。官方分享的演示视频普遍徘徊在 10 秒水平线上,而这 10 秒视频只需要 90 秒的时间就能快速生成。
Runway Gen-3 Alpha 具备以下功能特点:
  • 高保真视频生成:能够生成接近真实世界质量的视频内容,具有高度的细节和清晰度。

  • 精细动作控制:模型能够精确控制视频中对象的动作和过渡,实现复杂场景的流畅动画。

  • 逼真人物生成:特别擅长生成具有自然动作、表情和情感的逼真人类角色。

  • 多模态输入:支持文字转视频、图像转视频、文字转图像等多种创作方式。

  • 支持专业创作工具:支持运动画笔、相机控制和导演模式等专业创作工具。

  • 高质量训练:使用高描述性的、时间密集的字幕进行训练,使模型能够理解和生成具有丰富时间动态的视频。

“这一技术的飞跃代表了我们在支持艺术家创新方面的重要里程碑,为下一代创意和艺术创新铺平了道路。” Runway 表示。
同时,Gen-3 Alpha 还将配备一套新的安全措施,包括改进的内部视觉审核系统和 C2PA 溯源标准,以确保内容的安全可靠。
为创作而生的 Gen-3 Alpha 还开启了行业定制模式。 Runway 还表示:“作为 Gen-3 模型家族的一部分,我们与领先的娱乐和媒体组织合作,推出了 Gen-3 Alpha 的定制版本。”
Gen-3 模型的定制化使角色能够实现更多风格化控制和一致性,满足特定的艺术和叙事需求。
跟 Gen-2 相比, Gen-3 在细节、一致性和运动表现方面有了显著改进。要知道,包括《黑寡妇》《瞬息全宇宙》等知名电影都运用了 Runway 的技术支持。Gen-3 将为影视创作带来怎样的效果和便利,我们拭目以待。
即将开放和更多的竞争
等不及了,什么时候可以试用?
官方表示,Gen-3 Alpha 将在未来几天内向所有人开放。对此,用户和 AI 业界大佬都好评不断、一片欢腾。
Hugging Face 联合创始人兼 CEO Clément Delangue 表示:“太酷了!谁将成为因 开源视频收获百倍影响力 的幸运儿?
PyTorch 之父 Soumith Chintala 表示:“部分视频演示已达到 Sora 级别。不过我还想看到它生成人群拥挤的街道一类的短视频来看看效果如何。”
而上文提到的演唱会人群视频,也从侧面证明了其效果。






请到「今天看啥」查看全文