专栏名称: 水木纪要
最有效、最及时分享公私募、公司、行业等投研纪要和市场热点分析。掌握市场信息差,掌握财富代码。
目录
相关文章推荐
HACK学习呀  ·  交易实战 | ... ·  2 天前  
51好读  ›  专栏  ›  水木纪要

会议纪要丨专家解读 OpenAl Sora !

水木纪要  · 公众号  ·  · 2024-02-19 23:57

正文

更多一手调研纪要和研报数据,点击上面图片小程序

1. 深度解析 OpenAl Sora 的视频生成技术

OpenAl Sora, 相较于过去只能生成短暂且不稳定的视频片段,能生 成长达一分钟,分辨率甚至能达到 1080P 2K 的视频。 OpenAl 使用低维空间转换和四种 Al 工具,使得从复杂素材转换成简单 的坐标形式成为可 能,并还原为视频形式,有别于传统一帧一帧的画出的 方式。 通过提高训练规模,即训练次数, Sora 的视频清晰度和准确性大幅提升。

2. 更高效的视频 Al 训练之路

OpenAl Sora 用更高分辨率 ( 高达 1920x1080) 和更长时间进行训 练,没有对视频素材 进行切割和压缩处理。这比其他 Al 对素材分成 256x256 的块,然后仅训练 4 秒钟的方法更有效 Sora 训练结果显示出了几个独特的特性:涌现 ( 三维一致性、交互性、 模拟虚拟世界 ) 。涌 现是指当训练量级达到很大的时候,开始出现一些优 秀的特征,而这些特征并没在训练时明确规定 与传统 Al 视频生成模型相比, Sora 生成的视频更具人物和场景的连贯 性,并适应了摄 像机的移动。这些特质在 Sora 生成的视频中显著 , 而在 传统模型中却难以发现。

3.OpenAl

Sora 的生成视觉变革

OpenAl Sora 展现出优于传统人工智能视频生成的技术,它能够进行 大动作,突然的转场,并且擅长完成有实际意义的动作,适应度较高。 相比之前的视频生成技术, Sora 可实现较长时间、更长意义的视频生成, 且逻辑关系连 贯。 Sora 采用的技术更适于制作长视频,场景可以在多人 之间反复切换,还能保证主题不变,记忆连贯性。

Sora 的抗风险能力更强。传统的 Al 生成视频为了避免错误,只会进行非 常保守的动作, Sora 则敢于进行更大胆的动作,这使得其产品的观赏 性和趣味性大大提升,而且对于 需要长时间,连贯场景,且人物动作丰富 的视频生成场景 ( 比如电影制作,动画制作等 ) 尤其适用。

4.Al 视频生成技术解析

在生成 Al 视频方面, Sara 采用了先生成简单背景下的人物动作,再生成 背景的方式。但 此方法有局限性,例如只能生成摄像机不动的画面。 如果 摄像机需要跟随移动,保持同步的难度则会增加。 Sara 的训练过程中可能用到了虚幻引擎来协助训练,某些场景和视角变 化与虚幻引擎的演示场景相似,但是否确实使用暂不清楚。 Al 视频生成算力需求远超一张图片。相比一张图片,制作一秒钟动态视 频至少需要 12 24 帧, 也就是需要 生成 12 24 张图片。因此制作一分钟的视频至少需要生成 1800 张图 片 达到这个数量级的算力需求、保持画面不闪烁、人物动作和表情的稳 定不突变等都是 Al 视频生成面临的挑战。

5. 视频生成新高维控制揭秘

利用 OpenAlSora 的技术,视频内容生成可以按照几个维度进行调整, 包括物体动作、背 景环境、相机视角等。 其中,各个变量都可以通过对应 的关键词轻易进行调整,具有显著的可控变化性,比如,可以通过一些关 键词轻易改变视频的风格。

OpenAlSora 利用用图像拼接 (patch) 进行视频内容生成,能实现更长 时长的内容制作, 相对于传统的图片拼接方法,有着更好的效果。不仅如 此 , OpenAlSora 使用的 patch 术可以处理任意分辨率或者尺度的图 像,能应对更加复杂的视频生成需求。

虽然有些疑问和担忧,比如版权问题、可能产生的恶意内容,以及是否出 现了过拟合等, 但据专家观察, OpenAlSora 已经达到商业应用的级别。它的强大功能和已经取得的效果 ,比许多现有的视频生成引擎更为先进, 虽然需要在使用上更为谨慎,但对视频制作领域有着巨大的潜力。

6. 因果解析与四重工具探讨

专家在介绍 OpenAlSora 时强调其可能存在的问题:在模拟现实物体运 动或物理反应时, 可能会出现不准确,例如视频中杯子尚未倒落水就提前 出现。 这将影响视频生成的真实性。

专家认为 OpenAlSora 的优势在于其使用的 Al 工具,主要包括用于降维 的神经网络,将 训练结果升级回像素空间的工具,视频打标签工具以及将 用户简单语句转化为复杂定义的 prompt 工具。

从投资角度,虽然有可能其他竞争者会尝试模仿这类技术,挑战现有视频 生成领域,但实 现效果以及应对未知问题的能力仍是关键。 同时,独立训 练与借助已有工具,如 GPT 的选择也关系到成本和效果。

Q&A

Q: 其他 Al 在视频训练中一般是怎么操作的 ?

A: 一般的 Al 在训练过程中会把素材分割成 256 256 的小方块进行处 理,同时每个素材的 训练时长大约是 4 秒钟。这样做主要是出于计算性 能和成本的考虑。

Q:OpenAl Sora 在训练过程中有哪些特立独行的做法 ?

A:Sora 在训练的时候会使用视频的原始分辨率,最高可以达到 1920 1080 的清晰度。 同时,它在训练时并没有限制视频的长度。这意味着, Sora 能够获取到更多、更全面的 训练信息。 OpenAl 团队观察到,使用 高清素材训练出来的效果要更好。

Q:Sora 有哪些不寻常的表现或者收获 ?

A:Sora 的算法在训练数据量级非常大时,会出现一种 涌现 效应, 其视频表现出一些优 秀的特征。 包括三维空间的摄像角度稳定性,也就是 说画面中的人物在移动时,摄像机角 度能够很自然地变化,人物始终能够 保持在恰当的位置。 除此之外,其还能保持视频中元 素之间的交互关系, 比如 Al 可以记住一位人物咬了一口汉堡,当这个汉堡重新出现在画 面中 时,它还保留着被咬过的痕迹。 另外,对视频中的画风操纵背后的细节保 持,比如生 Minecraft 游戏世界风格的视频时,视频整体质量依然很 清晰,只是物体风格变化为 Minecraft 马赛克式风格。

Q: 通过对比 Sora 和其他 Al 在生成过程中有什么显著的区别 ?

A: 与其他 Al 相 比 , Sora 生成视频的时能够保证整个 3D 空间位置以及 比例上的稳定性。 比如它能够稳定地捕捉到人物移动和镜头移动之间的关 系。 相比之下, 其他 Al 在这一点上可能无法确保一致性,如 Runway2, 其人物的运动并不能很好地和镜头的移动保持一致。

Q: 为什么大家认为 OpenAl Sora 很出色 ?

A: 相比以往的 Al 视频生成技术, Sora 表现出较强的动作和场景完成能 力。以往的 Al 成视频通常把人物动作调整得非常慢,进行平移、转身 等相对安全的动作以保证不会出大 错误。但 Sora 敢于执行大动作且转场 能力强,如实地完成一个或多个动作,给观众真实 完整的视觉体验,这是 之前的 Al 所没有做到的。

Q: 目前生成视频的 Al Runway Sora 有何对比 ?

A: 大家普遍认为 Sora 直接生成的视频结果更好,比如即使出现场景转 换,也能保持连贯 性,保持一致的主题和记忆。相比之下, Runway 这 样的 Al 每次只能生成短视频片段, 人工剪辑后拼成完整视频,不能生成 长且连贯的视频。

Q: 能否从两种 Al 视频生成方式的原理解读其优劣 ?

A: 传统的 Al 视频生成方式,如 Runway, 采用的是 Al 把图片拼接成视 频。它通常只能参 考前一帧或前两帧的内容,连续性望远镜可能保证,但 对于跨度较大的时间段内物体的运 动,它就无法很好地处理。 对于这一问 题 , Sora 的解决方案是同时考虑时间和空间顺序,即时间空间编码。这 使得 Sora 能对场景变换有更好的处理,无论从人物角度变换,或者场景 之间的切换,都能保持主题不变,且记忆连贯。

Q:Sora Runway 在场景拼接方面有什么区别 ?

A: Runway 生成视频时,每个镜头的生成都需要人工选择,然后再进 行拼接。但 Sora 可以 在保持连贯性的 同时进行场景转换,即使视角发生变化,产生的 视频同样非常自然。

Q: Sora 生成的视频中,有哪些元素能帮助多个视频片段有意义地拼 接在一起 ?

A: Sora 生成的视频中,时间顺序、空间顺序以及可能存在的人物和 背景之间的区分, 这些元素都有可能帮助多个视频片段有意义地拼接在一 起。 而这种拼接方式使已生成的视 频片段与即将生成的片段在语义上保持 连贯,从而让整个视频拥有连贯的时间意义。

Q: 您认为视频合成和单一画面合成背景的做法是否有相似之处,或者说 原理上是否有不同 ?

A: 视频生成中完全可以应用后者的方法。已有的 Al 技术在生成视频时, 我们先生成简单 背景下的人物动作,然后再生成对应的背景并将它们贴合 在一起。 但这种方式的问题是, 只能生成摄像机不动的视频。 如果你摄像 机在动,人在动,那同时你的背景也得和这个摄 像机同步,这就做起来相 对困难。

Q:OpenAlSora 是否可能结合了像游戏引擎一样的逻辑,比如里面的物 体运动自己规划好,然后再加上背景或者其他一些运动 ?

A: 有些 Al 视频专家在推特上对此表示怀疑。他们觉得 Sora 在训练过程 中可能使用了虚幻 引擎来辅助。但实际上,关于 Sora 是否真的使用了虚 幻引擎,我们并不清楚。

Q: Al 视频的发展过程中,算力的增加是由哪些维度导致的,是否能 进行概述 ?

A: 视频的算力需求远超过图像。比如我们都知道生成一个普通的视频, 最基本的你要保持 流畅,那你可能就得要 12 24 帧。也就是说,你一 秒钟的视频,你就需要画出这么多的帧 。然后如果是普通的动态视频,则 一般是 30 帧。这里,我们可以观察到算力需求的变化量 级从画图到做视 频。因此, Sora 现在可以生成最多 60 秒的视频,这就对应到了 1800 张 图 片,且这些图片都需要生成。 然后,对应的需求也在变化,因为现在人 们更习惯于看短视 频或者 YouTube 上的长视频,所以这个应用将有极大 的爆发力。

Q: 除了视频长度决定了算力需求增加,对做限制添加的一些 Al 功能维 度是否还有其他可 能增加算力的因素 ? 例如 Al 生成视频中要保证前后一 张图的一致性等因素 ?

A: 确实存在很多因素会增加算力需求。比如,首先是一个人物姿势的稳

定性需要保持,这个可以使用 ctrllt 实现;其次就是视频里面的场景不能 乱变;而后就是 视觉深度关系,就是物体跟你这个摄像头之间,哪一个离 你更近,哪一个离你更远,也是 需要限制的; 再加上人物的面容问题,你 每增加一个维度,你相当于说是要重画一遍; 有就是人物身上的配饰, 包括服饰,也是需要稳定的。 这个重重加下来至少是七八重的这 个限制, 就是七八倍的运算量是肯定要有。 就是你要保证说你的画面不闪烁,你的 人物动作不要突然一下改变,你的人的脸不要突然一下变化。

Q: 在训练这样一个模型,使用的数据量大概是怎么样一个增加的 ?

A: 一般的公司确实做不到这样大的训练量。如果你看普通的 4 秒钟视频, 你就能感受到这 个视频的大小和它的时间长度。以 OpenAl 的数据为例, 它把整个视频以原始的分辨率和 原始的时长丢进去进行训练。因此, OpenAl 的训练与其他公司相比,数据量级上有很大 的区别。 如果时长一 致的话,文件大小可能有三四十倍之间的差别。

Q: 请展示一下如何使用 OpenAl Sora 控制视频中的关键变量 ?

A:Sora 采用了一种名为 “motion brush” 的功能,相当于是控制动画 的 "mask" 。在控制界 面上,你可以选择你关注的区域,例如对画出的图 片中不满意的部分进行修改,然后给这 部分添加运动,无论是 X 轴还是 Y 轴的运动。此外,你可以选择图片上不同的部分,不断 添加运动,这就是 OpenAl Sora 控制关键变量的方式。

Q: 与其他 Al 视频相较, OpenAl Sora 的控制参数有何特殊之处 ?

A:Sora 在模型控制上的变化主要表现在两个方面。 首先,每一个被选 中的区域,它的 控制实际上是基于像素级别的变化,而非完整的物体动作。 即便是对于运动对象,模型考 虑的是这个对象的像素变化,而不是将其视 为一个整体。其次, Sora 的训练方式是基于 画面的分割,这让它可以进 行任意分辨率或尺度的图像训练。同时,生成过程中, Sora 会将分辨率 划分为一个个 grid, 用于填充对应的像素,这使其能够生成高分辨率的 视频。

Q: 是否存在过拟合问题 ? 游戏引擎的场景和 Sora 输出的效果如何对 ?

A: 对于是否存在过拟合问题,目前我们无法确切判断,这需要我们真正 能动手使用后才能 作出实质性的评价。同样的,对比游戏引擎的场景和 Sora 的输出,我们也仅能通过 OpenAl 选择性展示的部分进行评判。可以注意的是, OpenAl 在发布 Sora 时十分谨慎 ,也明确指出需要注 意使用过程中可能产生的版权、公共危害等问题。

Q:OpenAl Sora 是否已经达到商用级别 ?60 秒之间的一致性能否被保 ?

A:







请到「今天看啥」查看全文