更多一手调研纪要和研报数据,点击上面图片小程序
1.
深度解析
OpenAl Sora
的视频生成技术
OpenAl
的
Sora,
相较于过去只能生成短暂且不稳定的视频片段,能生
成长达一分钟,分辨率甚至能达到
1080P
或
2K
的视频。
OpenAl
使用低维空间转换和四种
Al
工具,使得从复杂素材转换成简单 的坐标形式成为可
能,并还原为视频形式,有别于传统一帧一帧的画出的
方式。
通过提高训练规模,即训练次数,
Sora
的视频清晰度和准确性大幅提升。
2.
更高效的视频
Al
训练之路
OpenAl
的
Sora
用更高分辨率
(
高达
1920x1080)
和更长时间进行训 练,没有对视频素材
进行切割和压缩处理。这比其他
Al
对素材分成
256x256
的块,然后仅训练
4
秒钟的方法更有效
Sora
训练结果显示出了几个独特的特性:涌现
(
三维一致性、交互性、 模拟虚拟世界
)
。涌
现是指当训练量级达到很大的时候,开始出现一些优
秀的特征,而这些特征并没在训练时明确规定
与传统
Al
视频生成模型相比,
Sora
生成的视频更具人物和场景的连贯 性,并适应了摄
像机的移动。这些特质在
Sora
生成的视频中显著
,
而在
传统模型中却难以发现。
3.OpenAl
Sora
的生成视觉变革
OpenAl
的
Sora
展现出优于传统人工智能视频生成的技术,它能够进行
大动作,突然的转场,并且擅长完成有实际意义的动作,适应度较高。
相比之前的视频生成技术,
Sora
可实现较长时间、更长意义的视频生成, 且逻辑关系连
贯。
Sora
采用的技术更适于制作长视频,场景可以在多人
之间反复切换,还能保证主题不变,记忆连贯性。
Sora
的抗风险能力更强。传统的
Al
生成视频为了避免错误,只会进行非 常保守的动作,
而
Sora
则敢于进行更大胆的动作,这使得其产品的观赏 性和趣味性大大提升,而且对于
需要长时间,连贯场景,且人物动作丰富
的视频生成场景
(
比如电影制作,动画制作等
)
尤其适用。
4.Al
视频生成技术解析
在生成
Al
视频方面,
Sara
采用了先生成简单背景下的人物动作,再生成 背景的方式。但
此方法有局限性,例如只能生成摄像机不动的画面。
如果
摄像机需要跟随移动,保持同步的难度则会增加。
Sara
的训练过程中可能用到了虚幻引擎来协助训练,某些场景和视角变
化与虚幻引擎的演示场景相似,但是否确实使用暂不清楚。
Al
视频生成算力需求远超一张图片。相比一张图片,制作一秒钟动态视 频至少需要
12
到
24
帧,
也就是需要 生成
12
到
24
张图片。因此制作一分钟的视频至少需要生成
1800
张图 片
。
达到这个数量级的算力需求、保持画面不闪烁、人物动作和表情的稳
定不突变等都是
Al
视频生成面临的挑战。
5.
视频生成新高维控制揭秘
利用
OpenAlSora
的技术,视频内容生成可以按照几个维度进行调整, 包括物体动作、背
景环境、相机视角等。
其中,各个变量都可以通过对应
的关键词轻易进行调整,具有显著的可控变化性,比如,可以通过一些关
键词轻易改变视频的风格。
OpenAlSora
利用用图像拼接
(patch)
进行视频内容生成,能实现更长 时长的内容制作,
相对于传统的图片拼接方法,有着更好的效果。不仅如 此 ,
OpenAlSora
使用的
patch
技
术可以处理任意分辨率或者尺度的图
像,能应对更加复杂的视频生成需求。
虽然有些疑问和担忧,比如版权问题、可能产生的恶意内容,以及是否出 现了过拟合等,
但据专家观察,
OpenAlSora
已经达到商业应用的级别。它的强大功能和已经取得的效果
,比许多现有的视频生成引擎更为先进,
虽然需要在使用上更为谨慎,但对视频制作领域有着巨大的潜力。
6.
因果解析与四重工具探讨
专家在介绍
OpenAlSora
时强调其可能存在的问题:在模拟现实物体运 动或物理反应时,
可能会出现不准确,例如视频中杯子尚未倒落水就提前
出现。
这将影响视频生成的真实性。
专家认为
OpenAlSora
的优势在于其使用的
Al
工具,主要包括用于降维 的神经网络,将
训练结果升级回像素空间的工具,视频打标签工具以及将
用户简单语句转化为复杂定义的
prompt
工具。
从投资角度,虽然有可能其他竞争者会尝试模仿这类技术,挑战现有视频 生成领域,但实
现效果以及应对未知问题的能力仍是关键。
同时,独立训
练与借助已有工具,如
GPT
的选择也关系到成本和效果。
Q&A
Q:
其他
Al
在视频训练中一般是怎么操作的
?
A:
一般的
Al
在训练过程中会把素材分割成
256
乘
256
的小方块进行处 理,同时每个素材的
训练时长大约是
4
秒钟。这样做主要是出于计算性
能和成本的考虑。
Q:OpenAl
的
Sora
在训练过程中有哪些特立独行的做法
?
A:Sora
在训练的时候会使用视频的原始分辨率,最高可以达到
1920
乘
1080
的清晰度。
同时,它在训练时并没有限制视频的长度。这意味着,
Sora
能够获取到更多、更全面的
训练信息。
OpenAl
团队观察到,使用
高清素材训练出来的效果要更好。
Q:Sora
有哪些不寻常的表现或者收获
?
A:Sora
的算法在训练数据量级非常大时,会出现一种
“
涌现
”
效应, 其视频表现出一些优
秀的特征。
包括三维空间的摄像角度稳定性,也就是 说画面中的人物在移动时,摄像机角
度能够很自然地变化,人物始终能够 保持在恰当的位置。
除此之外,其还能保持视频中元
素之间的交互关系, 比如
Al
可以记住一位人物咬了一口汉堡,当这个汉堡重新出现在画
面中 时,它还保留着被咬过的痕迹。
另外,对视频中的画风操纵背后的细节保 持,比如生
成
Minecraft
游戏世界风格的视频时,视频整体质量依然很
清晰,只是物体风格变化为
Minecraft
马赛克式风格。
Q:
通过对比
Sora
和其他
Al
在生成过程中有什么显著的区别
?
A:
与其他
Al
相 比 ,
Sora
生成视频的时能够保证整个
3D
空间位置以及
比例上的稳定性。
比如它能够稳定地捕捉到人物移动和镜头移动之间的关 系。
相比之下,
其他
Al
在这一点上可能无法确保一致性,如
Runway2,
其人物的运动并不能很好地和镜头的移动保持一致。
Q:
为什么大家认为
OpenAl Sora
很出色
?
A:
相比以往的
Al
视频生成技术,
Sora
表现出较强的动作和场景完成能 力。以往的
Al
生
成视频通常把人物动作调整得非常慢,进行平移、转身 等相对安全的动作以保证不会出大
错误。但
Sora
敢于执行大动作且转场 能力强,如实地完成一个或多个动作,给观众真实
完整的视觉体验,这是
之前的
Al
所没有做到的。
Q:
目前生成视频的
Al
如
Runway
和
Sora
有何对比
?
A:
大家普遍认为
Sora
直接生成的视频结果更好,比如即使出现场景转 换,也能保持连贯
性,保持一致的主题和记忆。相比之下,
Runway
这 样的
Al
每次只能生成短视频片段,
人工剪辑后拼成完整视频,不能生成
长且连贯的视频。
Q:
能否从两种
Al
视频生成方式的原理解读其优劣
?
A:
传统的
Al
视频生成方式,如
Runway,
采用的是
Al
把图片拼接成视 频。它通常只能参
考前一帧或前两帧的内容,连续性望远镜可能保证,但 对于跨度较大的时间段内物体的运
动,它就无法很好地处理。
对于这一问
题 ,
Sora
的解决方案是同时考虑时间和空间顺序,即时间空间编码。这
使得
Sora
能对场景变换有更好的处理,无论从人物角度变换,或者场景
之间的切换,都能保持主题不变,且记忆连贯。
Q:Sora
和
Runway
在场景拼接方面有什么区别
?
A:
当
Runway
生成视频时,每个镜头的生成都需要人工选择,然后再进
行拼接。但
Sora
可以 在保持连贯性的 同时进行场景转换,即使视角发生变化,产生的
视频同样非常自然。
Q:
在
Sora
生成的视频中,有哪些元素能帮助多个视频片段有意义地拼
接在一起
?
A:
在
Sora
生成的视频中,时间顺序、空间顺序以及可能存在的人物和 背景之间的区分,
这些元素都有可能帮助多个视频片段有意义地拼接在一 起。
而这种拼接方式使已生成的视
频片段与即将生成的片段在语义上保持
连贯,从而让整个视频拥有连贯的时间意义。
Q:
您认为视频合成和单一画面合成背景的做法是否有相似之处,或者说
原理上是否有不同
?
A:
视频生成中完全可以应用后者的方法。已有的
Al
技术在生成视频时, 我们先生成简单
背景下的人物动作,然后再生成对应的背景并将它们贴合 在一起。
但这种方式的问题是,
只能生成摄像机不动的视频。
如果你摄像 机在动,人在动,那同时你的背景也得和这个摄
像机同步,这就做起来相
对困难。
Q:OpenAlSora
是否可能结合了像游戏引擎一样的逻辑,比如里面的物
体运动自己规划好,然后再加上背景或者其他一些运动
?
A:
有些
Al
视频专家在推特上对此表示怀疑。他们觉得
Sora
在训练过程 中可能使用了虚幻
引擎来辅助。但实际上,关于
Sora
是否真的使用了虚
幻引擎,我们并不清楚。
Q:
在
Al
视频的发展过程中,算力的增加是由哪些维度导致的,是否能
进行概述
?
A:
视频的算力需求远超过图像。比如我们都知道生成一个普通的视频, 最基本的你要保持
流畅,那你可能就得要
12
到
24
帧。也就是说,你一 秒钟的视频,你就需要画出这么多的帧
。然后如果是普通的动态视频,则 一般是
30
帧。这里,我们可以观察到算力需求的变化量
级从画图到做视 频。因此,
Sora
现在可以生成最多
60
秒的视频,这就对应到了
1800
张 图
片,且这些图片都需要生成。
然后,对应的需求也在变化,因为现在人 们更习惯于看短视
频或者
YouTube
上的长视频,所以这个应用将有极大
的爆发力。
Q:
除了视频长度决定了算力需求增加,对做限制添加的一些
Al
功能维 度是否还有其他可
能增加算力的因素
?
例如
Al
生成视频中要保证前后一
张图的一致性等因素
?
A:
确实存在很多因素会增加算力需求。比如,首先是一个人物姿势的稳
定性需要保持,这个可以使用
ctrllt
实现;其次就是视频里面的场景不能 乱变;而后就是
视觉深度关系,就是物体跟你这个摄像头之间,哪一个离 你更近,哪一个离你更远,也是
需要限制的;
再加上人物的面容问题,你 每增加一个维度,你相当于说是要重画一遍;
还
有就是人物身上的配饰, 包括服饰,也是需要稳定的。
这个重重加下来至少是七八重的这
个限制, 就是七八倍的运算量是肯定要有。
就是你要保证说你的画面不闪烁,你的
人物动作不要突然一下改变,你的人的脸不要突然一下变化。
Q:
在训练这样一个模型,使用的数据量大概是怎么样一个增加的
?
A:
一般的公司确实做不到这样大的训练量。如果你看普通的
4
秒钟视频, 你就能感受到这
个视频的大小和它的时间长度。以
OpenAl
的数据为例, 它把整个视频以原始的分辨率和
原始的时长丢进去进行训练。因此,
OpenAl
的训练与其他公司相比,数据量级上有很大
的区别。
如果时长一
致的话,文件大小可能有三四十倍之间的差别。
Q:
请展示一下如何使用
OpenAl Sora
控制视频中的关键变量
?
A:Sora
采用了一种名为
“motion brush”
的功能,相当于是控制动画 的
"mask"
。在控制界
面上,你可以选择你关注的区域,例如对画出的图 片中不满意的部分进行修改,然后给这
部分添加运动,无论是
X
轴还是
Y
轴的运动。此外,你可以选择图片上不同的部分,不断
添加运动,这就是
OpenAl Sora
控制关键变量的方式。
Q:
与其他
Al
视频相较,
OpenAl Sora
的控制参数有何特殊之处
?
A:Sora
在模型控制上的变化主要表现在两个方面。
首先,每一个被选 中的区域,它的
控制实际上是基于像素级别的变化,而非完整的物体动作。
即便是对于运动对象,模型考
虑的是这个对象的像素变化,而不是将其视 为一个整体。其次,
Sora
的训练方式是基于
画面的分割,这让它可以进 行任意分辨率或尺度的图像训练。同时,生成过程中,
Sora
会将分辨率 划分为一个个
grid,
用于填充对应的像素,这使其能够生成高分辨率的
视频。
Q:
是否存在过拟合问题
?
游戏引擎的场景和
Sora
输出的效果如何对
比
?
A:
对于是否存在过拟合问题,目前我们无法确切判断,这需要我们真正 能动手使用后才能
作出实质性的评价。同样的,对比游戏引擎的场景和
Sora
的输出,我们也仅能通过
OpenAl
选择性展示的部分进行评判。可以注意的是,
OpenAl
在发布
Sora
时十分谨慎
,也明确指出需要注
意使用过程中可能产生的版权、公共危害等问题。
Q:OpenAl
Sora
是否已经达到商用级别
?60
秒之间的一致性能否被保
证
?
A: