主要观点总结
本文介绍了OpenAI发布的全新视频生成产品Sora的多个关键点,包括其完整度、运动效果、视频修改与编辑功能以及故事板一致性等。同时,文章还讨论了AI视频领域的其他相关话题,如其他AI视频模型的表现,以及AI技术的未来发展。
关键观点总结
关键观点1: Sora作为OpenAI的新产品,是一个完善的视频生成工具,具有多种功能如上传图片或视频、预设风格模板、生成不同尺寸和分辨率的视频等。
Sora提供了丰富的视频编辑和修改功能,如Remix(重混)、Blend(混合)和Loop(循环),这些功能使得用户可以轻松修改和编辑生成的视频。此外,Sora还具有完美一致性故事板功能,可以生成几乎完美一致性的分镜,从而组成一段一分钟的影片。
关键观点2: Sora在运动效果方面表现良好,但在一些复杂语义的理解和物体细节处理上还有提升空间。
作者通过实际案例展示了Sora生成的运动效果,并指出了其不足之处。同时,作者认为Sora的水平相当于GPT2.5,未来v2版本可能会达到GPT3.5的水平。
关键观点3: 文章讨论了AI视频领域的其他相关话题,包括其他AI视频模型的表现以及AI技术的未来发展。
作者提到在这298天里,AI视频领域群雄并起,各种AI视频模型如可灵、即梦、海螺、Vidu等都展现出了各自的特点。同时,作者思考了AI技术带来的伦理和道德问题,如如何平衡虚拟完美和真实情感表达等。
正文
而且不仅仅是一个模型,而是一个非常完善且体验极佳的真正的产品。
Sora背后接入的是一个新模型,
Sora Turbo,推理成本肯定少了非常非常多,这也解释了为啥OpenAI把Sora拖了这么久,就是因为二月份的那个模型,推理起来太烧钱了,跑不动。
虽然是个新产品,但是会员体系是跟ChatGPT全面打通的。
20刀的Plus比较惨,最多生成50个视频,最多720P、5s,还有水印。
尊贵的200刀的Pro会员就比较香了,最多快速生成500个视频,还能无限慢速跑,1080P、20s,还有无水印。
于是,我也成了尊贵的200刀的Pro会员了,o1没让我充钱,但是Sora这波,我是真的逃不了了。。。
2月16号,OpenAI发布Sora,在全世界,掀起了新的浪潮。
那个Sora,成了所有人心中,最远的梦。宛如天上的星辰,美得不可方物,却又遥不可及。
有人说,5G只改变了何同学的生活,而Sora,也只改变了我的生活。
在铁王座上的王已经换了无数次之后,在可灵、即梦、海螺、vidu等等AI视频模型已经一统江湖之后。
极度完整的用户体验、碾压级的运动效果、超丰富的视频修改与编辑、完美一致性的故事板。
我最开始以为的Sora,是一个网页,就一个写Prompt的输入框,然后没了。
结果,Sora这个产品,掏出来的完整度,还是超出了我的预期。
在整体界面上,非常的Midjourney,有一种熟悉的感觉的即视感。
最左边的其实就是社区和你自己的生成出来的素材管理。
而真正的操作区,放在了底部,功能比我想象的要多很多。
上传图片或者视频:
Sora支持文生视频、图生视频。所以可以传图。
比例:
支持的比较少,只有16:9、1:1、9:16三种尺寸。
分辨率:
3种,480p到1080p,Plus会员只能生成720p的,pro会员才可以生成1080p。
持续时长:
4种,5s、10s、15s、20s,这里需要注意,720p的是可以生成20s的,但是如果你选1080p,那最多只能生成10s了。
一次生成视频个数:
1、2、4三种选择,1080p最多1个,720p最多2个、480p最多3个。
右边还有一个非常非常牛逼的故事板功能,这个我们放在第四趴细说。
在这个功能的完整度上,已经比很多产品好了,但是,这不是最重要的,最可怕的完整度,是在生成视频后。
Remix(重新混合)、blend(混合)、Loop(循环),这些功能,是我全部第一次见,也都是Sora的独创功能,这一趴,我放在第三块细说。
现在几乎所有的AI视频模型还在努力追赶真实世界的运动质感,在让人能走起来、跑起来、做一些复合型动作。
那Sora作为整个的鼻祖,其实在运动效果上,会好一些,但是并没有好那么的超乎预期。
-
80年代日本原宿时尚街。
2. 一只小焦糖色的兔子在它的木屋里跳来跳去,看起来非常无害。
3.一只拟人化的毛绒熊猫玩偶,穿着一件宽松的绿色针织开衫、条纹上衣、黑色高腰短裤(或裙子)、条纹薄透连裤袜以及厚底黑色系带靴子,头顶一顶芥末黄色贝雷帽,戴着一副有色墨镜。她站在一个工业风的摄影棚里,背景是暗色混凝土墙,头顶是灯光设备架,舞台设备的细节若隐若现。这只毛绒熊猫开始以自信而有节奏的动作表演流畅的嘻哈舞。
在运动质量、物理规律、镜头语言上,会比大部分的AI视频模型效果都要厉害。还有那个神级的审美。
当然,不足也有很多,而且跟2月的时候,我觉得没有太大的变化。
就是肢体变形、物体的突然出现以及消失、错位等等,这些也还是会有不少。
比如,我给的Prompt是:
“
在那间破旧的出租公寓里,刚毕业的年轻人疲惫地脱下西装外套,把它扔在椅背上。他走到窗边,呆呆地望着城市的夜景。远处,霓虹灯闪烁。
”
你会发现完全没有理解脱衣服、扔衣服这事...一直漫无目的在屋子里走来走去。。。
还会经常有莫名其妙的切镜,如果把时间拉到10s钟,我个人觉得,切镜的过于频繁了。
所以,整体来看,我觉得Sora如果对标GPT进度的话,那现在应该是GPT2.5左右的水平。
那可能就真的能达到GPT3.5,那种全民可用的地步。
如果我说,我希望在刚刚生成的的草地上,加个游泳池。
我想,任何一个人都会用看煞笔的眼神来看我,不开口骂我我觉得都是轻的。
比如在他们的直播演示里,他们先生成了一段猛犸象在荒原奔跑的视频。
那如果你对这个猛犸象不满意,想把他变成机械猛犸象。
可以选择温和,于是,你就有了,机械猛犸象在荒原上奔跑。
我想让雪花先开始放,然后无缝变成花朵的样子,中间无缝斜街。
你可以通过不同的Prompt,生成几乎完美一致性的分镜,从而组成一段一分钟的影片。
其实用AI一键生成电影,是很多炒概念的公司,在打的点。
因为电影,或者视频,本质上是由一个一个的镜头组成的。
很多时候为了在前期就把大概的画面定好,就需要提前画故事板。
比如《流浪地球2》上映的时候,就有媒体对当时球2的故事板指导费雪豪老师做过专访,其中透露了一些故事板的设计,就是长这样的。