专栏名称: 数字生命卡兹克

反复横跳于不同的AI领域，努力分享一些很酷的AI干货

OpenAI正式上线Sora - 王者归航。

数字生命卡兹克 · 公众号 · · 2024-12-10 05:52

主要观点总结

本文介绍了OpenAI发布的全新视频生成产品Sora的多个关键点，包括其完整度、运动效果、视频修改与编辑功能以及故事板一致性等。同时，文章还讨论了AI视频领域的其他相关话题，如其他AI视频模型的表现，以及AI技术的未来发展。

关键观点总结

关键观点1: Sora作为OpenAI的新产品，是一个完善的视频生成工具，具有多种功能如上传图片或视频、预设风格模板、生成不同尺寸和分辨率的视频等。

Sora提供了丰富的视频编辑和修改功能，如Remix（重混）、Blend（混合）和Loop（循环），这些功能使得用户可以轻松修改和编辑生成的视频。此外，Sora还具有完美一致性故事板功能，可以生成几乎完美一致性的分镜，从而组成一段一分钟的影片。

关键观点2: Sora在运动效果方面表现良好，但在一些复杂语义的理解和物体细节处理上还有提升空间。

作者通过实际案例展示了Sora生成的运动效果，并指出了其不足之处。同时，作者认为Sora的水平相当于GPT2.5，未来v2版本可能会达到GPT3.5的水平。

关键观点3: 文章讨论了AI视频领域的其他相关话题，包括其他AI视频模型的表现以及AI技术的未来发展。

作者提到在这298天里，AI视频领域群雄并起，各种AI视频模型如可灵、即梦、海螺、Vidu等都展现出了各自的特点。同时，作者思考了AI技术带来的伦理和道德问题，如如何平衡虚拟完美和真实情感表达等。

正文

请到「今天看啥」查看全文

今晚2点，OpenAI Day3的直播。

我们等了298天的Sora，终于，正式上线了。

而且不仅仅是一个模型，而是一个非常完善且体验极佳的真正的产品。

网址在此：sora.com

Sora背后接入的是一个新模型， Sora Turbo，推理成本肯定少了非常非常多，这也解释了为啥OpenAI把Sora拖了这么久，就是因为二月份的那个模型，推理起来太烧钱了，跑不动。

虽然是个新产品，但是会员体系是跟ChatGPT全面打通的。

20刀的Plus比较惨，最多生成50个视频，最多720P、5s，还有水印。

尊贵的200刀的Pro会员就比较香了，最多快速生成500个视频，还能无限慢速跑，1080P、20s，还有无水印。

所以，没办法，我只能，当场怒氪了200刀。。。

于是，我也成了尊贵的200刀的Pro会员了，o1没让我充钱，但是Sora这波，我是真的逃不了了。。。

真的都是宿命。

2月16号，OpenAI发布Sora，在全世界，掀起了新的浪潮。

而那天，我也写下了那篇传播最广的文章：

OpenAI全新发布文生视频模型Sora - 现实，不存在了

然后，就是死一般的沉寂。

那个Sora，成了所有人心中，最远的梦。宛如天上的星辰，美得不可方物，却又遥不可及。

有人说，5G只改变了何同学的生活，而Sora，也只改变了我的生活。

虽是一句玩笑，但也却只能是一声叹息。

而今天，298天之后。

在铁王座上的王已经换了无数次之后，在可灵、即梦、海螺、vidu等等AI视频模型已经一统江湖之后。

Sora回来了。

它说：

“重铸OpenAI荣光，吾辈义不容辞。”

这次，我用4句话总结这次Sora的完整特点：

极度完整的用户体验、碾压级的运动效果、超丰富的视频修改与编辑、完美一致性的故事板。

一个一个来说。

一. 极度完整 的用户体验

我最开始以为的Sora，是一个网页，就一个写Prompt的输入框，然后没了。

就跟很多AI视频刚上线的时候一样。

结果，Sora这个产品，掏出来的完整度，还是超出了我的预期。

在整体界面上，非常的Midjourney，有一种熟悉的感觉的即视感。

最左边的其实就是社区和你自己的生成出来的素材管理。

有喜欢的、收藏的等等，不赘述了，都大差不差。

而真正的操作区，放在了底部，功能比我想象的要多很多。

从左到右，分别是：

上传图片或者视频： Sora支持文生视频、图生视频。所以可以传图。

预设的风格模板：

当然你也可以新增自己喜欢的风格做成预设。

比例： 支持的比较少，只有16:9、1:1、9:16三种尺寸。

分辨率： 3种，480p到1080p，Plus会员只能生成720p的，pro会员才可以生成1080p。

持续时长： 4种，5s、10s、15s、20s，这里需要注意，720p的是可以生成20s的，但是如果你选1080p，那最多只能生成10s了。

一次生成视频个数： 1、2、4三种选择，1080p最多1个，720p最多2个、480p最多3个。

右边还有一个非常非常牛逼的故事板功能，这个我们放在第四趴细说。

非常牛逼，真的。

在这个功能的完整度上，已经比很多产品好了，但是，这不是最重要的，最可怕的完整度，是在生成视频后。

Remix（重新混合）、blend（混合）、Loop（循环），这些功能，是我全部第一次见，也都是Sora的独创功能，这一趴，我放在第三块细说。

我们先来看看，Sora生成出来的效果。

二. 还不错的运动效果

现在几乎所有的AI视频模型还在努力追赶真实世界的运动质感，在让人能走起来、跑起来、做一些复合型动作。

那Sora作为整个的鼻祖，其实在运动效果上，会好一些，但是并没有好那么的超乎预期。

我直接放我跑的真实case：

80年代日本原宿时尚街。

2. 一只小焦糖色的兔子在它的木屋里跳来跳去，看起来非常无害。

3.一只拟人化的毛绒熊猫玩偶，穿着一件宽松的绿色针织开衫、条纹上衣、黑色高腰短裤（或裙子）、条纹薄透连裤袜以及厚底黑色系带靴子，头顶一顶芥末黄色贝雷帽，戴着一副有色墨镜。她站在一个工业风的摄影棚里，背景是暗色混凝土墙，头顶是灯光设备架，舞台设备的细节若隐若现。这只毛绒熊猫开始以自信而有节奏的动作表演流畅的嘻哈舞。

在运动质量、物理规律、镜头语言上，会比大部分的AI视频模型效果都要厉害。还有那个神级的审美。

太喜欢了。

当然，不足也有很多，而且跟2月的时候，我觉得没有太大的变化。

就是肢体变形、物体的突然出现以及消失、错位等等，这些也还是会有不少。

在一些复杂语义的理解上，也差点意思。

比如，我给的Prompt是： “ 在那间破旧的出租公寓里，刚毕业的年轻人疲惫地脱下西装外套，把它扔在椅背上。他走到窗边，呆呆地望着城市的夜景。远处，霓虹灯闪烁。 ”

你会发现完全没有理解脱衣服、扔衣服这事...一直漫无目的在屋子里走来走去。。。

还会经常有莫名其妙的切镜，如果把时间拉到10s钟，我个人觉得，切镜的过于频繁了。

所以，整体来看，我觉得Sora如果对标GPT进度的话，那现在应该是GPT2.5左右的水平。

等到Sora的v2版本。

那可能就真的能达到GPT3.5，那种全民可用的地步。

产生巨大颠覆的效果了。

三. 超丰富的视频修改与编辑

如果我说，我希望在刚刚生成的的草地上，加个游泳池。

我想，任何一个人都会用看煞笔的眼神来看我，不开口骂我我觉得都是轻的。

动动嘴，一句话改视频，听起来像天方夜谭，对吧。

但是Sora，做到了。

这就是我们在之前提到的，Remix（重混）功能。

可以一句话，改掉视频里面的素材。

比如在他们的直播演示里，他们先生成了一段猛犸象在荒原奔跑的视频。

那如果你对这个猛犸象不满意，想把他变成机械猛犸象。

那就可以直接点remix，来一句话，改视频。

你可以修改Remix强度。

来决定Remix值的大小。

可以选择温和，于是，你就有了，机械猛犸象在荒原上奔跑。

还有这个Blend混合功能。

比如我们有两段视频。

我想让雪花先开始放，然后无缝变成花朵的样子，中间无缝斜街。

Blend功能直接完美搞定。

你还可以用Loop功能，做一段无限循环的海浪。

甚至，OpenAI还给你开了剪辑功能。。

你可以，直接在Sora上面剪辑。

只能说，这一波，产品功能的完成度，实在太高了。

四. 完美一致性的故事板

就是这个玩意。

你可以通过不同的Prompt，生成几乎完美一致性的分镜，从而组成一段一分钟的影片。

其实用AI一键生成电影，是很多炒概念的公司，在打的点。

因为电影，或者视频，本质上是由一个一个的镜头组成的。

很多时候为了在前期就把大概的画面定好，就需要提前画故事板。

比如《流浪地球2》上映的时候，就有媒体对当时球2的故事板指导费雪豪老师做过专访，其中透露了一些故事板的设计，就是长这样的。

虽然是一帧一帧的，但是你也能看出来，其中的动态表达，还有那种强到夸张的戏剧张力，更重要的是。

每一帧之间的一致性。

而这一点，是每一个试图去做故事板的AI产品，都逃不过的核心点。

你前后镜头的人物、场景，如果都长得不一样，那还聊啥沉浸感，对吧。

所以，过往的类似于LTX Studio的产品，我觉得失败就失败在这。因为都是先生图，然后图生视频，一致性，太难太难保持了。

但是Sora这次，靠着自己的特性，把每一段的镜头的一致性，做到了完美。

你可以直接在时间轴中，加分镜帧，来引导每个画面应该怎么做。

不仅能实现一个镜头里面的多动作引导，还能实现可控的分镜切镜。

比如我写的这一段。

你可以随意拖动是时间轴上的分镜，以便控制让它从几秒钟开始。

然后，一段流畅的动作视频，就生成完毕了。

而且不止是文字。

你还可以输入图片，比如我上传两张图片进去。

就可以完美的实现首尾帧的效果。

写在最后

298天，说长不长，说短不短。

298天，也恍若一梦。

这298天里，我们见证了AI视频领域的群雄并起。

可灵首当其冲划破黑暗，即梦用完美的人物演绎征服观众，海螺用极致的表情赢得掌声，Vidu用完美的一致性获得赞誉，开源世界里也有智谱和混元让黎明升起。

每一个都像是一颗璀璨的星星，照亮了那一片天空。

但在这298天里，更看到了人性的投射。

有人用AI还原逝去至亲的音容笑貌，有人用它创作出天马行空的奇思妙想，有人用它表达内心最深处的情感。

AI不仅是冰冷的工具，而成为了我们创造力的延伸。

当影像制作的门槛被彻底打破，当每个人都能轻松创作出专业级的视频。

我觉得更值得思考的是：

我们要用这份能力做些什么？是沉迷于虚拟的完美，还是用它来表达真实的情感？是制造更多的喧嚣，还是传递更有价值的声音？

在这个即将影像即真相的时代，我们每个人都将面对这个选择。

而且，这亦不是终点，而是另一个起点。

因为在AI的世界里，永远没有最后一个奇迹。

只有，下一个奇迹。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：卡兹克

>/ 投稿或爆料，请联系邮箱：wzglyay@gmail.com