专栏名称: 大数据文摘

普及数据思维，传播数据文化

刚刚，OpenAI Sora来啦！AI视频新纪元已开启

大数据文摘 · 公众号 · 大数据 · 2024-12-10 12:30

正文

大数据文摘受权转载自头部科技

文丨Darice

终于，Sora正式版来了！

OpenAI将AI大模型竞赛带入AI视频创作新纪元。

在12天的“ship-mas”直播系列的第三天，OpenAI终于向全球推出了备受期待的Sora升级版AI模型。这一版本不仅开启了全新的创作可能性，还代表着AI大模型文本生成视频技术的飞跃。

早在今年2月，OpenAI首次预告了Sora的问世，而今天，Sora Turbo升级版正式向ChatGPT订阅用户开放。新版模型大大增强了文本生成视频、图像动画、视频混编等功能，让用户的创作体验更加丰富多彩。

Sora升级版的亮点在哪里

Sora Turbo升级版刚刚上线就引发了如潮的关注。

正常发布会短小精悍，全程仅仅 20 分钟左右。

由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持。

Sora Turbo刚刚发布，大批热情的用户就涌入体验网站；

服务器瞬间崩溃，导致OpenAI暂时关闭了新用户注册。

Sam Altman不得不出面安抚热情用户：‍demand higher than expected; signups will be disabled on and off and generations will be slow for awhile. doing our best!

Sora Turbo是一款基于OpenAI早期技术报告中讨论的世界模拟技术的高端加速版。这些新增功能包括：从文本生成视频、生成动画图像，以及许多强大的视频功能，如重新混合视频风格、前后延伸时间，故事板，重新剪辑等，极大地拓展了创作者的创作空间。

在直播中，OpenAI展示了Sora的新功能。

其中包括“探索”页面，展示了由社区成员创作的AI生成视频流。

特别值得一提的是，Sora的“故事板”功能，用户可以通过一系列提示生成视频，还可以将照片转化为生动的视频。

“故事板”功能让用户可以将多个提示串联起来，创建出一个连贯的场景或视频序列。例如用户可以在不同的时间线添加动作描述，Sora会根据描述自动填充和调整细节，确保故事的连贯性。这个功能旨在帮助提升视频的视觉一致性。

Sora还提供了“混编”功能，允许用户通过文本提示调整视频输出，并通过独特的“混合”功能将两个场景无缝结合。

在现场演示中，OpenAI展示了如何使用Sora生成一个猛犸象在沙漠中行走的场景。

用户可以根据自己的需求选择视频的长宽比、分辨率，并生成从5秒到20秒不等的视频。Sora支持生成多个版本的同一视频，以供用户选择最佳效果。

在直播演示中，使用了“Remix”功能对视频进行创意调整，将猛犸象替换为机器人。效果极具震撼。

此外，Sora还提供了剪辑功能，称为“Recut”，它允许用户对已生成的视频进行进一步编辑。用户可以根据时间线上的卡片调整视频长度，改变场景的变化时机，或为视频添加更多的细节方向。

例如在回放时，用户可以通过调整视频的起始点、结束点，以及场景之间的间隔，来优化整个创作的流畅度和节奏。通过“Recut”功能，用户可以对视频进行精细的调节，确保每个细节都符合创意的需求。

如果您想亲自体验，不妨登录网站一试：https://sora.com/onboarding。

视频对AI发展的重要性

OpenAI的首席执行官Sam Altman强调，视频对AI发展的重要性。

在发布会现场，OpenAI的首席执行官Sam Altman强调了视频对于AI技术发展的重要性，并从三个方面阐述了这一观点：

1.为创意人士制作工具：Altman表示，OpenAI一直致力于为创意人士提供强大的工具，帮助他们推动创作。这种新工具的推出为AI在创意领域的应用打开了新的篇章，并为未来的AI创作工具展现了令人兴奋的前景。

2.突破文本限制：他指出，若AI仅限于文本互动，将错失许多重要的创作维度。通过AI生成视频，用户将能够以全新的方式与技术互动，极大地改变我们与计算机的交互方式。

3.对AGI的影响：视频生成对于实现通用人工智能（AGI）的目标至关重要。Altman认为，视频将成为AI学习的关键环境，帮助AI掌握许多复杂的技能和任务。

根据Sora System Card的表述：

Sora的设计灵感来源于大型语言模型（LLM），模型通过训练互联网规模数据来获得通用能力。LLM范式的成功部分得益于使用了能够巧妙地将文本（包括代码、数学公式和各种自然语言）的不同模态统一起来的标记。

LLM使用文本标记，Sora使用视觉补丁。

补丁是训练处理各种类型和视频和图像的生成式模型时一种高度可扩展且有效的表示方法。将视频转换为补丁的过程是，首先将视频压缩到低维潜在空间，然后将其表示分解为时空补丁。

同时，Sora也接受了多种数据集的训练，包括公开可用数据的混合、通过合作伙伴关系访问的专有数据，以及内部开发的定制数据集。

精选的公开可用数据，主要收集自行业标准机器学习数据集和网络爬虫。
来自数据合作伙伴关系的专有数据，我们与合作伙伴建立合作关系，以访问非公开数据。例如，OpenAI与Shutterstock和Pond5合作，构建和提供AI生成的图像。及与合作伙伴合作，委托和创建符合需求的数据集。
人类数据：来自AI培训师、红队成员和员工的反馈。

预训练过滤和数据预处理：除了预训练阶段后实施的缓解措施外，预训练过滤缓解措施还可以提供额外的防御层，与其他安全缓解措施一起，有助于从数据集中排除不需要和有害的数据。

在训练之前，所有数据集都会经过此过滤过程，移除最露骨、暴力或其他敏感的内容（例如，某些仇恨符号），这是对用于训练其他模型（包括DALL·E 2和DALL·E 3）的数据进行过滤的方法的扩展。

对Sora的质疑和昂贵的订阅

尽管Sora提供了强大的视频生成功能，但一些细节上仍面临挑战。

例如，在15秒及以上的视频中展现的角色（尤其是人物），其表情和动作在长视频中如何保持一致；人体结构如手、腿等部位发生动作时的解剖学错误等。

知名博主YouTuber Brownlee在测试中指出，这一问题仍需改进。

同时对于使用Sora Turbo生成人物，ChatGPT Plus的付费订阅用户（20美金/月）无法生成带人物的视频，而只有ChatGPT Pro的付费订阅用户（200美金/月）才能体验。

同样OpenAI也把对商业模式的探索置于聚光灯下。

对于ChatGPT Plus订阅用户（20美金/月），Sora允许每月生成最多50个视频，分辨率最高可达720p，视频长度仅为5秒。

而ChatGPT Pro订阅（200美金/月）则提供无限生成次数，最多可生成500个优先视频，分辨率提升至1080p，视频时长可达20秒；Pro用户还可以下载无水印视频，并支持同时并发生成最多5个任务。

刚刚，OpenAI Sora来啦！AI视频新纪元已开启

正文

请到「今天看啥」查看全文