Sora OpenAI 首个文生视频模型

离岸人民币 · 公众号 · · 2024-02-23 13:34

正文

OpenAI 将视频和图像表示为称为补丁的较小数据单元的集合，每个补丁都类似于GPT中的一个 token。通过统一数据表示方式，OpenAI 能够在以前不可能的更广泛的视觉数据上训练扩散 Transformer ，包括不同的持续时间、分辨率和长宽比。Sora 基于DALL·E 和 GPT 模型的过往研究，使用了 DALL·E 3 的重新标注技术，该技术涉及为视觉训练数据生成高度描述性的标题。因此，模型能够更忠实地遵循用户在生成的视频中的文本指令。除了能够仅根据文本指令生成视频外，Sora 还能够获取现有的静态图像并从中生成视频，准确且细致地动画化图像内容。模型还可以取一个现有的视频并扩展它或填充缺失的帧。OpenAI 认为，Sora 为能够理解和模拟真实世界的模型奠定了基础，这将是实现 AGI 的一个重要里程碑。

2月16日凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型Sora。据介绍，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

目前官网上已经更新了48个视频demo，在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

例如一个Prompt（大语言模型中的提示词）的描述是：在东京街头，一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里，女士身着黑色皮衣、红色裙子在霓虹街头行走，不仅主体连贯稳定，还有多镜头，包括从大街景慢慢切入到对女士的脸部表情的特写，以及潮湿的街道地面反射霓虹灯的光影效果。

OpenAI表示，他们正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。

随后OpenAI解释了Sora的工作原理，Sora是一个扩散模型，它从类似于静态噪声的视频开始，通过多个步骤逐渐去除噪声，视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构，有极强的扩展性。

但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。例如，一个人可能咬了一口饼干后，饼干会没有咬痕，玻璃破碎的物理过程可能也无法被准确呈现。