专栏名称: 离岸人民币
为您提供最新最具价值的离岸、在岸人民币市场资讯与精选观点报告
目录
相关文章推荐
练瑜伽  ·  冯绍峰爱她?好恐怖啊! ·  昨天  
EarlETF  ·  Tiktok争端趋缓·A股普涨 ·  昨天  
饕餮海投资  ·  八卦横飞的周末 ·  2 天前  
51好读  ›  专栏  ›  离岸人民币

Sora OpenAI 首个文生视频模型

离岸人民币  · 公众号  ·  · 2024-02-23 13:34

正文

OpenAI 将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁都类似于GPT中的一个 token。通过统一数据表示方式,OpenAI 能够在以前不可能的更广泛的视觉数据上训练扩散 Transformer ,包括不同的持续时间、分辨率和长宽比。Sora 基于DALL·E 和 GPT 模型的过往研究,使用了 DALL·E 3 的重新标注技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,模型能够更忠实地遵循用户在生成的视频中的文本指令。除了能够仅根据文本指令生成视频外,Sora 还能够获取现有的静态图像并从中生成视频,准确且细致地动画化图像内容。模型还可以取一个现有的视频并扩展它或填充缺失的帧。OpenAI 认为,Sora 为能够理解和模拟真实世界的模型奠定了基础,这将是实现 AGI 的一个重要里程碑。
2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。
例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。
在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。
OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。
随后OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构,有极强的扩展性。
但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如,一个人可能咬了一口饼干后,饼干会没有咬痕,玻璃破碎的物理过程可能也无法被准确呈现。