OpenAI的最新力作Sora已经开放,为ChatGPT Plus/Pro用户带来了直接生成视频的震撼功能。
这款应用一上线就因其强大的视频生成能力而备受追捧,导致服务器被挤爆。Sora Turbo不仅支持1080p、20秒视频的生成,还兼容多种视频尺寸,从现实地标建筑到非写实风格的视频,都能以高分辨率呈现出令人印象深刻的效果。尽管Sora在物理规律理解方面还有待提高,但它的问世无疑为视频创作带来了革命性的变化。
视频生成需要高度依赖算力,芯片不够怎么办?同一天,谷歌最强量子芯片登场!今日凌晨,谷歌推出了最新的量子芯片Willow。这款芯片在基准测试中展现出惊人的计算能力,能在不到5分钟的时间内完成一项计算任务,而这项任务在最先进的超级计算机上需要超过10^25年。
Willow的问世不仅实现了量子比特数量增加时错误率的指数级下降,还首次在超导量子系统上实时纠错成功,为量子计算的实用化迈出了重要一步。这一成果不仅得到了科技界的高度评价,甚至连马斯克也表达了惊叹。谷歌也向下一个挑战也可以说是目标发起冲击——
Alphabet及谷歌CEO皮查伊表示:
高级 AI 将显著受益于量子计算。量子算法有基本的缩放规律作为支撑,正如我们用 RCS 看到的那样。对于许多对人工智能至关重要的基础计算任务,也存在类似的缩放优势。因此,量子计算对于收集经典机器无法访问的训练数据、训练和优化某些学习架构以及对量子效应很重要的系统进行建模将是不可或缺的。这包括帮助我们发现新药、为电动汽车设计更高效的电池,以及加速聚变和新能源替代品的进展。许多此类未来改变游戏规则的应用程序在经典计算机上将不可行;它们正等待着量子计算来解锁。
同一天,两大科技公司发布新品,哪一个更能让你心潮澎湃?哪一个对未来更有深远影响?以下,Enjoy:
文章:《刚刚,OpenAI Sora正式炸裂登场,网页挤爆了!》
来源:机器之心编辑部
山姆・奥特曼:「视频版的 GPT-1 时刻来了。」
OpenAI 12 天连更的第三个工作日,重磅发布终于来了!
正如直播之前大家在评论区预想的一样,视频生成大模型 Sora 正式版终于露面!
算起来,距离今年 2 月 16 日 Sora 的发布已经过去了近 10 个月的时间。
如今,广大网友终于可以体验 Sora 强大的视频生成能力!
同时,OpenAI 开发了 Sora 的新版本 ——Sora Turbo,它比二月份的预览版模型快得多。今天该版本将作为独立产品提供给 ChatGPT Plus 和 Pro 用户。
据今天的直播介绍,Sora 用户可以生成 1080p 分辨率、最长 20 秒、宽屏、竖屏或方形的视频。并且用户可以利用资源进行扩展、remix 和融合,或者基于文本生成全新的内容。OpenAI 开发了全新的界面,让使用文本、图像和视频来提示 Sora 变得更加容易,同时故事板工具让用户可以精准地指定每个帧的输入。
我们可以先看几个生成视频示例:
提示:镜头雾气弥漫,色彩对比鲜明,捕捉到的感觉是低能见度的镜头质量,提供一种即时感和混乱感。该场景从 17 世纪海盗船上水手的视角展示了摇晃的镜头。海浪冲击木制船体时,地平线剧烈摇晃,难以辨别细节。突然,一只巨大的海怪从汹涌的大海中突然出现。它巨大而滑溜的触手危险地伸出,黏糊糊的附肢以可怕的力量缠绕着船。当水手们慌乱地争先恐后地面对这个可怕的海洋生物时,视野发生了剧烈变化。气氛非常紧张,混乱中可以听到船的呻吟声和大海的咆哮声。
提示:洛克菲勒中心到处都是金毛猎犬!无论你放眼望去,都是金毛猎犬。这是纽约夜间的冬季仙境,还有一棵巨大的圣诞树。背景中可以看到出租车和其他纽约元素
山姆・奥特曼表示,最令他兴奋的一点是与其他人共同创作的便捷性,感觉就像是一个有趣的新事物。大家可以将 Sora 看作视频版的 GPT-1。
OpenAI 研究科学家 Noam Brown 表示,Sora 是 scale 力量最直观的展示。
对于 Sora 的发布,有网友表示,这是最好的圣诞节礼物,也有称 Sora 将是游戏改变者。
通过文字、图片或视频
让你的想象力栩栩如生
想要体验的网友太多,一直登录不上:
体验地址:https://sora.com/onboarding
那就先为读者们展示下官方放出的 Sora 的能力吧。
使用 Remix 替换、删除或重新构想视频中的元素
打开通往图书馆的大门
将门替换为法式门
门外的场景替换为月球景观
Re-cut:找到并隔离最佳帧,然后向任一方向延伸它们以完成场景
Storyboard:在时间线上组织和编辑视频的独特序列
视频前 114 帧的场景是「一片广阔的红色景观,远处停靠着一艘宇宙飞船。」
接着,可以将视频的 114-324 帧的场景变换为:「从宇宙飞船内部向外看,一位太空牛仔站在画面的中央。」
最后,可以将视频内容描述为「宇航员眼睛的特写镜头,眼睛被针织面料制成的面罩所框住。」
Loop:使用 Loop 剪辑并创建无缝重复的视频
Blend:将两个视频合并为一个无缝剪辑
Style presets:使用「Presets」创建和分享激发自己想象力的风格
更多 Sora 生成的惊艳视频,也需要广大网友们的想象力去创造了。
Sora 正式版系统卡
在今年 2 月份,Sora 刚发布时,OpenAI 曾公布了 Sora 的技术报告(参阅:我在模拟世界!OpenAI 刚刚公布 Sora 技术细节:是数据驱动物理引擎)。
OpenAI 认为,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。
今天随着 Sora 的正式发布,OpenAI 也放出了 Sora 的系统卡(System Card),感兴趣的开发者们可以深挖一下技术细节。
地址:https://openai.com/index/sora-system-card/
Sora 是 OpenAI 的视频生成模型,旨在获取文本、图像和视频输入并生成新视频作为输出。用户可以创建各种格式的高达 1080p 分辨率(最长 20 秒)的视频。
Sora 建立在 DALL・E 和 GPT 模型的基础上,旨在为人们提供创意表达的工具。
Sora 是一种扩散模型,它从看起来像静态噪声的基本视频开始生成新视频,通过多个步骤消除噪声来逐渐对其进行转换。通过一次为模型提供多帧预测,Sora 解决了一个具有挑战性的问题,即确保画面主体即使暂时离开视野也能保持不变。与 GPT 模型类似,Sora 使用 transformer 架构,释放出卓越的扩展性能。
Sora 使用 DALL・E 3 中的重描述(recaptioning)技术,该技术涉及为视觉训练数据生成高度描述性的字幕(captions)。因此,Sora 能够更忠实地遵循生成视频中用户的文本指令。
除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地将图像内容动画化并关注细节。该模型还可以获取现有视频并对其进行扩展或填充缺失帧。Sora 是能够理解和模拟现实世界的模型的基础,OpenAI 认为 Sora 将成为通往 AGI 的重要里程碑。
在数据方面,正如 OpenAI 在 2 月的技术报告中所述,Sora 从大型语言模型中汲取灵感,这些模型通过互联网规模数据的训练来获得通才能力。LLM 得以确立新范式,部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。
在 Sora 中,OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token,而 Sora 有视觉 patch。此前的研究已经证明 patch 是视觉数据模型的有效表征。OpenAI 发现 patch 是训练生成各种类型视频和图像的模型的可扩展且有效的表征。
在更高层面上,OpenAI 首先将视频压缩到较低维的潜在空间,然后将表征分解为时空 patch,从而将视频转换为 patch。
Sora 接受过各种数据集的训练,包括公开数据、通过合作伙伴获取的专有数据以及内部开发自定义数据集:
公开可用的数据。这些数据主要从行业标准的机器学习数据集和网络爬虫中收集。
来自数据合作伙伴的专有数据。OpenAI 建立合作伙伴关系来获取非公开数据。例如,与 Shutterstock Pond5 合作构建、提供人工智能生成的图像。OpenAI 还委托创建适合自己需求的数据集。
人工数据。来自人工智能训练师、红队队员和员工的反馈。
更多细节,读者们可以查看系统卡介绍。
当然,随着 Sora 的正式发布,OpenAI 也公布了使用价格。看来,也并不便宜:
20 美元一个月的 ChatGPT Plus 用户可以享受的视频生成权益包括:
最多 50 个优先视频(1000 个积分)
分辨率高达 720p,时长为 5 秒
200 美元一个月的 ChatGPT Pro 用户可以享受的视频生成权益包括:
毕竟期待了这么久。你们冲不冲?
参考链接:https://openai.com/sora/