关注“
FightingCV
”公众号
回复“
AI
”即可获得超100G人工智能的
教程
OpenAI 的视频生成工具 Sora 在二月份给 AI 社区带来了惊喜,其流畅、逼真的视频仿佛领先竞争对手不止一筹。然而,
这次精心策划的发布演示中忽略了很多细节,并且这些细节已经由一位获得提前访问权限的电影制作人填补了。
Shy Kids 是一个位于多伦多的数字制作团队,被 OpenAI 选中为少数几个制作短片的团队之一,主要用于 OpenAI 的推广目的,尽管他们在创作“air head”时拥有相当大的创作自由。在接受视觉效果新闻媒体 fxguide 的采访中,后期制作艺术家 Patrick Cederberg
描述了“实际上使用 Sora” 作为他工作的一部分。
对于大多数人来说,可能最重要的收获就是:尽管 OpenAI 的帖子强调这些短片让读者认为它们几乎是完全由 Sora 制作而成的,但事实是这些都是专业制作,包括完善的故事板、编辑、调色以及后期工作,如描边和视觉效果。
就像苹果说“用 iPhone 拍摄”但不展示工作室设置、专业灯光和后期调色工作一样,Sora 的帖子只谈论了它让人们能做什么,而没有谈论他们实际是如何做到的。
Cederberg 的采访很有趣,而且非常不技术化,所以如果你对此感兴趣,请前往 fxguide 并阅读。但以下是关于使用 Sora 的一些有趣信息,告诉我们,
尽管它令人印象深刻,但这个模型可能并不像我们想象的那样是一个巨大的飞跃。
控制仍然是目前最令人向往和最难以捉摸的东西。...我们能做到的最接近的就是在提示中进行超级描述。
解释角色的服装,以及气球的类型,是我们解决一致性的方式,因为从镜头到镜头/从一代到一代,目前还没有完全控制一致性的功能集。
换句话说,在传统电影制作中简单的事情,比如选择角色服装的颜色,在生成系统中需要复杂的变通和检查,因为每个镜头都是独立创建的。这显然可能会改变,但目前显然要繁琐得多。
Sora 的输出必须被仔细观察
,以排除不需要的元素:Cederberg 描述了模型如何经常在气球上生成一个脸,这个脸是主角的头,或者是一根垂下来的绳子。如果无法让提示排除它们,这些元素就必须在后期去除,这是另一个耗时的过程。
角色或摄像机的精确定时和移动并不是真正可能的:“在实际生成过程中,这些不同动作发生的时间有一点点时间控制,但并不精确……这有点像瞎猜,”Cederberg 说。
例如,像挥手这样的手势的时间安排是一个非常粗略的、建议驱动的过程,不像手工动画那样精确。而像向上拍摄角色身体的画面可能或可能不反映电影制作者的意图 ——
因此,在这种情况下,团队渲染了一个以纵向方向构成的画面,并在后期进行了裁剪拍摄。生成的片段也经常以无特定原因的慢动作呈现。
作为它从 Sora 中出来并最终出现在短片中的一个例子。
图片来源:Shy Kids
事实上,Cederberg 表示,使用电影制作的日常语言,如“向右移动”或“跟踪镜头”,总体上是不一致的,这让团队感到非常惊讶。
“在他们接触艺术家之前,研究人员并没有真正像电影制片人那样思考,”他说。
结果,团队进行了数百代,每一代为 10 到 20 秒,最终只使用了少数几代。Cederberg 估计比例为 300:1 — 当然,在普通拍摄中,我们可能都会对比例感到惊讶。
团队实际上制作了一段幕后视频,解释了一些他们遇到的问题,如果你感兴趣的话。就像许多与人工智能相关的内容一样,评论对整个努力非常批判 — 虽然不像我们最近看到的那则人工智能辅助广告那样尖刻。
最后一个有趣的细节涉及版权:如果你要求 Sora 给你一个
“星球大战”
的片段,它会拒绝。
如果你试图用“穿着长袍的男人在一个复古未来主义飞船上挥舞光剑”来绕过它,它也会拒绝,因为它通过某种机制识别出你的意图。它还拒绝做“阿伦诺夫斯基式的拍摄”或“希区柯克变焦”。
一方面,这是完全合理的。但这确实引发了一个问题:如果 Sora 知道这些是什么,这是否意味着该模型是在那些内容上进行训练的,以更好地识别侵权行为?OpenAI 保守其训练数据,甚至到了荒谬的地步,就像首席技术官米拉·穆拉蒂(Mira Murati)与乔安娜·斯特恩(
Joanna Stern
)的采访一样,几乎肯定不会告诉我们。
至于 Sora 及其在电影制作中的应用,显然它是一个强大而有用的工具,但它的位置不是“从头开始创作电影”。
然而。正如另一个恶棍曾经著名地说过的,“那会在以后”。
本文翻译自https://techcrunch.com/2024/04/27/creators-of-sora-powered-short-explain-ai-generated-videos-strengths-and-limitations/
往期回顾
基础知识
【CV知识点汇总与解析】|损失函数篇
【CV知识点汇总与解析】|激活函数篇
【CV知识点汇总与解析】| optimizer和学习率篇
【CV知识点汇总与解析】| 正则化篇
【CV知识点汇总与解析】| 参数初始化篇
【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)
【CV知识点汇总与解析】| 技术发展篇 (超详细!!!)
最新论文解析
NeurIPS2022 Spotlight | TANGO:一种基于光照分解实现逼真稳健的文本驱动3D风格化
ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务
NeurIPS 2022 | VideoMAE:南大&腾讯联合提出第一个视频版MAE框架,遮盖率达到90%
NeurIPS 2022 | 清华大学提出OrdinalCLIP,基于序数提示学习的语言引导有序回归
SlowFast Network:用于计算机视觉视频理解的双模CNN
WACV2022 | 一张图片只值五句话吗?UAB提出图像-文本匹配语义的新视角!
CVPR2022 | Attention机制是为了找最相关的item?中科大团队反其道而行之!