专栏名称: 大数据文摘

普及数据思维，传播数据文化

外媒实测Sora，10秒视频大翻车！阿里AI新作让“高启强变罗翔”

大数据文摘 · 公众号 · · 2024-03-04 12:36

正文

大数据文摘受权转载自头部科技

文丨Congerry

Sora 离正式开放应该还有一段时间，但是外媒已经提前体验上了！

近日，彭博社记者 Rachel Metz 亲自体验了还在开发中的 Sora。

Rachel Metz 实测后发现，在Sora 生成的一个 10 秒钟的视频中，出现了物理理解不足、内容生成不一致、细节处理不到位等多个问题。除了这些，生成速度慢也是被 Rachel Metz 刻意提到的问题。

但是，Sora 的出现确实引发了文生视频领域一系列连锁反应，例如 Lightricks 推出了生成式 AI 电影制作平台 LTX Studio ，阿里也推出了 Emote Portrait Alive 这款基于人像和声音生成的应用。

外媒实测Sora，问题比优点多？

不得不说，Sora 发布引发了人们对其可能改变电影制作方式的恐惧和兴奋，但这些反应看起来还为时过早。

内部测试Sora时，Rachel Metz 提供的提示词是“An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.”

翻译后的大意是：一只色彩斑斓的鹦鹉飞过葱郁的哥斯达黎加丛林，落在树枝上，与一群猴子一起吃着水果。此时正值黄金时段，阳光从树叶和猴子的白毛上闪过。（35 毫米胶片）

Sora生成出来的视频效果是这样的。

乍一看还不错，但是仔细看可以发现：当鹦鹉飞过猴子时，它的翅膀变形了；要求是一只鹦鹉，但却出现了好几只鹦鹉；其中一只猴子的尾巴在结尾处似乎变成了鹦鹉的尾巴。

当鹦鹉飞过猴子时，它的翅膀发生了变形，这表明Sora在模拟飞行动力学方面可能存在缺陷，无法完全理解并准确地模拟现实世界的物理原理。

只要求生成一只鹦鹉，但Sora生成了多只鹦鹉，这可能反映了模型在理解和执行文本指令方面的不准确性。

猴子尾巴在视频结尾处似乎变成了鹦鹉的尾巴。这类问题可能涉及到模型在处理复杂场景和细节时的局限性。

不过OpenAI 研究科学家 Bill Peebles 说："你可以在该片段的不同阶段发现一些奇怪的动作。"但事实上，Sora 能够为这种复杂程度的场景建模，说明视频生成能力有了明显的飞跃。

除了这些，Rachel Metz 提到：与使用 OpenAI 的 Dall-E 3 生成单个图像相比，Sora 生成每个视频显然需要更多的时间和计算能力。OpenAI 不会准确说出 Sora 处理每个请求所需的时间，但"绝对不是瞬间完成"，在等待Sora运行的过程中，绝对可以去吃点零食。

另外，OpenAI 发言人 Natalie Summers 表示，OpenAI 并没有发布 Sora 的固定时间表，因为该公司希望首先确保能够充分降低与选举相关的安全风险。这意味着刨除技术因素，Sora大概率在美国大选之后发布。

Lightricks推出 生成式AI 电影制作平台LTX Studio

Sora的发布还没有确定日期，但是生成式AI电影制作平台已经有了。‍

今天，Lightricks 宣布推出生成式AI电影制作平台LTX Studio。Lightricks 是一家位于以色列的高科技公司，专注于计算机图形学、图像处理、机器学习和人工智能等领域。

Lightricks的产品线包括 Facetune 、Facetune 2、Enlight、Enlight Photofox、Enlight Videoleap、Enlight Quickshot等，这些产品在全球范围内都有很高的知名度和用户基础。

截至2021年，Lightricks 应用程序的下载量已超过4.5亿次。

使用Lightricks 新推出的LTX Studio，用户只需要输入文本，就能生成超过25秒的微电影视频。

从官方放出的视频来看，LTX Studio的生成效果仍然有待提高。

提示词：一个男孩因为老师对他大喊大叫而拒绝上学。但我们的目的是让孩子重拾信心。（A boy who refuses to go to School because his teacher shouted at him. But the purpose is to give the kid his confidence back）

不过，LTX Studio提供了可视化的专业视频控制台，允许用户对镜头切换、角色、场景一致性、摄像机、灯光等进行精准控制。

这使得LTX Studio在视频生成领域具有较高的可控制性和细节优化能力，与市场上其他视频生成式AI相比，如OpenAI的Sora，LTX Studio提供了更多的创作自由度和专业级别的视频编辑功能。

阿里AI视频领域也有新动作

回到国内，阿里巴巴今天也在文生视频领域有了新动作。

阿里巴巴集团智能计算研究院开发一个名为EMO（Emote Portrait Alive）的先进AI框架，这个框架是一个音频驱动的视频生成系统，能够通过输入单一的参考图像和语音音频，生成具有表现力的面部表情和各种头部姿势的视频。

简单来说，只要上传一张人像头部和一段视频，就可以得到下面的视频。

让 SORA 中的女生说话。

让高启强普法。

让蒙娜丽莎朗诵。

让张国荣唱歌。

看到这些视频，网友感叹：“面部表情、眼神动作、音乐动作，我简直不敢相信，这太疯狂了。”

技术上，EMO框架主要由两个阶段构成。

在初始阶段，称为帧编码，ReferenceNet被用来从参考图像和动作帧中提取特征。随后，在扩散过程阶段，预训练的音频编码器处理音频嵌入。面部区域掩码与多帧噪声结合，以控制面部图像的生成。

接着，Backbone Network被用来执行去噪操作。在Backbone Network中，应用了两种注意力机制：Reference-Attention和Audio-Attention。

这些机制对于保持角色身份和调节角色动作至关重要。此外，还利用时间模块来操纵时间维度，并调整动作速度。

最后，EMO的论文已经发布在arXiv上，并且伴随着这一论文的发布，EMO项目也宣布了开源。but，阿里却在GitHub放个空仓库。于是画风是这样的。

外媒实测Sora，10秒视频大翻车！阿里AI新作让“高启强变罗翔”

正文

请到「今天看啥」查看全文