专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
懒熊体育  ·  10个创新「CASE」,看看什么叫专业的体育 ... ·  4 天前  
厦门网  ·  刘国梁最新发声 ·  4 天前  
楚天交通广播  ·  孙杨发声:从来没有! ·  4 天前  
楚天交通广播  ·  孙杨发声:从来没有! ·  4 天前  
51好读  ›  专栏  ›  大数据文摘

外媒实测Sora,10秒视频大翻车!阿里AI新作让“高启强变罗翔”

大数据文摘  · 公众号  ·  · 2024-03-04 12:36

正文


大数据文摘受权转载自头部科技
文丨Congerry

Sora 离正式开放应该还有一段时间,但是外媒已经提前体验上了!

近日,彭博社记者 Rachel Metz 亲自体验了还在开发中的 Sora。

Rachel Metz 实测后发现, 在Sora 生成的一个 10 秒钟的视频中,出现了物理理解不足、内容生成不一致、细节处理不到位等多个问题。除了这些,生成速度慢也是被 Rachel Metz 刻意提到的问题。

但是,Sora 的出现确实引发了文生视频领域一系列连锁反应,例如 Lightricks 推出了生成式 AI 电影制作平台 LTX Studio ,阿里也推出了 Emote Portrait Alive 这款基于人像和声音生成的应用。

外媒实测Sora,问题比优点多?

不得不说,Sora 发布引发了人们对其可能改变电影制作方式的恐惧和兴奋,但这些反应看起来还为时过早。

内部测试Sora时,Rachel Metz 提供的提示词是“An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.”

翻译后的大意是:一只色彩斑斓的鹦鹉飞过葱郁的哥斯达黎加丛林,落在树枝上,与一群猴子一起吃着水果。此时正值黄金时段,阳光从树叶和猴子的白毛上闪过。(35 毫米胶片)

Sora生成出来的视频效果是这样的。

乍一看还不错,但是仔细看可以发现:当鹦鹉飞过猴子时,它的翅膀变形了;要求是一只鹦鹉,但却出现了好几只鹦鹉;其中一只猴子的尾巴在结尾处似乎变成了鹦鹉的尾巴。

当鹦鹉飞过猴子时,它的翅膀发生了变形,这表明Sora在模拟飞行动力学方面可能存在缺陷,无法完全理解并准确地模拟现实世界的物理原理。

只要求生成一只鹦鹉,但Sora生成了多只鹦鹉,这可能反映了模型在理解和执行文本指令方面的不准确性。

猴子尾巴在视频结尾处似乎变成了鹦鹉的尾巴。这类问题可能涉及到模型在处理复杂场景和细节时的局限性。

不过OpenAI 研究科学家 Bill Peebles 说:"你可以在该片段的不同阶段发现一些奇怪的动作。"但事实上,Sora 能够为这种复杂程度的场景建模,说明视频生成能力有了明显的飞跃。

除了这些,Rachel Metz 提到:与使用 OpenAI 的 Dall-E 3 生成单个图像相比,Sora 生成每个视频显然需要更多的时间和计算能力。OpenAI 不会准确说出 Sora 处理每个请求所需的时间,但"绝对不是瞬间完成",在等待Sora运行的过程中,绝对可以去吃点零食。

另外,OpenAI 发言人 Natalie Summers 表示,OpenAI 并没有发布 Sora 的固定时间表,因为该公司希望首先确保能够充分降低与选举相关的安全风险。这意味着刨除技术因素,Sora大概率在美国大选之后发布。

Lightricks推出 生成式AI 电影制作平台LTX Studio

Sora的发布还没有确定日期,但是生成式AI电影制作平台已经有了。‍

今天,Lightricks 宣布推出生成式AI电影制作平台LTX Studio。Lightricks 是一家位于以色列的高科技公司,专注于计算机图形学、图像处理、机器学习和人工智能等领域。

Lightricks的产品线包括 Facetune 、Facetune 2、Enlight、Enlight Photofox、Enlight Videoleap、Enlight Quickshot等,这些产品在全球范围内都有很高的知名度和用户基础。

截至2021年,Lightricks 应用程序的下载量已超过4.5亿次。

使用Lightricks 新推出的LTX Studio,用户只需要输入文本,就能生成超过25秒的微电影视频。

从官方放出的视频来看,LTX Studio的生成效果仍然有待提高。

提示词:一个男孩因为老师对他大喊大叫而拒绝上学。但我们的目的是让孩子重拾信心。(A boy who refuses to go to School because his teacher shouted at him. But the purpose is to give the kid his confidence back)

不过,LTX Studio提供了可视化的专业视频控制台,允许用户对镜头切换、角色、场景一致性、摄像机、灯光等进行精准控制。

这使得LTX Studio在视频生成领域具有较高的可控制性和细节优化能力,与市场上其他视频生成式AI相比,如OpenAI的Sora,LTX Studio提供了更多的创作自由度和专业级别的视频编辑功能。

阿里AI视频领域也有新动作

回到国内,阿里巴巴今天也在文生视频领域有了新动作。

阿里巴巴集团智能计算研究院开发一个名为EMO(Emote Portrait Alive)的先进AI框架,这个框架是一个音频驱动的视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。

简单来说,只要上传一张人像头部和一段视频,就可以得到下面的视频。

让 SORA 中的女生说话。

让高启强普法。

让蒙娜丽莎朗诵。

让张国荣唱歌。

看到这些视频,网友感叹:“面部表情、眼神动作、音乐动作,我简直不敢相信,这太疯狂了。”

技术上,EMO框架主要由两个阶段构成。

在初始阶段,称为帧编码,ReferenceNet被用来从参考图像和动作帧中提取特征。随后,在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩码与多帧噪声结合,以控制面部图像的生成。

接着,Backbone Network被用来执行去噪操作。在Backbone Network中,应用了两种注意力机制:Reference-Attention和Audio-Attention。

这些机制对于保持角色身份和调节角色动作至关重要。此外,还利用时间模块来操纵时间维度,并调整动作速度。

最后,EMO的论文已经发布在arXiv上,并且伴随着这一论文的发布,EMO项目也宣布了开源。but,阿里却在GitHub放个空仓库。于是画风是这样的。







请到「今天看啥」查看全文