专栏名称: 半轻人
王咏刚,笔名半轻人。技术宅,逻辑控。用 emacs 写小说,用平水韵下酒。
目录
相关文章推荐
51好读  ›  专栏  ›  半轻人

文生视频的可控性测试集(附 Luma Dream Machine 测试结果)

半轻人  · 公众号  ·  · 2024-06-14 13:56

正文

OpenAI Sora之后,大模型根据文/图生成视频的能力开始成为竞争热点。最近,快手可灵,Pika Labs,Stability AI甚至Luma AI都陆续有视频生成的新产品、新功能发布。 尝鲜的人愈多,大家愈发觉得,AI视频生成的可控性仍是最大难题。 专业团队尝试Sora时,曝光出来的生成结果可用率仅为1/300,就是因为生成结果不易精确控制!

因此,每当有新模型、新产品发布,我就希望快速测试一下视频生成的可控性又提高了多少。分享一个我自己快速测试文生视频可控性的小测试集。总共10个测试用例。每个用例后面,我用这两天热度很高的Luma Dream Machine根据英文提示生成了测试结果,并附加简评。

#01

  • 测试目标:单场景,单主体,单一常见动作

  • 中文提示:一位女孩在漂亮晚霞掩映的沙滩上跳芭蕾。

  • 英文提示 A young girl is dancing ballet on the beach under a beautiful sunset .
Luma Dream Machine的生成结果:

这句提示本来应该是AI文生视频最擅长的领域:场景单一,人物单一,动作是常见动作(因为训练数据集里相关信息更丰富)。但 Luma Dream Machine这次生成的效果不算很好,尤其是女孩跳舞时的转身,有明显肢体错位、跳帧出现—— 当然了,必须承认,“ 转身”这件事,目前所有 AI视频生成的质量都不太好。

#02

  • 测试目标: 单场景,单主体,两个常见动作衔接

  • 中文提示:一只狐狸跳过一把椅子,然后再跳回来。

  • 英文提示 :A fox jumped over a chair then jumped back.

Luma Dream Machine的生成结果

这个测试的本意是考验文生视频对两个连续动作的理解与生成能力。两个相互连接的动作,通常是端到端文生视频模型的薄弱环节。即便是去生成 狐狸跳过去再跳回来”这样的常见动作组合,今天的大模型也常常会犯难。上面这个结果就远没有准确体现用户提示的文意。

#03

  • 测试目标: 单场景,单主体,常见动作,主体的一部分拥有单独动作

  • 中文提示:一辆高速行驶的汽车的左前轮脱落。

  • 英文提示 A car's left front wheel came off while it was speeding.

Luma Dream Machine的生成结果

结果视频的拍摄视角和汽车动感明显是从大量影视镜头中学习得到的。但一只车轮脱落的动作,并没有得到清晰交代。只是大概看出汽车左前部向下歪斜。

确实,“左前轮脱落”这样既有部分主体的特定动作又有特定方位的要求,对今天的大模型来说是高难题型 (因为这种精细组件、方位的标注,在训练数据中是极度缺失的)。

我们试着用文生静态图的模型OpenAI DallE-3来生成,结果图片在交代轮胎脱落这个特定动作上表现得非常好,但脱落轮胎的位置并不正确( 左前轮脱落变成左后轮 脱落 了):

#04

  • 测试目标: 单场景,单主体,常见动作,近景特写

  • 中文提示:一只劳力士手表的秒针突然停止,特写镜头。

  • 英文提示 The second hand of a Rolex watch suddenly stopped moving, close-view.

Luma Dream Machine的生成结果

秒针的准确运动规律,看来是 Dream Machine的生成难点,更不要说“突然停止”这个动作的准确度了。

#05

  • 测试目标: 单场景,双主体,常见动作,有虚构成分

  • 中文提示:一只红色狐狸与一个女孩握手。

  • 英文提示 A red fox and a young girl shake hands.

Luma Dream Machine的生成结果

“握手”是常见动作,“人与动物握手”一般而言是想象中的虚构动作。这种常见动作在想象场景中的组合关系,本来是AI生成比较擅长的。不知道 Dream Machine这次为什么没能突出“握手”,只生成了“抚摸”。

作为对比,以下是DallE-3的静态图生成结果:







请到「今天看啥」查看全文