专栏名称: 半轻人
王咏刚,笔名半轻人。技术宅,逻辑控。用 emacs 写小说,用平水韵下酒。
目录
相关文章推荐
江西宣传  ·  开售!清明小长假出行买票有学问 ·  昨天  
江西宣传  ·  开售!清明小长假出行买票有学问 ·  昨天  
驾仕派  ·  奥迪一汽Q6L ... ·  2 天前  
驾仕派  ·  奥迪一汽Q6L ... ·  2 天前  
爱可可-爱生活  ·  语言模型的知识内外:外表只是冰山一角 ... ·  2 天前  
爱可可-爱生活  ·  [LG]《Robustness of ... ·  2 天前  
机器之心  ·  ICLR 2025 ... ·  2 天前  
51好读  ›  专栏  ›  半轻人

文生视频背靠背测试:可灵 vs. Luma

半轻人  · 公众号  · AI 科技自媒体  · 2024-06-24 18:55

主要观点总结

文章介绍了作者在测试文生视频可控性时使用两个工具:快手可灵和Luma Dream Machine,并进行了对比。文章列举了10个基本测试用例,并详细描述了测试方法和结果。最后,作者总结了在单一主体和单一动作的情况下,快手可灵对中文提示的理解准确度较高,但在多动作、较复杂动作衔接和组合,以及较复杂逻辑或交互方面,两个工具都有困难。文章还提到了当前AI视频生成技术的局限和未来展望。

关键观点总结

关键观点1: 测试文生视频可控性的工具对比

介绍了使用的两个工具:快手可灵和Luma Dream Machine,并进行了对比测试。

关键观点2: 10个基本测试用例

列举了包含不同场景、主体、动作和逻辑的测试案例,并对测试方法进行了详细描述。

关键观点3: 测试结果分析

在单一主体和单一动作的情况下,快手可灵对中文提示的理解准确度较高,但在更复杂的情况下,两个工具都有困难。

关键观点4: AI视频生成技术的局限和未来展望

当前AI视频生成技术存在局限,但未来有潜力进步。作者鼓励AI同行们共同努力。


正文

文生视频的可控性测试集(附 Luma Dream Machine 测试结果) 中,我给出了一个测试文生视频可控性的,包含10个基本测试用例的测试集,还用Luma Dream Machine做了初步测试。 今天,我用快手可灵(通过“快影”工具)测试了同样的10个基本测试用例,然后把快手可灵的结果与Luma Dream Machine的结果拼接起来(可灵在上,Luma在下)。 大家自行对比、判断快手可灵与 Luma Dream Machine孰强孰弱。

测试方法:

  • 快手 可灵 使用中文提示词, Luma Dream Machine使用英文提示词;

  • 除提示词外,两个工具均使用缺省配置;

  • 快手可灵选择1280x720画幅, Lum a D r eam Machine 使用缺省的1360x752画幅,合并以下SxS视频时,将 Lum a D r eam Machine 的结果缩放到与快手可灵结果等宽(1280像素),以便对比;

  • 快手对某些提示词元素的内容审查较严格,有疑问的均拒绝生成。因此,第9条原来的中文提示词“ 一个日本小姑娘把一只手表藏进橱柜,警察随即闯入并逮捕了小姑娘 ”,实际在快手可灵中生成时,不得已修改成“ 一个小姑娘把一只手表藏进橱柜,厨师随即进入并拉住了小姑娘 ”。

测试结果对比:

#01

  • 测试目标:单场景,单主体,单一常见动作

  • 中文提示:一位女孩在漂亮晚霞掩映的沙滩上跳芭蕾。

  • 英文提示:A young girl is dancing ballet on the beach under a beautiful sunset.

#02

  • 测试目标: 单场景,单主体,两个常见动作衔接

  • 中文提示:一只狐狸跳过一把椅子,然后再跳回来

  • 英文提示:A fox jumped over a chair then jumped back.

#03

  • 测试目标: 单场景,单主体,常见动作,主体的一部分拥有单独动作

  • 中文提示:一辆高速行驶的汽车的左前轮脱落。

  • 英文提示 A car's left front wheel came off while it was speeding.

#04

  • 测试目标: 单场景,单主体,常见动作,近景特写

  • 中文提示:一只劳力士手表的秒针突然停止,特写镜头。

  • 英文提示 The second hand of a Rolex watch suddenly stopped moving, close-view.

#05

  • 测试目标: 单场景,双主体,常见动作,有虚构成分

  • 中文提示:一只红色狐狸与一个女孩握手。

  • 英文提示 A red fox and a young girl shake hands.

#06

  • 测试目标: 单场景,单主体,常见动作,精确的位置描述







请到「今天看啥」查看全文