专栏名称: APPSO

让智能手机更好用的秘密。

目录

相关文章推荐

小众软件 · 本地不联网安装 Windows ... · 22 小时前

APPSO · DeepSeek 被误读的 5 ... · 22 小时前

小众软件 · RMVA 在 Steam ... · 昨天

小众软件 · 另外两件事[240203] · 2 天前

APPSO · 万字揭秘DeepSeek ... · 3 天前

51好读 › 专栏 › APPSO

国产 AI 视频第一梯队比拼！让 Sora 翻车的动作，可灵们能做好吗

APPSO · 公众号 · app · 2024-12-24 17:00

主要观点总结

文章对国产AI视频模型进行了对比评测，涉及可灵、海螺和即梦等模型。文章通过一系列的图生视频比拼，从人物表演、物理规律、多主体等角度考察模型的表现。评测结果显示，各模型在不同场景和任务中表现各有胜负，可灵在1.6版本中综合实力较强，对提示词理解较为深入，但画面美感和高难度运动学习方面还有待提升。文章期待国产AI视频的未来能带来更多惊喜。

关键观点总结

关键观点1: 国产AI视频模型的对比评测

文章对可灵、海螺和即梦等模型进行了全面的对比评测，通过一系列的图生视频比拼，考察模型在人物表演、物理规律、多主体等方面的表现。

关键观点2: 模型之间的比拼

文章通过一系列场景和任务，让各模型进行比拼，结果显示各模型在不同场景中表现各有胜负。

关键观点3: 可灵1.6版本的表现

可灵在1.6版本中综合实力较强，对提示词理解较为深入，但在画面美感和高难度运动学习方面还有待提升。

关键观点4: 创作的欲望与期待

文章指出，在使用这些AI视频模型进行创作时，掀桌的冲动少了，创作的欲望强了，期待国产AI视频的未来能带来更多惊喜。

正文

等了 10 个月才发布的 Sora，实测的表现让人失望。Google 的 Veo 惊艳众人，但排队遥遥无期，不知道什么时候能玩。

还是来看看百花齐放、都能用上的国产 AI 视频模型吧。最近，可灵的视频生成模型更新了 1.6 版本，同时加量不加价，生成视频的积分没有变。

这次可灵的更新，最直观的是，图生视频变得更强了。

那么，我们就来一次图生视频比拼，从人物表演、物理规律、多主体等角度出题，让可灵和海螺、即梦同题 PK，看谁遥遥领先。

关注 AI 第一新媒体，率先获取 AI 前沿资讯和洞察

咬披萨，吃面，喝酒，谁最没有 AI 味

首先需要说明，这是一次没有广告、自娱自乐的比赛，每个图生视频只在每个模型生成一次。为了保证比赛公平，海螺和即梦选择的模型也是各自的最强版本，具体的模型如下。

可灵：1.6 模型。

海螺：I2V-01 或 I2V-01-Live 模型，后者的角色表现更强。每次生成，选择这两个模型中表现更好的一个视频。

即梦：P2.0 Pro 模型。经过测试，相同的提示词，即梦的 P2.0 Pro 模型明显比 S2.0 Pro 模型表现更好。

大概从 AI 威尔·史密斯吃面开始，我们就很喜欢让 AI 品味各种美食，并用 AI 的吃相评判技术进步的程度。

先让《老友记》的乔伊吃个披萨，输入提示词，「男人坐在沙发上，将披萨送至嘴边，轻轻咬下一口，镜头轻微拉近，聚焦在吃披萨的动作上」。

可灵让乔伊成功咬下了披萨，披萨少了一口，甚至披萨到嘴边还能拉丝，不过面部肌肉有些用力过猛。

可灵生成

海螺的表演也很完整，咬下了一大口披萨，但披萨进嘴的瞬间有些穿帮。

海螺生成

即梦遵循提示词拉近了镜头，但没吃到披萨。

即梦生成

再来欣赏三个国产 AI 吃意大利面，图片取自电影《圣鹿之死》，提示词是「男性低头用叉子卷起面条，大口大口地吃」。

可灵和即梦过关，海螺的面条有自己的想法。

可灵生成

海螺生成

即梦生成

吃多了干巴巴的面食，让 AI 挑战一下喝酒。

这次请出日剧《我，到点下班》的女主，提示词是「女性放下捂着脸的右手，端起啤酒杯轻抿一口，眼睛微眯，露出满足的微笑表情」。

这段提示词同时包含了人物动作和表情的变化，可灵的表演堪称完美，抿酒时，液体自然地倾斜，泡沫浮在嘴边，甚至主角还边喝边不自觉地眨了眨眼。

可灵生成

海螺的前半部分完成得还行，但主角自顾自地看向了镜头，提示词没这段呀。

海螺生成

至于即梦，放下手的动作挺自然，然而在喝酒的时候，把酒杯举得过高，感觉下一秒酒就会洒出来。

即梦生成

切番茄，做体操，物理规律怎么就这么难学

现在，让可灵、海螺、即梦从餐桌下来，挑战大自然习以为常、却让 AI 们犯难的事情。

最近，OpenAI Sora 和 Google Veo 的切番茄对比，成了群嘲 Sora 的又一个依据。现在，也让三个国产 AI 下一回厨房。

上传静态的切番茄图片，我的提示词如下：「写实风格，特写镜头，厨师正在砧板上切番茄，手部动作流畅，番茄被切成均匀的片状，汁液微微溅出，流畅的动态效果。」

可灵切的番茄厚薄均匀，而且刀片下压和掉在砧板上的时候，番茄会发生轻微的形变。

海螺的手很稳，可这是在切番茄吗？更像是在锯木头。

海螺生成

即梦切得也不错，有种削铁如泥的感觉，要么番茄太软了，要么刀太锋利了。

即梦生成

再来看看 AI 怎么理解奔跑和跳跃，我先用 AI 生成了一张林深处见鹿的水墨风图片，输入提示词「梅花鹿跑了几步到池塘边，优雅地跳过水面，消失在画面左侧」。

可灵的鹿小跑了几步，但没能跳过水面。

可灵生成

海螺的鹿弹跳力最好，干脆利落地跳出了画面，最符合我需要的感觉。

海螺生成

即梦的鹿和可灵一样，也没有跳起来，这让我意识到，可能提示词存在歧义，AI 理解的方式不同，「跳过水面」，没说一定是从这头跳到那头，也能是「蹦蹦跳跳地过水面」。

即梦生成

体操被称为是 AI 视频界的「图灵测试」，因为难度太高了，肢体动作太复杂了，让 AI 生成，很容易出来不准确甚至恐怖的画面。

拿体操运动员的截图一试，果然如此。我的提示词写得很简单，「一位女性体操运动员在平衡木上表演高难度动作」，就想让 AI 自由发挥，但结果一言难尽。

可灵的腿、手、脖子，都说不出的诡异，看了 10 遍也很难参透。

同时，平衡木受到压力，可灵生成的形变也很夸张，过犹不及。这位体操运动员的真实比赛中，平衡木没有这么不稳。

海螺和即梦也各有各的抽象，很难用人类的语言评价。

海螺生成

即梦生成

打败小鲜肉，对标老戏骨

如果未来 AI 短剧、AI 电影大行其道，那么演技必须要比内娱的小鲜肉们好。所以，来考考国产 AI 的演技。

拿出电影《希德姐妹帮》的名场面截图，输入提示词「女性的嘴角叼着香烟，她微笑了一下，然后抬起右手，从外套口袋掏出金属打火机，掀开打火机盖点火，并将火焰凑近香烟末端」，让 AI 抽个烟。

可灵的表演太细了，每个表情和动作都遵循了提示词。掏打火机的时候，主角低下头，点火的时候，主角也是看着香烟，演技浑然天成。

可灵生成

海螺的完成度也很高，表情跟着动作走，但打火机先点了火，左手才摆出打火的姿势。

海螺生成

即梦对提示词的遵循同样精准，主角微笑了、抬手了、掀开打火机盖了，按部就班，没落下一个重点，就是点火的时候有些手忙脚乱。

即梦生成

再用 AI 生成的游戏 CG 风格的侠女，考验特写下的微表情。

我精心设计了表情的层次，输入提示词「少女先是露出惊愕的表情，随后显得愤怒，眼神变得凌厉，最后扬起嘴角，露出带着杀意的冷笑」，就看 AI 们能不能演出来了。

可灵表演出了惊愕，愤怒和冷笑不是很明显，至少表情是灵动的，发丝也飘动得恰到好处。

可灵生成

海螺的表演不能说不对，但太外放了，属于练习时长两年半的演技。感觉她在骂人，并且骂得很难听。

海螺生成

即梦这次的演技，算是三个 AI 里最好的了，惊愕和冷笑传达得特别到位，可以收拾收拾出道了，内娱需要你。

即梦生成

复杂提示词，谁的阅读理解能力最强

多主体、多动作的复杂场面，对于 AI 来说也是一个难题。基于电影《百元之恋》的拳击擂台名场面，AI 们能不能生成一场精彩的比赛？

我输入了图生视频提示词——「两位女拳击手在擂台上对战，穿红色短裤的选手快速出左勾拳，穿蓝色短裤的选手后撤躲避后立即反击直拳，双方动作敏捷有力」。

可灵打得有来有回，语义理解也不错，知道是谁先出拳，先出哪只手。

可灵生成

海螺的出拳也对，但场面一度有些混乱，手都打成残影了。即梦的对打和躲避都很自然，但出拳没有按提示词来。

海螺生成

即梦生成

请到「今天看啥」查看全文

推荐文章

小众软件 · 本地不联网安装 Windows 11，并创建本地账号｜一个可用的方法

22 小时前

APPSO · DeepSeek 被误读的 5 个真相，AI 大佬亲自揭秘

22 小时前

小众软件 · RMVA 在 Steam 限免，虽然用不到，但放在库了就很酷啊

昨天

小众软件 · 另外两件事[240203]

2 天前

APPSO · 万字揭秘DeepSeek ！这个创新让全世界疯狂复制，顶尖AI人才年薪千万，训练成本被低估

3 天前

洞见 · 随和是素质，低调是修养，良心是底线

7 年前

互联网新鲜事 · 壕气十足！王健林和马云私人飞机是同款，一年维护费高到惊人！

7 年前

上海书评 · 蒋寅︱关于颜宁事件的对话

7 年前

中债资信 · 行业年报信用跟踪系列：水泥行业2016年年报梳理及评级跟踪

7 年前

瘦瘦 · 产后减掉28斤，不减肥的自己20几岁看起来像40几岁！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!