专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  缝合怪开发者一口气限免了自己的 4 款应用 ·  22 小时前  
APPSO  ·  DeepSeek 被误读的 5 ... ·  22 小时前  
APPSO  ·  奥特曼首次承认 DeepSeek 削弱 ... ·  3 天前  
小众软件  ·  用空气传输文件 · 续 ·  3 天前  
51好读  ›  专栏  ›  APPSO

可灵又更新了!和海螺、即梦比拼体操、吃面,谁是最强国产 AI 视频

APPSO  · 公众号  · app  · 2024-12-23 18:41

主要观点总结

本文主要是对三个国产AI视频模型进行了对比评测,包括可灵、海螺和即梦,从人物表演、物理规律、多主体等角度进行出题评测,通过一系列的图生视频比拼,展现了各模型的优缺点。可灵在总体表现上最佳,对提示词理解较为深入,运动相对合理;海螺和即梦在某些方面也有不错的表现,但存在一些问题。文章还探讨了AI视频的发展前景和期待。

关键观点总结

关键观点1: 国产AI视频模型的对比评测

通过对可灵、海螺和即梦三个国产AI视频模型的对比评测,展现了各模型在图生视频方面的能力,包括人物表演、物理规律、多主体等角度的评测。

关键观点2: 可灵的总体表现最佳

在对比评测中,可灵在多个场景下的表现都相对较好,对提示词理解较为深入,运动相对合理。

关键观点3: AI视频的发展前景和期待

文章还探讨了AI视频的发展前景,指出AI视频的比赛已经白热化,生成视频时创作的欲望强了,未来国产AI视频还能带来什么惊喜值得期待。


正文

等了 10 个月才发布的 Sora,实测的表现让人失望。Google 的 Veo 惊艳众人,但排队遥遥无期,不知道什么时候能玩。
还是来看看百花齐放、都能用上的国产 AI 视频模型吧。最近,可灵的视频生成模型更新了 1.6 版本,同时加量不加价,生成视频的积分没有变。
这次可灵的更新,最直观的是图生视频的进步。
那么,我们就来一次图生视频比拼,从人物表演、物理规律、多主体等角度出题,让可灵和海螺、即梦同题 PK,看谁遥遥领先。

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

吃披萨,喝酒,谁最没有 AI 味
大概从 AI 威尔·史密斯吃面开始,我们就很喜欢让 AI 品味各种美食,并用 AI 的吃相评判技术进步的程度。
先让《老友记》的乔伊吃个披萨,输入一样的提示词,「男人坐在沙发上,将披萨送至嘴边,轻轻咬下一口,镜头轻微拉近,聚焦在吃披萨的动作上」。
可灵让乔伊成功咬下了披萨,披萨少了一口,甚至披萨到嘴边还能拉丝,不过面部肌肉有些用力过猛。
可灵生成
海螺的表演也很完整,吃相比可灵收敛,但牙齿有些穿帮。
海螺生成
即梦完全在状况外,只是让乔伊坐了起来。
即梦生成
吃多了干巴巴的面食,让 AI 挑战一下液体吧。
这次请出日剧《我,到点下班》的女主,输入提示词「女性放下捂着脸的右手,端起啤酒杯轻抿一口,眼睛微眯,露出满足的微笑表情」。
这段提示词同时包含了人物动作和表情的变化,可灵的表演堪称完美,酒送到嘴边时,液体和泡沫都自然地倾斜,甚至主角还边喝边不自觉地眨了眨眼。
可灵生成
海螺的前半部分完成得还行,但后面就放飞自我乱加戏了,主角自顾自地看向了镜头,提示词没这段呀。
海螺生成
至于即梦,请问是怎么了呢?捂着脸的右手没放下,杯子倾斜成这个角度了,还一滴都没有洒出来,是不是要找牛顿秉烛夜谈。
即梦生成
切番茄,做体操,物理规律怎么就这么难学
现在,让可灵、海螺、即梦从餐桌下来,挑战大自然习以为常、却让 AI 们犯难的事情。
最近,OpenAI Sora 和 Google Veo 的切番茄对比,成了群嘲 Sora 的又一个依据。现在,我们也让三个国产 AI 下一回厨房。
这次的提示词写得比较详细:「写实风格,特写镜头,厨师正在砧板上切番茄,手部动作流畅,番茄被切成均匀的片状,汁液微微溅出,流畅的动态效果。」
可灵切的番茄一片片厚薄均匀,而且刀片下压和掉在砧板上的时候,番茄会发生形变。但第二刀应该切到手指了,可灵却表示没事。
可灵生成
海螺这是在切番茄吗?更像是在锯木头。
海螺生成
即梦开了个好头,结果这个番茄是越切越完整,一倒下又成了半个,让人绷不住了。
即梦生成
再来看看 AI 怎么理解奔跑和跳跃,我先用 AI 生成了一张水墨风的画,输入提示词「梅花鹿跑了几步到池塘边,优雅地跳过水面,消失在画面左侧」。
可灵的鹿虽然没能跳过水面,落进了水里,但总体遵循了提示词,水面跟随鹿的动作,溅起了水花。
可灵生成
海螺的鹿是消失了,原地打转把自己转没了。确认了,是个搞笑视频。
海螺生成
即梦的前半段还可以,鹿走了几步,也往水面跳了,但这个结尾抽象得看不懂。
即梦生成
体操被称为是 AI 视频界的「图灵测试」,因为难度太高了,肢体动作太复杂了,让 AI 生成,很容易出来不准确甚至恐怖的画面。
拿美国体操女王拜尔斯的图片一试,果然如此。我的提示词写得很简单,「一位女性体操运动员在平衡木上表演」,就想让 AI 自由发挥,但结果一言难尽。
可灵少做少错,一个动作都没有表演呢,5 秒就过去了。
可灵生成
海螺老老实实地炫技了,但你盯上 10 次也很难理解,腿是怎么翻转的,人的正面和背面怎么切换的。
海螺生成
即梦和可灵差不多,试图用慢动作过关,但奇怪的手已经暴露了这是个 AI。
即梦生成
打败小鲜肉,对标老戏骨
如果未来 AI 短剧、AI 电影大行其道,那么演技必须要比内娱的小鲜肉们好。所以,来考考国产 AI 的演技。
拿出电影《希德姐妹帮》的名场面截图,输入提示词「女性的嘴角叼着香烟,她微笑了一下,然后抬起右手,从外套口袋掏出金属打火机,掀开打火机盖点火,并将火焰凑近香烟末端」,让 AI 抽个烟。
可灵的表演太细了,每个表情和动作都遵循了提示词。掏打火机的时候,主角低下头,点火的时候,主角也是看着香烟,演技浑然天成,但这个打火机怎么点的,没看明白。
可灵生成
海螺的完成度也很高,但掏烟的地方不太对,并且左手在做假动作,根本就没碰到打火机。
海螺生成
即梦又自己发挥了,别说点烟了,烟自己都神出鬼没的。
即梦生成
再用 AI 生成的游戏 CG 风格的侠女,考验特写下的微表情。
我精心设计了表情的层次,输入提示词「少女先是露出惊愕的表情,随后显得愤怒,眼神变得凌厉,最后扬起嘴角,露出带着杀意的冷笑」,就看 AI 们能不能演出来了。
可灵表演出了惊愕,愤怒和冷笑不是很明显,至少表情是灵动的,发丝也飘动得恰到好处。
海螺的表演不能说不对,但太外放了,属于练习时长两年半的演技。感觉她在骂人,并且骂得很难听。
海螺生成
即梦这次的演技,算是三个 AI 里最好的了,虽然也没能演全,但表现出了凌厉的眼神。
即梦生成
复杂提示词,谁的阅读理解能力最强
多主体、多动作的复杂场面,对于 AI 来说也是一个难题。基于电影《百元之恋》的拳击擂台名场面,AI 们能不能生成一场精彩的比赛?
我输入了图生视频提示词——「两位女拳击手在擂台上对战,穿红色短裤的选手快速出左勾拳,穿蓝色短裤的选手后撤躲避后立即反击直拳,双方动作敏捷有力」。
可灵打得有来有回,语义理解也不错,知道是谁先出拳,先出哪只手,但力度软绵绵的,没有真实比赛里拳拳到肉的感觉。
可灵生成
海螺的场面一度有些混乱,一招鲜吃遍天,就看谁的出拳快。即梦更离谱,把拳击搞成了近身攻击。






请到「今天看啥」查看全文