主要观点总结
文章对国产AI视频模型进行了对比评测,涉及可灵、海螺和即梦等模型。文章通过一系列的图生视频比拼,从人物表演、物理规律、多主体等角度考察模型的表现。评测结果显示,各模型在不同场景和任务中表现各有胜负,可灵在1.6版本中综合实力较强,对提示词理解较为深入,但画面美感和高难度运动学习方面还有待提升。文章期待国产AI视频的未来能带来更多惊喜。
关键观点总结
关键观点1: 国产AI视频模型的对比评测
文章对可灵、海螺和即梦等模型进行了全面的对比评测,通过一系列的图生视频比拼,考察模型在人物表演、物理规律、多主体等方面的表现。
关键观点2: 模型之间的比拼
文章通过一系列场景和任务,让各模型进行比拼,结果显示各模型在不同场景中表现各有胜负。
关键观点3: 可灵1.6版本的表现
可灵在1.6版本中综合实力较强,对提示词理解较为深入,但在画面美感和高难度运动学习方面还有待提升。
关键观点4: 创作的欲望与期待
文章指出,在使用这些AI视频模型进行创作时,掀桌的冲动少了,创作的欲望强了,期待国产AI视频的未来能带来更多惊喜。
正文
等了 10 个月才发布的 Sora,实测的表现让人失望。Google 的 Veo 惊艳众人,但排队遥遥无期,不知道什么时候能玩。还是来看看百花齐放、都能用上的国产 AI 视频模型吧。最近,可灵的视频生成模型更新了 1.6 版本,同时加量不加价,生成视频的积分没有变。那么,我们就来一次图生视频比拼,从人物表演、物理规律、多主体等角度出题,让可灵和海螺、即梦同题 PK,看谁遥遥领先。关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
首先需要说明,这是一次没有广告、自娱自乐的比赛,每个图生视频只在每个模型生成一次。为了保证比赛公平,海螺和即梦选择的模型也是各自的最强版本,具体的模型如下。海螺:I2V-01 或 I2V-01-Live 模型,后者的角色表现更强。每次生成,选择这两个模型中表现更好的一个视频。即梦:P2.0 Pro 模型。经过测试,相同的提示词,即梦的 P2.0 Pro 模型明显比 S2.0 Pro 模型表现更好。大概从 AI 威尔·史密斯吃面开始,我们就很喜欢让 AI 品味各种美食,并用 AI 的吃相评判技术进步的程度。先让《老友记》的乔伊吃个披萨,输入提示词,「男人坐在沙发上,将披萨送至嘴边,轻轻咬下一口,镜头轻微拉近,聚焦在吃披萨的动作上」。可灵让乔伊成功咬下了披萨,披萨少了一口,甚至披萨到嘴边还能拉丝,不过面部肌肉有些用力过猛。海螺的表演也很完整,咬下了一大口披萨,但披萨进嘴的瞬间有些穿帮。再来欣赏三个国产 AI 吃意大利面,图片取自电影《圣鹿之死》,提示词是「男性低头用叉子卷起面条,大口大口地吃」。这次请出日剧《我,到点下班》的女主,提示词是「女性放下捂着脸的右手,端起啤酒杯轻抿一口,眼睛微眯,露出满足的微笑表情」。这段提示词同时包含了人物动作和表情的变化,可灵的表演堪称完美,抿酒时,液体自然地倾斜,泡沫浮在嘴边,甚至主角还边喝边不自觉地眨了眨眼。海螺的前半部分完成得还行,但主角自顾自地看向了镜头,提示词没这段呀。至于即梦,放下手的动作挺自然,然而在喝酒的时候,把酒杯举得过高,感觉下一秒酒就会洒出来。现在,让可灵、海螺、即梦从餐桌下来,挑战大自然习以为常、却让 AI 们犯难的事情。最近,OpenAI Sora 和 Google Veo 的切番茄对比,成了群嘲 Sora 的又一个依据。现在,也让三个国产 AI 下一回厨房。上传静态的切番茄图片,我的提示词如下:「写实风格,特写镜头,厨师正在砧板上切番茄,手部动作流畅,番茄被切成均匀的片状,汁液微微溅出,流畅的动态效果。」可灵切的番茄厚薄均匀,而且刀片下压和掉在砧板上的时候,番茄会发生轻微的形变。即梦切得也不错,有种削铁如泥的感觉,要么番茄太软了,要么刀太锋利了。再来看看 AI 怎么理解奔跑和跳跃,我先用 AI 生成了一张林深处见鹿的水墨风图片,输入提示词「梅花鹿跑了几步到池塘边,优雅地跳过水面,消失在画面左侧」。海螺的鹿弹跳力最好,干脆利落地跳出了画面,最符合我需要的感觉。即梦的鹿和可灵一样,也没有跳起来,这让我意识到,可能提示词存在歧义,AI 理解的方式不同,「跳过水面」,没说一定是从这头跳到那头,也能是「蹦蹦跳跳地过水面」。体操被称为是 AI 视频界的「图灵测试」,因为难度太高了,肢体动作太复杂了,让 AI 生成,很容易出来不准确甚至恐怖的画面。拿体操运动员的截图一试,果然如此。我的提示词写得很简单,「一位女性体操运动员在平衡木上表演高难度动作」,就想让 AI 自由发挥,但结果一言难尽。可灵的腿、手、脖子,都说不出的诡异,看了 10 遍也很难参透。同时,平衡木受到压力,可灵生成的形变也很夸张,过犹不及。这位体操运动员的真实比赛中,平衡木没有这么不稳。如果未来 AI 短剧、AI 电影大行其道,那么演技必须要比内娱的小鲜肉们好。所以,来考考国产 AI 的演技。拿出电影《希德姐妹帮》的名场面截图,输入提示词「女性的嘴角叼着香烟,她微笑了一下,然后抬起右手,从外套口袋掏出金属打火机,掀开打火机盖点火,并将火焰凑近香烟末端」,让 AI 抽个烟。可灵的表演太细了,每个表情和动作都遵循了提示词。掏打火机的时候,主角低下头,点火的时候,主角也是看着香烟,演技浑然天成。海螺的完成度也很高,表情跟着动作走,但打火机先点了火,左手才摆出打火的姿势。即梦对提示词的遵循同样精准,主角微笑了、抬手了、掀开打火机盖了,按部就班,没落下一个重点,就是点火的时候有些手忙脚乱。再用 AI 生成的游戏 CG 风格的侠女,考验特写下的微表情。我精心设计了表情的层次,输入提示词「少女先是露出惊愕的表情,随后显得愤怒,眼神变得凌厉,最后扬起嘴角,露出带着杀意的冷笑」,就看 AI 们能不能演出来了。可灵表演出了惊愕,愤怒和冷笑不是很明显,至少表情是灵动的,发丝也飘动得恰到好处。海螺的表演不能说不对,但太外放了,属于练习时长两年半的演技。感觉她在骂人,并且骂得很难听。即梦这次的演技,算是三个 AI 里最好的了,惊愕和冷笑传达得特别到位,可以收拾收拾出道了,内娱需要你。多主体、多动作的复杂场面,对于 AI 来说也是一个难题。基于电影《百元之恋》的拳击擂台名场面,AI 们能不能生成一场精彩的比赛?我输入了图生视频提示词——「两位女拳击手在擂台上对战,穿红色短裤的选手快速出左勾拳,穿蓝色短裤的选手后撤躲避后立即反击直拳,双方动作敏捷有力」。可灵打得有来有回,语义理解也不错,知道是谁先出拳,先出哪只手。海螺的出拳也对,但场面一度有些混乱,手都打成残影了。即梦的对打和躲避都很自然,但出拳没有按提示词来。两个人的打斗可能有点难,再来试试各就各位的才艺演出。我选取了《死侍与金刚狼》的剧照,配上提示词「六位超级英雄保持队形站位,同步抬起双手做出心形手势,然后整齐划一地转身」。海螺的比心整齐划一,但这个转身方式也是我没想到的,就说转没转吧。即梦的表现是最好的,比心是同步的,转身也是整齐的。最后,再来玩个创意视频。最近,AI 巨物玩法很火,参考 AI 博主海辛 Hyacinth 的创意,我先用 AI 生成了图片,让巨大的哆啦 A 梦和狮身人面像并肩而立。然后写好提示词「蓝色的大猫右手变出一个铜锣烧,递给旁边的石头雕像,石头雕像张开嘴巴吃了起来」,让这张图动起来。测评下来,三个国产 AI 在有限的题目里各有胜负,但总体表现都算不错,可玩性都挺高,值得深入体验。单说可灵,在题目的范围内看,1.6 模型综合实力很强,运动相对合理,对提示词和物理规律的遵循也还可以,力的作用和反作用比较真实,但有时候画面美感差了点,高难度的运动也有待学习。虽然可灵还称不上指哪打哪,但它的图生视频,对提示词理解得比较深入,哪怕结果不全对,或者画面不够美,至少可以看到,提示词的很多细节都在视频里有所体现。总之,就是种积分没有白买、图片没有白找、提示词没有白写的感觉。从 1.5 到 1.6,看似只有一个小数点,AI 视频的可控性是肉眼可见的提升了。AI 视频的比赛已经白热化了,但更重要的是,生成视频的时候,掀桌的冲动少了,创作的欲望强了,未来国产 AI 视频还能带来什么惊喜,值得期待。