成为“中国版的Sora”远不是这场AI视频大模型竞赛的终点,而恰恰只是起点。
@科技新知 原创
作者丨余寐 编辑丨赛柯
六个月前,由OpenAI研发的文生视频大模型Sora横空出世,给了科技圈一点大大的震撼。
用AI生成视频并不是新鲜事,只不过此前一直无法突破合成10秒自然连贯视频的瓶颈。而Sora在发布时就已经能合成1分钟超长视频,视频质量画面也效果惊人。
尽管Sora一直没有开放公测供用户体验,但其底层架构还是被扒了个遍。被称之为“Sora路线”的DiT,全称为Diffusion Transformer,本质是把训练大模型方法机制融入到了扩散模型之中。
自此,相关平台不甘落后,纷纷摸着Sora过河,你方唱罢我登场,竞争不可谓不激烈。有媒体统计,国内有至少超20家公司推出了自研AI视频产品/模型。入局玩家纷杂。
在刚刚过去的7月,商汤推出最新AI视频模型 Vimi,阿里达摩院也发布AI视频创作平台“寻光”,爱诗科技则发布PixVerse V2,快手可灵宣布基础模型再次升级,并全面开放内测,智谱AI也宣布AI生成视频模型清影(Ying)正式上线智谱清言。互联网企业之间的赛场也有了新故事。字节跳动是第一批发布AI视频模型的选手,3月率先发布剪映Dreamina(即梦),三个月后,快手可灵AI正式开放内测。
AI视频大模型赛道如此之“卷”,究其原因,无疑是其背后蕴藏的商业空间与想象力。不过,用户更关心的是产品本身。这也是行业必须要直面的问题:AI视频大模型到了哪一步?Sora带来的“光环”,究竟值不值得期待?
目前深度学习的框架,“数据是燃料、模型是引擎、算力是加速器”。在掌握模型搭建方法后,不断投喂数据并提升算力和准确性是各平台采取的主要策略。而进展是有限的。普遍来看,大模型在生成具有连贯性和逻辑一致性的视频方面仍然存在困难。
本次我们选取几个国内头部视频生成模型进行实测,包括
可灵、即梦、PixVerse、清影(智谱清言)
,具体直观地测试不同的模型表现。
为尽可能客观地比较测试结果,我们采用如下设定:
1.使用统一的中文提示词,包括简易提示词和复合提示词;
2.测试包含图生视频和文生视频两种方式;
3.测试场景包括大模型对人物、动物、城市建筑等的生成效果;
4.模拟新手用户使用场景,统一采用各模型平台电脑端默认设置;
5.展示呈现采用一次生成结果,不进行二次调整优化。
以下是各模型的实际生成效果:
场景1:二次创作场景
提示词:
做出加油的动作后做出鬼脸,吐舌头并眨右眼。
场景说明:
使用梗图《握拳宝宝》,模拟用户二次创作,测试模型对于图片的理解和生成能力。对于模型主要的难点在于需要理解“鬼脸”的含义,并能对“吐舌头”和“眨眼”两个动作做出反馈和生成。现阶段,模型一般只能识别一个动词。
网络上曾经爆火的“握拳宝宝”
↑即梦:
主体的手部、嘴部产生了明显畸变,对于提示词动作的理解没有非常明显。
↑
可灵:
主体动作流畅自然,具有真实感,对于提示词动作理解不够到位。
↑
PixVerse:主体动作流畅自然,能够做出提示词相关的动作,这是几个生成视频中唯一一个做出“眨眼”动作的模型。
场景2:人物吃东西场景
提示词:
一个亚洲年轻男性在家里用筷子津津有味地吃一碗面条,风格真实,类似于电影《天使爱美丽》,环境舒适温馨,镜头逐渐拉近对准人物。
场景说明:
对于模型来说,需要围绕“亚洲年轻男性”“筷子”“面条”生成视频,同时要理解电影风格和环境,并按照指示进行运镜。更重要的是,通过吃饭这个场景可以更清晰地让模型展示手部细节,并通过吃面条这个动作来展示模型对于物理世界的理解。
↑
即梦:第一帧很帅,光影也很自然。但依旧存在脸部和手部畸变的问题,以及模型明显不能够理解筷子的使用方式和面条的食用方式。
↑可灵:
非常惊艳的视频!
环境的光线、人物的坐姿和使用筷子的手部姿势都非常真实,甚至嘴部的油光反射都清晰可见,不愧是据说可灵最擅长的吃播领域。
唯一是面条的运动轨迹有一些小暇疵。
↑
PixVerse:惨不忍睹,甚至还被动卡出了一个不连贯的分镜,也没有理解运镜。
↑
清影:如果不看主体人物动作,其实还算过得去。光线、环境和氛围都到位了。
场景3:动物拟人场景
提示词(简单版):
一头大熊猫戴着金边眼镜在教室黑板前讲课。
提示词(复杂版):
电影胶片感风格的场景中,一头大熊猫戴着金边眼镜,在教室黑板前讲课。它的动作自然流畅,周围是充满质感的教室环境,学生们认真听讲。整个场景如同电影画面,光影处理细腻,色彩饱满。电影胶片感风格,气氛温馨,8K电影级。
场景说明:
该场景通过设置两版提示词,来测试大模型对于想象力的理解。简单版提示词仅有大熊猫、金边眼镜、黑板,模型可以通过这三个关键词生成具有可自主添加其他内容的视频,来展现模型的想象力和细节搭建;复杂版提示词按照清影内设的提示词调试小程序生成,涉及场景、风格、人物、环境、色彩、氛围和清晰度等,测试模型的细节刻画。
先看简单版提示词生成的效果:
↑
即梦:很不错的视频生成,除了“金边眼镜”外,要素齐全,神态动作也非常自然,光影非常优秀。黑板上的字甚至有些以假乱真。
↑
可灵:各种素材都齐了,但是没能特别理解讲课和吃竹子的区别。为了减少失误,画面整体相对单调,没有添加更多细节。
↑
PixVerse:要素都齐全,风格也不错,就是眼镜稍微有点出戏(也比没有强)
升级提示词后的效果:
↑
即梦:效果依然不错,光影理解也在线,唯一小瑕疵还是眼镜部分,有畸变,以及好像不太能理解“讲课”这一场景的座位排列。
↑PixVerse:
模型自己添加了运镜和细节成分,最后有一些扭曲,整体效果跟前一版差不多。
↑清影:有景深和运镜,画面质感还需要提升,相比前一版有了很大进步。
场景4:科技想象场景
提示词(简单版)
:
充满科技感的未来城市一角,仰视视角。
提示词(复杂版)
:在充满科技感的科幻风格未来城市中,使用推近镜头,展现建筑和交通工具的细节,无人
机在空中穿梭,天气晴朗,阳光洒在高楼大厦的玻璃幕墙上阳光透过高楼的缝隙洒下,周围环境充满未来感,科幻风格,气氛激昂明朗,HDR高动态。
场景说明:
该场景同样设置两版关键词,简单版只给出科技感、城市和视角三个关键词,由模型填充生成剩下的内容;复杂版提示词同样使用清影的提示词调试程序生成,涉及风格、运镜、场景、环境、色彩、气氛和清晰度。一方面,该场景主要测试模型在不同颗粒度的提示词下所生成的视频内容丰富性;另一方面。“未来”是现实物理世界与想象世界的结合,可以测试模型对于建筑、光影和科幻的理解。
同样先看简单版:
↑即梦:运镜角度、色彩等方面做得都很好,突出了科技感,对于提示词的理解是到位的。
↑
可灵:不出错的方案。建筑有畸变,对于“未来”的想象力有一些欠缺,仅仅是城市建筑的堆砌。不过能够在建筑外立面添加LED大屏,也算是一个亮点。
↑
PixVerse:科幻感十足,交通工具、城市、环境都做得非常到位。不过好像没有特别理解仰视视角。
↑
清影:倒是对仰视视角非常有心得体会,但是色彩和“未来城市”对理解依然还是差一些。
再看复杂提示词版生成效果:
↑
即梦:很优秀的视频了,除去无人机的物理运动方式不能完全理解以外,对于提示词和风格的理解和把握非常到位。
↑
可灵:依然是不会出错的方案,有一些畸变,就是看起来好像是北京动物园公交枢纽的实拍是怎么回事。
↑
PixVerse:有点抽象的科幻,不太知道该怎么评价。畸变有些严重,但科幻感还是很足的。
除了场景应用,我们还从另外四个维度对所选取的四个大模型进行了测评:
视频生成质量和清晰度
内容生成准确性、一致性和丰富性
使用成本和价格
生成速度和交互界面
基于「科技新知」的测试情况,在视频质量和清晰度方面,可灵大模型在四个模型中更胜一筹,例如在生成大熊猫视频时,其能够较为清晰细腻地表现出大熊猫毛发的纹理、质感和色泽;对于物体的边框勾勒也区分明确,画面更真实,相对来说物体畸变也是最少的。清晰度方面,几个大模型生成效果都还不错,PixVerse效果相对落后。
从准确性和一致性比较,四个模型对于部分提示词的忽略是普遍情况。对于两个及以上动词,通常模型只会关注其中一个,侧重选择哪些关键词和关键信息也是考量模型理解能力的重要判断方式。
从生成视频的丰富性上,即梦和PixVerse表现较好。在一些除主体元素外的细节方面,二者都在尽量扩充内容,尤其是即梦对光线光影颇有理解。反观可灵,在这部分则相对保守,主要以保证主体元素和动作不出差错为主要聚焦。