文章介绍了字节跳动的火山引擎推出的新AI模型——豆包生成视频模型,并对其进行了详细评测。文章提到了该模型在图像与文字结合生成视频方面的出色表现,并对其在不同场景下的性能进行了测试。
文章提到了PixelDance模型的名称和用途,展示了官方的演示视频,包括由图片和提示词生成的视频,并描述了视频中的细节表现。
文章通过多个测试案例展示了PixelDance模型的性能,包括金毛照片生成视频、赛博朋克风格骑行照片生成视频、同事吃东西的照片生成视频等,并对每个案例进行了详细分析。
文章总结了PixelDance模型的优点,如画面稳定性、一致性等,并指出存在的缺点,如某些细节处理不够真实、某些场景下的表现不够理想等。
文章提到了与字节工作人员的沟通内容,包括他们为了做出接近影视的光影、色彩效果所采取的方法,以及国内视频模型市场的现状。
文章最后提到了升级浏览器至最新版本的重要性。
有一说一,真不知道这个月是什么情况。
国内的科技互联网厂商们就像扎堆看了同一本黄历一样,都赶着这个月搞事情
,各种大模型纷纷上新,给人都看倦了。
而今天,字节跳动的火山引擎也官宣了多个新 AI 模型,其中知危编辑部觉得最惊艳的,就是豆包生成视频模型,
效果极其强横。
迟迟不上菜的字节,这一开始上菜就是硬菜。
我们先来看一下官方的演示视频:
这是一条由图片+提示词生成的视频,我们可以看到视频中角色的复杂表情的表现非常自然,发丝的飞舞、马匹头上的棕毛飞舞也很符合物理学,人物在马背上的起伏也很自然。
我们在看这段 “ 骑火箭的男人冲向世界最高城礼堂引发大爆炸 ” 的视频,镜头的移动以及分镜的切换很丝滑,并且画面和画风的一致性保持的很好,中间那个男人紧闭双眼紧张赴死的镜头也很有表现力,画面感拉满了:
不过,
众所周知,AI 行业现在有时候宣传资料就跟方便面外包装一样,看上去是一回事,拆开以后又是另一回事。
所以尽管看完这些演示视频以后我们觉得豆包可能真有两下子,但到底货对不对板,咱还是得上手试一试才知道。
所以,我们找到了字节的朋友,要到了这款模型的内测机会,实测一下它的成色。
模型的名字叫 PixelDance
( 像素跳动 )
,暂时只支持图+文输入生成视频,所以我们下面的测试都是基于图+文来进行生成视频。
首先,我们用了一张公司养的金毛的照片:
我们的提示词为:狗狗站起,叼起身边的娃娃离开画面。
看似简单,但是这个需求还是比较难的。
因为金毛的脸是被娃娃遮挡住的,让其站起并叼走娃娃,对模型生成的一致性有比较大的挑战
,在过往的一些模型测试中,一般狗狗的脸和身材不出 2 秒就会开始崩坏。
但,实际生成的视频是这样的:
这 10 秒钟的视频,几乎没有出现太多画面抖动、掉帧和闪烁变形的情况,狗狗
起身的动作一气呵成,
仔细看它把兔子玩偶拽过来的瞬间,玩偶耳朵会抖动,脚往下踩的时候垫子上也会有凹陷。
也就是说,不仅一致性不错,细节也很好,
如果不是狗狗毛发纹理有时有些假,给个 9 分都不过分。
下面,我们才测试一下让不少视频生成模型屡战屡败的光影效果。
我们先是拿豆包文生图功能生成了一张赛博朋克风的骑行照片:
然后再把他丢进了 PixelDance 模型,提示词是:摩托车飞速行驶在道路上,街景迅速后退。
在生成的视频中,
街景变化流畅,光线的明暗变化也没违和感,特别是大楼灯光和地面上的倒影都一一对应上了。
唯一有点小瑕疵的地方就是从对向开过来的车,画面没太控制好。
随后,我们选取了一张同事吃东西的照片,想测试人物动作的生成:
提示词为:正对镜头的男人张嘴吃下筷子上的食物。
而 PixelDance 模型也确实没让我们失望,拿筷子的动作很熟练,食物是真吃进了嘴里,面部也没有因为咀嚼的动作而变形。即使提示词里没有提到的到后面人群,模型也让他们比较符合日常规律的动了起来,没有什么太大的破绽。
缺点就是,嚼东西的动作有些用力过猛,略显生硬。
其实测到这里,我们对 PixelDance 模型的水平已经有点底了。但为了让测试更全面些,咱还是多试几次。
下面我们来测试奇幻场景,我们提供了一张公司附近的晚霞照片:
提示词为:远处的天空,飞来一条黑色的龙,距离镜头越来越近。
在生成的视频中,画面后面的天空、一排房子、往镜头飞来的黑龙,要素基本齐全,镜头还会慢慢仰拍跟随,
但是缺点是龙的质感和飞行动作有些假
,
导致这条视频是我们认为本次测试里最差的一个案例,这可能跟背后的训练素材的局限性有关。
另外,原本照片左下角应该是桥边的栅栏,不知道是不是因为画面太黑,导致模型没识别出来,小小变形了一下。
最后,我们还测试了一个我们认为难度很高、非常考验一致性和对物理世界规则理解的例子,是一张同事们下班喝酒时拍的照片:
提示词为:大家碰杯后各自拿走自己的酒一饮而尽。
生成的视频中,碰杯导致的液体晃动,手部动作让液体倾斜的物理反馈、被子的反光等处理的都比较不错。
而且人类手臂的屈伸、关节活动,也比较符合人类生理构造。