专栏名称: 知危

提供敏锐、独到的商业信息与参考，重点关注TMT、出海、新消费、新能源。

字节跳动发了个超惊艳的AI生视频模型，这回像素也跳动了

知危 · 公众号 · 互联网短视频科技自媒体 · 2024-09-24 21:23

主要观点总结

文章介绍了字节跳动的火山引擎推出的新AI模型——豆包生成视频模型，并对其进行了详细评测。文章提到了该模型在图像与文字结合生成视频方面的出色表现，并对其在不同场景下的性能进行了测试。

关键观点总结

关键观点1: PixelDance模型的简介及演示效果

文章提到了PixelDance模型的名称和用途，展示了官方的演示视频，包括由图片和提示词生成的视频，并描述了视频中的细节表现。

关键观点2: PixelDance模型的实测表现

文章通过多个测试案例展示了PixelDance模型的性能，包括金毛照片生成视频、赛博朋克风格骑行照片生成视频、同事吃东西的照片生成视频等，并对每个案例进行了详细分析。

关键观点3: PixelDance模型的优点和缺点

文章总结了PixelDance模型的优点，如画面稳定性、一致性等，并指出存在的缺点，如某些细节处理不够真实、某些场景下的表现不够理想等。

关键观点4: 字节工作人员透露的信息

文章提到了与字节工作人员的沟通内容，包括他们为了做出接近影视的光影、色彩效果所采取的方法，以及国内视频模型市场的现状。

关键观点5: 升级浏览器的重要性

文章最后提到了升级浏览器至最新版本的重要性。

正文

有一说一，真不知道这个月是什么情况。

国内的科技互联网厂商们就像扎堆看了同一本黄历一样，都赶着这个月搞事情，各种大模型纷纷上新，给人都看倦了。

而今天，字节跳动的火山引擎也官宣了多个新 AI 模型，其中知危编辑部觉得最惊艳的，就是豆包生成视频模型， 效果极其强横。

迟迟不上菜的字节，这一开始上菜就是硬菜。

我们先来看一下官方的演示视频：

这是一条由图片+提示词生成的视频，我们可以看到视频中角色的复杂表情的表现非常自然，发丝的飞舞、马匹头上的棕毛飞舞也很符合物理学，人物在马背上的起伏也很自然。

我们在看这段 “ 骑火箭的男人冲向世界最高城礼堂引发大爆炸 ” 的视频，镜头的移动以及分镜的切换很丝滑，并且画面和画风的一致性保持的很好，中间那个男人紧闭双眼紧张赴死的镜头也很有表现力，画面感拉满了：

不过， 众所周知，AI 行业现在有时候宣传资料就跟方便面外包装一样，看上去是一回事，拆开以后又是另一回事。

所以尽管看完这些演示视频以后我们觉得豆包可能真有两下子，但到底货对不对板，咱还是得上手试一试才知道。

所以，我们找到了字节的朋友，要到了这款模型的内测机会，实测一下它的成色。

模型的名字叫 PixelDance （像素跳动） ，暂时只支持图+文输入生成视频，所以我们下面的测试都是基于图+文来进行生成视频。

首先，我们用了一张公司养的金毛的照片：

我们的提示词为：狗狗站起，叼起身边的娃娃离开画面。

看似简单，但是这个需求还是比较难的。 因为金毛的脸是被娃娃遮挡住的，让其站起并叼走娃娃，对模型生成的一致性有比较大的挑战 ，在过往的一些模型测试中，一般狗狗的脸和身材不出 2 秒就会开始崩坏。

但，实际生成的视频是这样的：

这 10 秒钟的视频，几乎没有出现太多画面抖动、掉帧和闪烁变形的情况，狗狗起身的动作一气呵成， 仔细看它把兔子玩偶拽过来的瞬间，玩偶耳朵会抖动，脚往下踩的时候垫子上也会有凹陷。

也就是说，不仅一致性不错，细节也很好， 如果不是狗狗毛发纹理有时有些假，给个 9 分都不过分。

下面，我们才测试一下让不少视频生成模型屡战屡败的光影效果。

我们先是拿豆包文生图功能生成了一张赛博朋克风的骑行照片：

然后再把他丢进了 PixelDance 模型，提示词是：摩托车飞速行驶在道路上，街景迅速后退。

在生成的视频中， 街景变化流畅，光线的明暗变化也没违和感，特别是大楼灯光和地面上的倒影都一一对应上了。 唯一有点小瑕疵的地方就是从对向开过来的车，画面没太控制好。

随后，我们选取了一张同事吃东西的照片，想测试人物动作的生成：

提示词为：正对镜头的男人张嘴吃下筷子上的食物。

而 PixelDance 模型也确实没让我们失望，拿筷子的动作很熟练，食物是真吃进了嘴里，面部也没有因为咀嚼的动作而变形。即使提示词里没有提到的到后面人群，模型也让他们比较符合日常规律的动了起来，没有什么太大的破绽。

缺点就是，嚼东西的动作有些用力过猛，略显生硬。

其实测到这里，我们对 PixelDance 模型的水平已经有点底了。但为了让测试更全面些，咱还是多试几次。

下面我们来测试奇幻场景，我们提供了一张公司附近的晚霞照片：

提示词为：远处的天空，飞来一条黑色的龙，距离镜头越来越近。

在生成的视频中，画面后面的天空、一排房子、往镜头飞来的黑龙，要素基本齐全，镜头还会慢慢仰拍跟随， 但是缺点是龙的质感和飞行动作有些假 ， 导致这条视频是我们认为本次测试里最差的一个案例，这可能跟背后的训练素材的局限性有关。

另外，原本照片左下角应该是桥边的栅栏，不知道是不是因为画面太黑，导致模型没识别出来，小小变形了一下。

最后，我们还测试了一个我们认为难度很高、非常考验一致性和对物理世界规则理解的例子，是一张同事们下班喝酒时拍的照片：

提示词为：大家碰杯后各自拿走自己的酒一饮而尽。

生成的视频中，碰杯导致的液体晃动，手部动作让液体倾斜的物理反馈、被子的反光等处理的都比较不错。

而且人类手臂的屈伸、关节活动，也比较符合人类生理构造。