专栏名称: 卡尔的AI沃茨

- 前阿里&百度大模型算法｜AI创业者｜擅长GPT开发及数字人应用- 创建开源AI学习体系learnprompt.pro，社群破万- 持续输出AI前沿科技资讯，关注我，让更多人成为AGI时代的创作者

实测豆包AI视频模型Seaweed，击败Sora的含金量到底有多少？

卡尔的AI沃茨 · 公众号 · · 2024-09-26 09:30

正文

(｢･ω･)｢文末彩蛋加载中 0%->50%->99%

前天 AI 视频界迎来了 iphone🍏 时刻，

字节正式发布了两款全新的 AI 视频模型，

PixelDance 和 Seaweed

PixelDance 核心亮点是“人物复杂连续动作”，“多镜头组合”和“运镜控制”。

光这个视频就值得我跳起来点三个赞！

但现在一个都测试不到，从目前透露出的各种 PixelDance 素材来看，应该是极少数人拿到了内测资格。‍

不知道跟前段时间 GPT 语音模式内测比起来，哪个名额少。

幸运的是，我 get 到了 Seaweed 模型的内测！

可能大家会跟我有一样的疑问，

PixelDance 和 Seaweed 有啥联系？区别是啥？

它们使用的模型结构不同，使用定位也不同，

那，Seaweed 会是一个有着 PixelDance 的部分超能力，但成本更低速度更快的模型吗？

所以这次评测我会按照 PixelDance 的新能力作为主要维度，其他主流 AI 视频工具的痛点作为辅助维度，第一时间分享我的 Seaweed 上手体验～

Here we go！

一. 人物复杂连续动作

从材料上看，PixelDance 能在10s内完成3个连续动作，

而主流的AI视频工具单次生成通常是出一个动作，常规的有眨眼、挥手、摇头等运动幅度较低的动作。

就是因为大幅度的动作会让整个画面崩掉，要完成一系列连续的动作，我们往往需要将分镜拆得更加细致，从剪辑层面上完成连续动作。

我们来用相似的画面来对比 PixelDance（上）和Seaweed（下）的效果：

PixelDance

Seaweed

受限于5s的生成时长，Seaweed并不能很精准的表现出【摘下墨镜】后【向前走】的连续动作，

但优点是人物动作的自然度和眼睛的补足做的还不错。

二. 多镜头组合

多镜头组合，简单来说就是单次生成的视频里包含了不同角度的镜头切换。

这中间可能会包括一个大远景展现过后切换到一个人的脸部特写，又或者是一个人物不同正面侧面的切换等等。

说着简单，但是生成起来难度不低，在之前已经推出的工具中，除了 Sora 放出的官方case中有这样的案例之外，其他的工具都很少能做出类似的效果。

我们同样还是用 Seaweed 复刻了一个和 PixelDance 给出的 case 相似的画面：

PixelDance

Seaweed‍

从两个case上看，PixelDance做出的镜头切换是顶级的，而SeaWeed给到的效果整体动作流畅度和幅度是足够的，遗憾的是抽了很多次卡都没有做到镜头切换的效果。

PixelDance这前两大功能都完成了一件相同的事：延长生成视频的“有效时长”，

这个“有效时长”指的不是将原有的 5s 延长到 10s，20s，甚至是 40s，

而是在指有限的时长内做到了尽可能多的变化，还能保持画面一致性。

三. 运镜控制

AI视频里的运镜一共有多少种？

Runway 的官方指南里列出来的 Camera Movement 有15种，配合4种镜头运动速度，

我们可以组合出60种运镜控制。

听上去很多是吧，但我拿着这个去跟影视行业的朋友聊的时候，

得到的答复是，这些运镜控制只是影视制作中很少的部分。

在以往的工具制作经验中，想要让模型听【指令】做出相应的【运镜】，还真的需要靠那么一丝运气，但这次PixelDance给出的case确实带来了很大的惊喜。

PixelDance：通过prompt精准的控制了镜头运动的轨迹，【360度环绕】从【侧脸】到【正脸】，最终落点在人物的面部特写。

Seaweed：虽然实现了【360度】环绕似的运动，但是没有镜头远近的变化，也没有落点在人物的面部特写上。

看来 Seaweed 还没有学全 PixelDance 的 36 变真本事，那如果回到最初我们测评的同一起跑线上，Seaweed 是否解决了目前AI视频工具里的某些痛点呢？

每次都测一样的东西有点子腻了，这次我们直接上了带强度的（毕竟基础的画面效果Seaweed确实已经挑不出什么大毛病了）。

于是，我们额外给Seaweed出了几道奥数题：文字稳定不崩/多人场景不崩/超远景小人不崩/画面元素无中生有/生成风格稳定/多人物互动。

（看得出来日常为了保证AI生成视频稳定做了多大的努力了）

四. 文字稳定不崩

第一个就让我超级惊喜，

Seaseed 做到了画面中的文字可以稳定存在，不会消失，也不会和画面融合成一体！

这以后谁还花钱做动态海报啊！！

五. 多人场景不崩

接下来直接测个王炸的！

多人场景有多难实现，大家都懂得，这么多张脸都要完全不崩，放在之前可能要抽卡抽个几十上百次都不一定能抽到。

但是下面这两个Seaweed给的效果，人脸绝对是稳定的，

而且抽卡也就在10次以内就可以得到，还可以让你精挑细选一下自己喜欢的动态。

绝，真的绝！

六. 超远景小人不崩

从前的大远景镜头，都不奢求人物的身影能有什么好的动态了，只求一个不要给我融成一坨。

现在，终于不用愁了！除了人物的稳定，甚至还能实现【多主体】、【场景】多方面稳定的动态效果。

七.画面元素无中生有

之前想要实现一个画面中没有的元素出现，往往用的最多就是【首尾帧】

现在，又有了一种新的方式。

直接通过prompt，就可以让Seaweed帮你实现【小男孩出现在画面中】【一只手出现在画面中】的特定效果。

就是稍微没那么稳定，这种【无中生有】的效果还是需要多抽几次卡的。

八. 生成风格稳定

相信之前很多人在生成视频的时候都会遇到一种情况，就是模型会把画面中的主体“嗖”的一下变成一个奇怪的3D人偶，而且这种情况还不少见。

这次即梦的更新，最最最让我惊喜的就是，风格的延续非常稳定，终于不再有鬼畜3D了！！！做梦都会笑醒的程度！

（这只小松鼠好可爱！）

九. 多人物互动

多人物互动有多难做就不多说了，每一次都做，每一次都会微微失望😑。

但这次的测的两个case，反正我是看到希望了。打拳会有拳拳到肉的感觉，跳舞人物的表情和灯光都很对味儿。

（就是差点速度）

整体测下来，虽然还没用上 PixelDance，

但对 Seaseed 我已经是非常满意的程度！

至少对于目前的工具上，即梦算是打开了一个新维度。单是【风格稳定】【文字不崩】两个点，就够我给它打个优秀分了。

写在最后

值得一提的是，

这次测试的全流程我们都是在即梦网页端上完成的！

【生图】、【修图】、【高清】、【音乐】、【视频生成】全部一站式完成。

真的很爽，不需要在各种界面跳来跳去，

还支持手机端，现在外出遇到灵感，都可以用即梦刷两张图，

就恨自己长的手不够多，把灵感们变成影片的周期还是有一丢丢慢。

字节抓紧时间，多买几顿显卡，把 PixelDance 上线到即梦吧，

期待制作出一部由PixelDance为主力工具的AI短剧，

我脚本都准备好了！

@ 作者 / 卡尔 & 阿汤@ 动手学AI知识库 / learnprompt.pro

最后，感谢你看到这里👏如果喜欢这篇文章，不妨顺手给我们点赞👍｜在看👀｜转发📪更多的内容正在不断填坑中……