专栏名称: APPSO

让智能手机更好用的秘密。

给马斯克上了瑞士卷大考后，我终于拿捏这个国产 AI 视频模型的最强新功能

APPSO · 公众号 · app · 2024-11-16 11:58

正文

Vidu 又更新了，懂行的人都知道，这里的门道有多深。

针对主体性、一致性这样存在已久的棘手问题，是 Vidu 一直在持续突破的方向，目标就是「终结炼丹」。

我们试用了一天，对比了官方演示素材和亲测体验，发现一个重点：工程师们的努力只是一部分，真正上手起来，需要一些特殊的打开方式。

关注 AI 第一新媒体，率先获取 AI 前沿资讯和洞察

选取素材大有门道

AI 生成视频已经出来这么久了，基本的使用方式大家也都很熟悉：要么直接输入文字 prompt，要么用已经有的图片素材。

后一种方式主打的就是提高准确度，让生成的过程更可控。

Vidu 更新的 1.5 版本，上线了「多图参考」的功能，也是继续了这个路线：通过上传特定主体的不同角度或不同景别下的图片，Vidu 1.5 能实现 100%精准控制。

好啊，太好了，我跃跃欲试，卷起袖子就是干，别的不会，抄作业还不会吗——没想到，不是把图一股脑丢进去就万事大吉的。

一开始尝试的时候，我看到的案例是这样的：

把这几张图下载下来，再用同样的 prompt 复制一遍之后发现，我得到的是这样的：

眼睛会了，手不是很会。

不过有一说一，无论是海绵宝宝还是派大星，都没有特别明显的崩坏画面，应该还是我的打开方式有问题吧？

接下来我尝试了两个真人照片：梅西和科比。他们两个作为各自领域、各自时代不朽的传奇人物，素材更多——正面、背面、不同动作都可以找到。

动作拆开来看都是对的，就是切换时直接硬切——梅西这也太像拍金嗓子喉宝广告了😂

一定还是哪里没有正确打开。

在 Vidu 首发时，我对它在动画风格上的惊艳表现印象很深，或许它的长处在这呢，来试试看好了：

果然，果然是（偏科的）动画特长生。

这几个动画生成的过程里，我发现了第一个技巧：多图生成的时候，尽量选择同一主体、不同侧面、不同动作，但彼此之间差距不要太大。

梅西和科比的素材，也有不同侧面，但都来自不同的赛场照片，差异还是有的。而在生成动画视频的时候，我灵机一动，找到了设定集素材。

这干净的白底图，同一主体的各个侧面略微变化，简直是素材圣体。像下面亚古兽和太一的拥抱，算是比较稳定的了。

上面的亚古兽喷火也是直接用了设定集里的素材。

必须得说一句：原画师真是伟大，人类的创造力还是独一无二的啊。

另外还有一种素材效果比较好：AI 喂 AI。这是从最开头那只惊艳的演示视频里得到的灵感。当我原片复现之后，效果也很不错。

素材里，背景的花朵我说不好，可能是实拍的。但烟熏妆女孩和玻璃质感的金鱼大概率是 AI 跑图跑出来的，在视频里却意外地表现稳定。

还有一个小皇子与凤凰，这套素材的原图，AI 感蛮强——没有说 AI 图不好的意思，况且复现出来的效果相当不错。

考虑到这上面的案例，文字 prompt 都很潦草，就那么十来个字，更加说明选取什么样的素材用来生成，非常关键。

舍得花积分最重要

另一个关键要素是：舍得消费。

多图生成一个 8 秒的视频，要花 24 积分，算是 Vidu 里面消耗比较大的。

最早的几个视频，梅西、科比、小新，效果都勉勉强强，一度引发自我怀疑。但是等到十来个视频做完，两三百积分花出去，后续的出品水平越来越在线。

比如，上面是的小新是我在1020积分时跑的，而下面这个是在 600 积分时跑出来的小新：

以及积分 580 时跑出来的海绵宝宝：

同一套皇子和凤凰的材料，在 820 积分的时候，也大变样了。

Vidu 提供「重新创作」，非常方便，图片和 prompt 都直接原样照搬。而且我所有的 prompt 都写得很简单，不过十来个字。

唯一的变化就是积分，还是要舍得花积分，花的越多，效果越好。

「终结炼丹」是这次 Vidu 1.5 的野心：仅靠图片素材就能达到 LoRA 方案的效力。

理论上这是个极大的挑战：LoRA 建立在预训练模型的基础上，通常需要 20～100 段跟主体相关的视频素材，以及大量的时间训练、微调，来追求主体生成时的一致性。这当中还要克服过拟合的问题，各种细节缺失等等。

从 Vidu 1.5 的表现来讲，这个「炼丹」的过程已经被压缩到了一个可以接受的程度：三张图，几十秒，简单的指令。

只不过，用户仍然需要完成「最后一公里」，包括在素材选取上、prompting 上，总之，这都是跟模型磨合的过程。

One More thing

通常，现有素材越丰富，生成的表现越好。而最受欢迎、有着庞大素材量的，当然是那个男人：马斯克。

上面这个融合了「小李子」莱昂纳多经典举杯动作和马斯克的视频，一次生成就到位，无比丝滑。

神奇的是，我尝试了让马斯克分瑞士卷。第一次，他不为所动，一整个静止画面——好吧，那个时候积分还有 900 多，可能还没和模型混熟。后来又试了第二次：

为什么还不切？而且为什么那么犹豫？难道也发现分瑞士卷不是那么简单了?

等我又试了一些别的视频，换了一张瑞士卷的图，在只剩 500 积分的时候，又跑了一次：

不对劲，这个 AI 不对劲，这抗拒的样子是怎么回事，谁给 AI 喂了瑞士卷大考！