专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
APPSO  ·  17 岁高中生写了个神级 ... ·  昨天  
APPSO  ·  OpenAI ... ·  3 天前  
APPSO  ·  苹果广告又翻车,给 AI ... ·  3 天前  
51好读  ›  专栏  ›  APPSO

给马斯克上了瑞士卷大考后,我终于拿捏这个国产 AI 视频模型的最强新功能

APPSO  · 公众号  · app  · 2024-11-16 11:58

正文

Vidu 又更新了,懂行的人都知道,这里的门道有多深。
针对主体性、一致性这样存在已久的棘手问题,是 Vidu 一直在持续突破的方向,目标就是「终结炼丹」。
我们试用了一天,对比了官方演示素材和亲测体验,发现一个重点:工程师们的努力只是一部分,真正上手起来,需要一些特殊的打开方式。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
选取素材大有门道
AI 生成视频已经出来这么久了,基本的使用方式大家也都很熟悉:要么直接输入文字 prompt,要么用已经有的图片素材。
后一种方式主打的就是提高准确度,让生成的过程更可控。
Vidu 更新的 1.5 版本,上线了「多图参考」的功能,也是继续了这个路线:通过上传特定主体的不同角度或不同景别下的图片,Vidu 1.5 能实现 100%精准控制。

好啊,太好了,我跃跃欲试,卷起袖子就是干,别的不会,抄作业还不会吗——没想到,不是把图一股脑丢进去就万事大吉的。
一开始尝试的时候,我看到的案例是这样的:
把这几张图下载下来,再用同样的 prompt 复制一遍之后发现,我得到的是这样的:
眼睛会了,手不是很会。
不过有一说一,无论是海绵宝宝还是派大星,都没有特别明显的崩坏画面,应该还是我的打开方式有问题吧?
接下来我尝试了两个真人照片:梅西和科比。他们两个作为各自领域、各自时代不朽的传奇人物,素材更多——正面、背面、不同动作都可以找到。

动作拆开来看都是对的,就是切换时直接硬切——梅西这也太像拍金嗓子喉宝广告了😂
一定还是哪里没有正确打开。
在 Vidu 首发时,我对它在动画风格上的惊艳表现印象很深,或许它的长处在这呢,来试试看好了:

果然,果然是(偏科的)动画特长生。
这几个动画生成的过程里,我发现了第一个技巧:多图生成的时候,尽量选择同一主体、不同侧面、不同动作,但彼此之间差距不要太大。
梅西和科比的素材,也有不同侧面,但都来自不同的赛场照片,差异还是有的。而在生成动画视频的时候,我灵机一动,找到了设定集素材。
这干净的白底图,同一主体的各个侧面略微变化,简直是素材圣体。像下面亚古兽和太一的拥抱,算是比较稳定的了。

上面的亚古兽喷火也是直接用了设定集里的素材。
必须得说一句:原画师真是伟大,人类的创造力还是独一无二的啊。
另外还有一种素材效果比较好:AI 喂 AI。这是从最开头那只惊艳的演示视频里得到的灵感。当我原片复现之后,效果也很不错。

素材里,背景的花朵我说不好,可能是实拍的。但烟熏妆女孩和玻璃质感的金鱼大概率是 AI 跑图跑出来的,在视频里却意外地表现稳定。
还有一个小皇子与凤凰,这套素材的原图,AI 感蛮强——没有说 AI 图不好的意思,况且复现出来的效果相当不错。

考虑到这上面的案例,文字 prompt 都很潦草,就那么十来个字,更加说明选取什么样的素材用来生成,非常关键。
舍得花积分最重要
另一个关键要素是:舍得消费。
多图生成一个 8 秒的视频,要花 24 积分,算是 Vidu 里面消耗比较大的。
最早的几个视频,梅西、科比、小新,效果都勉勉强强,一度引发自我怀疑。但是等到十来个视频做完,两三百积分花出去,后续的出品水平越来越在线。
比如,上面是的小新是我在1020积分时跑的,而下面这个是在 600 积分时跑出来的小新:

以及积分 580 时跑出来的海绵宝宝:

同一套皇子和凤凰的材料,在 820 积分的时候,也大变样了。

Vidu 提供「重新创作」,非常方便,图片和 prompt 都直接原样照搬。而且我所有的 prompt 都写得很简单,不过十来个字。
唯一的变化就是积分,还是要舍得花积分,花的越多,效果越好。
「终结炼丹」是这次 Vidu 1.5 的野心:仅靠图片素材就能达到 LoRA 方案的效力。
理论上这是个极大的挑战:LoRA 建立在预训练模型的基础上,通常需要 20~100 段跟主体相关的视频素材,以及大量的时间训练、微调,来追求主体生成时的一致性。这当中还要克服过拟合的问题,各种细节缺失等等。
从 Vidu 1.5 的表现来讲,这个「炼丹」的过程已经被压缩到了一个可以接受的程度:三张图,几十秒,简单的指令。
只不过,用户仍然需要完成「最后一公里」,包括在素材选取上、prompting 上,总之,这都是跟模型磨合的过程。
One More thing
通常,现有素材越丰富,生成的表现越好。而最受欢迎、有着庞大素材量的,当然是那个男人:马斯克。
上面这个融合了「小李子」莱昂纳多经典举杯动作和马斯克的视频,一次生成就到位,无比丝滑。
神奇的是,我尝试了让马斯克分瑞士卷。第一次,他不为所动,一整个静止画面——好吧,那个时候积分还有 900 多,可能还没和模型混熟。后来又试了第二次:
为什么还不切?而且为什么那么犹豫?难道也发现分瑞士卷不是那么简单了?
等我又试了一些别的视频,换了一张瑞士卷的图,在只剩 500 积分的时候,又跑了一次:
不对劲,这个 AI 不对劲,这抗拒的样子是怎么回事,谁给 AI 喂了瑞士卷大考!