出品丨AI 科技大本营(ID:rgznai100)
2014 年,B 站应该是在热播《东京喰种》和《Fate/stay night UBW》
,比较现充的二次元们在看《四月是你的谎言》和《月刊少女野崎君》,剩下的“核心”老宅男们,则永远记住了《白箱》——这是一个讲动画制作过程的职场番,当年看完之后,我才知道动画里一个看似简单的转身,背后往往需要原画、动画、中割、动检、上色……十几个流程反复推敲。
当然,我们是科技频道,不是动漫频道,你没有走错。开篇提到这个话题,是因为生数科技今天发布的
Vidu 2.0
想要重新定义这个过程。
www.vidu.cn
第一次认识 Vidu 的时候
,我对它的最大印象就是,Vidu 是动漫生成领域的强者,没有之一。
这次的 Vidu 2.0 不仅能让 2D 人物自然地转头并保持面部稳定,能让 3D 角色做出媲美手工调教的动作,更能驾驭多个角色的复杂互动。
简单来说,它正在尝试用 10 秒钟,完成一个动画工作室可能需要几天才能完成的工作
。
最近各大厂商都在发布自己最新的多模态模型,给人一种「百模大战 2.0」的感觉,所以我们废话不多说,直接介绍 Vidu 这次升级到底有哪些亮点:
“
断层优秀(ダントツ)
”——这是一位日本 AI 创作者对 Vidu 2.0 的评价。他用一个颇具创意的场景测试了 Vidu 的多主体能力:让一个女孩骑着巴哥犬去摧毁东京塔。
在展示过程中,他特别强调「
参考生视频
」功能的简单好用:“
只需要设置两张图片,并使用提示词指定场景就可以了。
”
这个视频展示的「
多主体一致性
」生成其实是
Vidu 1.5
全球首发
的拿手绝活
,但 2.0 升级之后,感觉 1.5 已经被甩到九霄云外了。
在动画制作领域,“
稳定性
”是最基础也是最关键的要求。目前市面上视频生成工具上线了非常多的风格模版,比如动漫、中国风等,但是对于真正的用户而言,用起来最为关键的不只是风格多样,而是在视频生成过程中始终保持风格一致,这才是产业化商
业化内容落地的核心。
下一个案例:
Vidu 2.0 有更好的风格保持力, 男生手中的花与画面背景的花是一致的,油画风格贯穿始终。其余模型都出现了“
虽然风格还
行
”但大幅度崩坏,降维/丢失细节,或是风格直接变化的情况——比如 Sora 直接生成了另一个人出来,帅哥你谁?
动起来了!
说到动漫就离不开日本,日本网友一直对 Vidu 模型的使用挺积极,平时刷推都能看到一堆 Case。这里分享一位日本网友 @patata1216 使用内测版 Vidu 2.0 生成的视频:
在 2D 动画制作中,转头是一个看似简单却很考验功力的动作。
因为它不仅需要保持角色的面部特征,还
要让整个转动过程看起来自然流畅。
这次 Vidu 2.0
在
镜头运动表现上更加自然流畅
,对于镜头运动指令的理解也更到位,在电影中常见的上下左右推拉旋转镜头运动,Vidu 2.0 在同类视频生成模型中表现更佳。看这段视频中,全程没有出现脸“崩掉”的现象。
动画中的“
崩坏
”,其实要分两种情况。一种是我们在《猫和老鼠》或《火影忍者》中看到的夸张形变——比如汤姆猫被杰瑞踩扁,或是佩恩战那段让人印象深刻的“
崩坏
”画面。
这些是动画师刻意为之的艺术表现,为的是强调动作的力量感和戏剧效果。
但另一种“
崩
坏
”则是纯粹的技术问题:角色特征不稳定、面部变形、画风突变,这些都会严重影响观感。
而在
Vidu 2.0 生成的整个转头过程中,面部特征保持稳定,动作流畅自然,既不会出现意外的崩坏,也不会变得僵硬呆板。
再来一个 case,提示词是“镜头顺时针旋转”。
Vidu2.0 对于顺时针旋转的理解更为优秀,超出了大部分模型。对比来看,Runway 旋转镜头理解到位,但是人物在旋转过程中偏静态,有点类似于动态 PPT;Pika 运动幅度大但对部分镜头理解有问题,将旋转理解为人物自身的旋转而不是镜头的旋转。
此外,
继 2024 年 10 月 Vidu 首次上线首尾帧功能,此次 Vidu 2.0 首尾帧的性能又有了进一步提升。
相对于 Vidu 1.5,Vidu 2.0 兼顾了想象力和稳定性,实现了两者更好的平衡。对于首尾帧中间的过渡更加丝滑流畅,画面稳定性更强,同时在首尾帧中间的场景切换、镜头切换更具有想象力,类似某种镜头“黑魔法”,通过首尾帧生成的镜头语言切换,体现更多故事背后的故事。
下面是个 3D 动漫的演示,提示词是“镜头 zoom in,圣诞老人慢慢地变身成一只可爱的怪兽”。
在视频大模型行业一直存在着不可能三角,很难同时做到“又快又好又划算”。但是若想要实现视频大模型的普及,就需要满足用户的“既要又要”。
Vidu 2.0 把 720P 视频的生成成本压到了
每秒 0.258 元
,这只是行业平均价格的
43%
。
目前市场上的视频模型和文本模型一样,采用的是订阅制,除了不菲的订阅费以外,每个月还会有
积分
的限制。
以 Runway 为例,产出一条素材需要花费 25 积分,每月 625 积分的话只能产出 25 条 5 秒左右的素材片段,而做 1 分钟的广告片至少需要可能 5 分钟甚至更多的素材,每月 625 积分是远远不够用的,若生成质量不高,还需要不断地提升会员权益,陷入
不断买积分的循环黑洞
中。
实际上在 Sora 刚上线的时就有海外用户吐槽 Sora 价格“太贵了”,生成一个 5 秒 480P 视频成本为 0.5 美元,折合人民币 3.63 元,生成一段 1080p 视频成本更是高达 27 元。不过事实上 Sora 的真正问题不是贵,而是太菜了。
现在,以 1
分钟的短片的制作为例,通常传统广告片制作需要经过平面、动效、剪辑等流程,需要雇佣剪辑师、画师、特效师等等,即使是一个 4-5
人的小团队,按照普通出品水准,1
分钟广告片的行业平均成本至少也在 3
000-5000
元
左右。
而采用 Vidu 2.0 生成 1 分钟商业广告片素材的成本在 3-5 元左右,即便考虑素材的有效率和后期剪辑配音等成本,1 分钟广告片的成本也大约为 100 元左右,
相比传统制作广告,成本下降了 30-50 倍
。
价格降低之
后,速度也没落下。
相比于之前版本,Vidu 2.0 生成速度进一步提升,从 30 秒到 10 秒,提升了三倍。
对于广告制作、影视动画等专业内容创作场景来说,Vidu 2.0 将带来显著的效率提升。
还是以广告业的实际情况为例,传统广告制作流程繁杂,需要经过策划、拍摄、后期剪辑、配音等环节。一般来说光拍摄周期可能在 3-5 天,后期制作更是耗时耗力,从 5-15 天不等,遇到复杂的动作特效或者画面特效需要更长的时间,总体看,一条 1 分钟广告片的交付周期在 1 个月左右。
Vidu 则彻底重塑了流程,尤其在 Vidu 2.0 的加速下,理想状态下,
仅需花费 5 分钟就能跑出足够 1 分钟时长的视频素材
,这不单单直接省去了最耗时费劲的实拍环节,还能够节省 90% 的后期制作环节。
短期来看 Vidu 2.0 已推进视频生成进入“秒级时代”,随着生成时间的快速提升,长期来看,视频生成逐步走向实时生成,未来将诞生全新的内容互动形式,创造类似互动短剧、互动游戏等全新用户体验。
Vidu 此次首次对外公布了运营数据,自 7 月底全球上线以来,Vidu 仅用了 20 天用户数就突破百万,上线 100 天用户数就突破千万,
截至到目前 Vidu 平台累计生成的视频数突破亿条,其中“参考生视频”功能仅上线三个月,用户利用该功能生成的视频数就已达到千万级别。
据目前媒体已公开数据来看,Vidu 是目前为止全球增速最快的 AI 视频模型工具。
虽然 Vidu 未公开截至目前的用户数,但相比市面上已知的竞品情况,爱诗科技于 11 月 18 日公布用户数超 1200 万,讨论度较高的可灵于 12 月 10 日公布的用户数超 600 万,而相比之下,Vidu
在 10 月底就实现了千万用户数
,用户规模远超可灵。没想到,一向低调的 Vidu 在用户规模上已领先同行一个身位。
从用户覆盖地区看,目前 Vidu 已服务了全球超过 200 个国家和地区,用户规模位列全球第一梯队。
每天在世界不同国家,不同年龄层职业的用户都在使用着这款来自中国的视频模型工具。
前面已经提到,日本二次元对这款模型格外关注,推特上比较火的是这位 35 万粉丝的 852話(hakoniwa) @8co28,天天捣鼓各种 AI 动画: