专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
相关文章推荐
航空工业  ·  国产载人飞艇新突破! ... ·  昨天  
航空工业  ·  外场日志:与AC332共成长 ·  3 天前  
51好读  ›  专栏  ›  AI科技大本营

上线百天用户破千万!Vidu 2.0 要让人人都成为新海诚

AI科技大本营  · 公众号  ·  · 2025-01-15 22:25

正文

作者 | Eric Harrington
出品丨AI 科技大本营(ID:rgznai100)

2014 年,B 站应该是在热播《东京喰种》和《Fate/stay night UBW》 ,比较现充的二次元们在看《四月是你的谎言》和《月刊少女野崎君》,剩下的“核心”老宅男们,则永远记住了《白箱》——这是一个讲动画制作过程的职场番,当年看完之后,我才知道动画里一个看似简单的转身,背后往往需要原画、动画、中割、动检、上色……十几个流程反复推敲。

当然,我们是科技频道,不是动漫频道,你没有走错。开篇提到这个话题,是因为生数科技今天发布的 Vidu 2.0 想要重新定义这个过程。

www.vidu.cn

第一次认识 Vidu 的时候 ,我对它的最大印象就是,Vidu 是动漫生成领域的强者,没有之一。

这次的 Vidu 2.0 不仅能让 2D 人物自然地转头并保持面部稳定,能让 3D 角色做出媲美手工调教的动作,更能驾驭多个角色的复杂互动。 简单来说,它正在尝试用 10 秒钟,完成一个动画工作室可能需要几天才能完成的工作

最近各大厂商都在发布自己最新的多模态模型,给人一种「百模大战 2.0」的感觉,所以我们废话不多说,直接介绍 Vidu 这次升级到底有哪些亮点:
还是那么稳!

断层优秀(ダントツ) ”——这是一位日本 AI 创作者对 Vidu 2.0 的评价。他用一个颇具创意的场景测试了 Vidu 的多主体能力:让一个女孩骑着巴哥犬去摧毁东京塔。

在展示过程中,他特别强调「 参考生视频 」功能的简单好用:“ 只需要设置两张图片,并使用提示词指定场景就可以了。

这个视频展示的「 多主体一致性 」生成其实是 Vidu 1.5 全球首发 的拿手绝活 ,但 2.0 升级之后,感觉 1.5 已经被甩到九霄云外了。

在动画制作领域,“ 稳定性 ”是最基础也是最关键的要求。目前市面上视频生成工具上线了非常多的风格模版,比如动漫、中国风等,但是对于真正的用户而言,用起来最为关键的不只是风格多样,而是在视频生成过程中始终保持风格一致,这才是产业化商 业化内容落地的核心。

下一个案例:

Vidu 2.0 有更好的风格保持力, 男生手中的花与画面背景的花是一致的,油画风格贯穿始终。其余模型都出现了“ 虽然风格还 ”但大幅度崩坏,降维/丢失细节,或是风格直接变化的情况——比如 Sora 直接生成了另一个人出来,帅哥你谁?

动起来了!

说到动漫就离不开日本,日本网友一直对 Vidu 模型的使用挺积极,平时刷推都能看到一堆 Case。这里分享一位日本网友 @patata1216 使用内测版 Vidu 2.0 生成的视频:

在 2D 动画制作中,转头是一个看似简单却很考验功力的动作。 因为它不仅需要保持角色的面部特征,还 要让整个转动过程看起来自然流畅。

这次 Vidu 2.0 镜头运动表现上更加自然流畅 ,对于镜头运动指令的理解也更到位,在电影中常见的上下左右推拉旋转镜头运动,Vidu 2.0 在同类视频生成模型中表现更佳。看这段视频中,全程没有出现脸“崩掉”的现象。

动画中的“ 崩坏 ”,其实要分两种情况。一种是我们在《猫和老鼠》或《火影忍者》中看到的夸张形变——比如汤姆猫被杰瑞踩扁,或是佩恩战那段让人印象深刻的“ 崩坏 ”画面。

这些是动画师刻意为之的艺术表现,为的是强调动作的力量感和戏剧效果。

但另一种“ ”则是纯粹的技术问题:角色特征不稳定、面部变形、画风突变,这些都会严重影响观感。

而在 Vidu 2.0 生成的整个转头过程中,面部特征保持稳定,动作流畅自然,既不会出现意外的崩坏,也不会变得僵硬呆板。

再来一个 case,提示词是“镜头顺时针旋转”。

Vidu2.0 对于顺时针旋转的理解更为优秀,超出了大部分模型。对比来看,Runway 旋转镜头理解到位,但是人物在旋转过程中偏静态,有点类似于动态 PPT;Pika 运动幅度大但对部分镜头理解有问题,将旋转理解为人物自身的旋转而不是镜头的旋转。
至于 Sora,则 完全没有理解旋转的要求。

此外, 继 2024 年 10 月 Vidu 首次上线首尾帧功能,此次 Vidu 2.0 首尾帧的性能又有了进一步提升。

相对于 Vidu 1.5,Vidu 2.0 兼顾了想象力和稳定性,实现了两者更好的平衡。对于首尾帧中间的过渡更加丝滑流畅,画面稳定性更强,同时在首尾帧中间的场景切换、镜头切换更具有想象力,类似某种镜头“黑魔法”,通过首尾帧生成的镜头语言切换,体现更多故事背后的故事。

下面是个 3D 动漫的演示,提示词是“镜头 zoom in,圣诞老人慢慢地变身成一只可爱的怪兽”。

加量还降价,比快更快

在视频大模型行业一直存在着不可能三角,很难同时做到“又快又好又划算”。但是若想要实现视频大模型的普及,就需要满足用户的“既要又要”。

Vidu 2.0 把 720P 视频的生成成本压到了 每秒 0.258 元 ,这只是行业平均价格的 43%

目前市场上的视频模型和文本模型一样,采用的是订阅制,除了不菲的订阅费以外,每个月还会有 积分 的限制。

以 Runway 为例,产出一条素材需要花费 25 积分,每月 625 积分的话只能产出 25 条 5 秒左右的素材片段,而做 1 分钟的广告片至少需要可能 5 分钟甚至更多的素材,每月 625 积分是远远不够用的,若生成质量不高,还需要不断地提升会员权益,陷入 不断买积分的循环黑洞 中。

实际上在 Sora 刚上线的时就有海外用户吐槽 Sora 价格“太贵了”,生成一个 5 秒 480P 视频成本为 0.5 美元,折合人民币 3.63 元,生成一段 1080p 视频成本更是高达 27 元。不过事实上 Sora 的真正问题不是贵,而是太菜了。

现在,以 1 分钟的短片的制作为例,通常传统广告片制作需要经过平面、动效、剪辑等流程,需要雇佣剪辑师、画师、特效师等等,即使是一个 4-5 人的小团队,按照普通出品水准,1 分钟广告片的行业平均成本至少也在 3 000-5000 左右。

而采用 Vidu 2.0 生成 1 分钟商业广告片素材的成本在 3-5 元左右,即便考虑素材的有效率和后期剪辑配音等成本,1 分钟广告片的成本也大约为 100 元左右, 相比传统制作广告,成本下降了 30-50 倍

价格降低之 后,速度也没落下。 相比于之前版本,Vidu 2.0 生成速度进一步提升,从 30 秒到 10 秒,提升了三倍。

排队时间画面

对于广告制作、影视动画等专业内容创作场景来说,Vidu 2.0 将带来显著的效率提升。

还是以广告业的实际情况为例,传统广告制作流程繁杂,需要经过策划、拍摄、后期剪辑、配音等环节。一般来说光拍摄周期可能在 3-5 天,后期制作更是耗时耗力,从 5-15 天不等,遇到复杂的动作特效或者画面特效需要更长的时间,总体看,一条 1 分钟广告片的交付周期在 1 个月左右。

Vidu 则彻底重塑了流程,尤其在 Vidu 2.0 的加速下,理想状态下, 仅需花费 5 分钟就能跑出足够 1 分钟时长的视频素材 ,这不单单直接省去了最耗时费劲的实拍环节,还能够节省 90% 的后期制作环节。

短期来看 Vidu 2.0 已推进视频生成进入“秒级时代”,随着生成时间的快速提升,长期来看,视频生成逐步走向实时生成,未来将诞生全新的内容互动形式,创造类似互动短剧、互动游戏等全新用户体验。
全球都在用的最强动漫模型!

Vidu 此次首次对外公布了运营数据,自 7 月底全球上线以来,Vidu 仅用了 20 天用户数就突破百万,上线 100 天用户数就突破千万, 截至到目前 Vidu 平台累计生成的视频数突破亿条,其中“参考生视频”功能仅上线三个月,用户利用该功能生成的视频数就已达到千万级别。 据目前媒体已公开数据来看,Vidu 是目前为止全球增速最快的 AI 视频模型工具。

虽然 Vidu 未公开截至目前的用户数,但相比市面上已知的竞品情况,爱诗科技于 11 月 18 日公布用户数超 1200 万,讨论度较高的可灵于 12 月 10 日公布的用户数超 600 万,而相比之下,Vidu 在 10 月底就实现了千万用户数 ,用户规模远超可灵。没想到,一向低调的 Vidu 在用户规模上已领先同行一个身位。

从用户覆盖地区看,目前 Vidu 已服务了全球超过 200 个国家和地区,用户规模位列全球第一梯队。 每天在世界不同国家,不同年龄层职业的用户都在使用着这款来自中国的视频模型工具。

前面已经提到,日本二次元对这款模型格外关注,推特上比较火的是这位 35 万粉丝的 852話(hakoniwa) @8co28,天天捣鼓各种 AI 动画:







请到「今天看啥」查看全文