专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

上线百天用户破千万！Vidu 2.0 要让人人都成为新海诚

AI科技大本营 · 公众号 · · 2025-01-15 22:25

正文

作者 | Eric Harrington

出品丨AI 科技大本营（ID：rgznai100）

2014 年，B 站应该是在热播《东京喰种》和《Fate/stay night UBW》，比较现充的二次元们在看《四月是你的谎言》和《月刊少女野崎君》，剩下的“核心”老宅男们，则永远记住了《白箱》——这是一个讲动画制作过程的职场番，当年看完之后，我才知道动画里一个看似简单的转身，背后往往需要原画、动画、中割、动检、上色……十几个流程反复推敲。

当然，我们是科技频道，不是动漫频道，你没有走错。开篇提到这个话题，是因为生数科技今天发布的 Vidu 2.0 想要重新定义这个过程。

www.vidu.cn

第一次认识 Vidu 的时候，我对它的最大印象就是，Vidu 是动漫生成领域的强者，没有之一。

这次的 Vidu 2.0 不仅能让 2D 人物自然地转头并保持面部稳定，能让 3D 角色做出媲美手工调教的动作，更能驾驭多个角色的复杂互动。 简单来说，它正在尝试用 10 秒钟，完成一个动画工作室可能需要几天才能完成的工作 。

最近各大厂商都在发布自己最新的多模态模型，给人一种「百模大战 2.0」的感觉，所以我们废话不多说，直接介绍 Vidu 这次升级到底有哪些亮点：

还是那么稳！

“ 断层优秀（ダントツ） ”——这是一位日本 AI 创作者对 Vidu 2.0 的评价。他用一个颇具创意的场景测试了 Vidu 的多主体能力：让一个女孩骑着巴哥犬去摧毁东京塔。

在展示过程中，他特别强调「参考生视频」功能的简单好用：“ 只需要设置两张图片，并使用提示词指定场景就可以了。 ”

这个视频展示的「多主体一致性」生成其实是 Vidu 1.5 全球首发 的拿手绝活，但 2.0 升级之后，感觉 1.5 已经被甩到九霄云外了。

在动画制作领域，“ 稳定性 ”是最基础也是最关键的要求。目前市面上视频生成工具上线了非常多的风格模版，比如动漫、中国风等，但是对于真正的用户而言，用起来最为关键的不只是风格多样，而是在视频生成过程中始终保持风格一致，这才是产业化商业化内容落地的核心。

下一个案例：

Vidu 2.0 有更好的风格保持力，男生手中的花与画面背景的花是一致的，油画风格贯穿始终。其余模型都出现了“ 虽然风格还行 ”但大幅度崩坏，降维/丢失细节，或是风格直接变化的情况——比如 Sora 直接生成了另一个人出来，帅哥你谁？

动起来了！

说到动漫就离不开日本，日本网友一直对 Vidu 模型的使用挺积极，平时刷推都能看到一堆 Case。这里分享一位日本网友 @patata1216 使用内测版 Vidu 2.0 生成的视频：

在 2D 动画制作中，转头是一个看似简单却很考验功力的动作。因为它不仅需要保持角色的面部特征，还要让整个转动过程看起来自然流畅。

这次 Vidu 2.0 在镜头运动表现上更加自然流畅 ，对于镜头运动指令的理解也更到位，在电影中常见的上下左右推拉旋转镜头运动，Vidu 2.0 在同类视频生成模型中表现更佳。看这段视频中，全程没有出现脸“崩掉”的现象。

动画中的“ 崩坏 ”，其实要分两种情况。一种是我们在《猫和老鼠》或《火影忍者》中看到的夸张形变——比如汤姆猫被杰瑞踩扁，或是佩恩战那段让人印象深刻的“ 崩坏 ”画面。

这些是动画师刻意为之的艺术表现，为的是强调动作的力量感和戏剧效果。

但另一种“ 崩坏 ”则是纯粹的技术问题：角色特征不稳定、面部变形、画风突变，这些都会严重影响观感。

而在 Vidu 2.0 生成的整个转头过程中，面部特征保持稳定，动作流畅自然，既不会出现意外的崩坏，也不会变得僵硬呆板。

再来一个 case，提示词是“镜头顺时针旋转”。

Vidu2.0 对于顺时针旋转的理解更为优秀，超出了大部分模型。对比来看，Runway 旋转镜头理解到位，但是人物在旋转过程中偏静态，有点类似于动态 PPT；Pika 运动幅度大但对部分镜头理解有问题，将旋转理解为人物自身的旋转而不是镜头的旋转。

至于 Sora，则完全没有理解旋转的要求。

此外，继 2024 年 10 月 Vidu 首次上线首尾帧功能，此次 Vidu 2.0 首尾帧的性能又有了进一步提升。

相对于 Vidu 1.5，Vidu 2.0 兼顾了想象力和稳定性，实现了两者更好的平衡。对于首尾帧中间的过渡更加丝滑流畅，画面稳定性更强，同时在首尾帧中间的场景切换、镜头切换更具有想象力，类似某种镜头“黑魔法”，通过首尾帧生成的镜头语言切换，体现更多故事背后的故事。

下面是个 3D 动漫的演示，提示词是“镜头 zoom in，圣诞老人慢慢地变身成一只可爱的怪兽”。

加量还降价，比快更快

在视频大模型行业一直存在着不可能三角，很难同时做到“又快又好又划算”。但是若想要实现视频大模型的普及，就需要满足用户的“既要又要”。

Vidu 2.0 把 720P 视频的生成成本压到了 每秒 0.258 元 ，这只是行业平均价格的 43% 。

目前市场上的视频模型和文本模型一样，采用的是订阅制，除了不菲的订阅费以外，每个月还会有积分的限制。

以 Runway 为例，产出一条素材需要花费 25 积分，每月 625 积分的话只能产出 25 条 5 秒左右的素材片段，而做 1 分钟的广告片至少需要可能 5 分钟甚至更多的素材，每月 625 积分是远远不够用的，若生成质量不高，还需要不断地提升会员权益，陷入 不断买积分的循环黑洞 中。

实际上在 Sora 刚上线的时就有海外用户吐槽 Sora 价格“太贵了”，生成一个 5 秒 480P 视频成本为 0.5 美元，折合人民币 3.63 元，生成一段 1080p 视频成本更是高达 27 元。不过事实上 Sora 的真正问题不是贵，而是太菜了。

现在，以 1 分钟的短片的制作为例，通常传统广告片制作需要经过平面、动效、剪辑等流程，需要雇佣剪辑师、画师、特效师等等，即使是一个 4-5 人的小团队，按照普通出品水准，1 分钟广告片的行业平均成本至少也在 3 000-5000 元左右。

而采用 Vidu 2.0 生成 1 分钟商业广告片素材的成本在 3-5 元左右，即便考虑素材的有效率和后期剪辑配音等成本，1 分钟广告片的成本也大约为 100 元左右， 相比传统制作广告，成本下降了 30-50 倍 。

价格降低之后，速度也没落下。相比于之前版本，Vidu 2.0 生成速度进一步提升，从 30 秒到 10 秒，提升了三倍。

排队时间画面

对于广告制作、影视动画等专业内容创作场景来说，Vidu 2.0 将带来显著的效率提升。

还是以广告业的实际情况为例，传统广告制作流程繁杂，需要经过策划、拍摄、后期剪辑、配音等环节。一般来说光拍摄周期可能在 3-5 天，后期制作更是耗时耗力，从 5-15 天不等，遇到复杂的动作特效或者画面特效需要更长的时间，总体看，一条 1 分钟广告片的交付周期在 1 个月左右。

Vidu 则彻底重塑了流程，尤其在 Vidu 2.0 的加速下，理想状态下， 仅需花费 5 分钟就能跑出足够 1 分钟时长的视频素材 ，这不单单直接省去了最耗时费劲的实拍环节，还能够节省 90% 的后期制作环节。

短期来看 Vidu 2.0 已推进视频生成进入“秒级时代”，随着生成时间的快速提升，长期来看，视频生成逐步走向实时生成，未来将诞生全新的内容互动形式，创造类似互动短剧、互动游戏等全新用户体验。

全球都在用的最强动漫模型！

Vidu 此次首次对外公布了运营数据，自 7 月底全球上线以来，Vidu 仅用了 20 天用户数就突破百万，上线 100 天用户数就突破千万， 截至到目前 Vidu 平台累计生成的视频数突破亿条，其中“参考生视频”功能仅上线三个月，用户利用该功能生成的视频数就已达到千万级别。 据目前媒体已公开数据来看，Vidu 是目前为止全球增速最快的 AI 视频模型工具。

虽然 Vidu 未公开截至目前的用户数，但相比市面上已知的竞品情况，爱诗科技于 11 月 18 日公布用户数超 1200 万，讨论度较高的可灵于 12 月 10 日公布的用户数超 600 万，而相比之下，Vidu 在 10 月底就实现了千万用户数 ，用户规模远超可灵。没想到，一向低调的 Vidu 在用户规模上已领先同行一个身位。

从用户覆盖地区看，目前 Vidu 已服务了全球超过 200 个国家和地区，用户规模位列全球第一梯队。 每天在世界不同国家，不同年龄层职业的用户都在使用着这款来自中国的视频模型工具。

前面已经提到，日本二次元对这款模型格外关注，推特上比较火的是这位 35 万粉丝的 852話(hakoniwa) @8co28，天天捣鼓各种 AI 动画：

上线百天用户破千万！Vidu 2.0 要让人人都成为新海诚

正文

请到「今天看啥」查看全文