专栏名称: 白鲸出海

白鲸出海，泛互联网出海服务平台，白鲸专注于具备互联网属性的行业、公司、产品和服务的出海，包括应用、游戏、电商、区块链、智能手机及硬件、旅游、网络文学、影视、动漫、教育、体育和金融等。

PixVerse再推新模型，生成能力跻身第一梯队？

白鲸出海 · 公众号 · 科技公司 · 2025-02-24 22:00

正文

PixVerse 不断加速，时隔 2 个月，再更新模型。

出品 | 白鲸出海编辑部

作者 | 张凯然

编辑 | 殷观晓

2 月 24 日，PixVerse 宣布推出最新视频生成模型 PixVerse-V4。根据官方的说法，新模型不仅可以生成更真实的画面，更自然的人物/物体，生成视频的速度也更快，而除模型之外，PixVerse 还推出了音频生成功能和风格重绘功能（Restyle）。

PixVerse 官方消息｜图片来源：X

PixVerse 的母公司是爱诗科技，由前字节视觉技术负责人王长虎创立。我们曾在《这一次，“大力出奇迹”的是快手》和《这个 AI 赛道，一个月内融资 4 笔，一大半的创始人是华人》两个选题中，都对其有过观察。

作为“老朋友”，又发布了新产品，笔者自然也去测试了一番。

这次 PixVerse 成“优等生”了吗？

去年 7 月我们对 Kling、PixVerse 和 Vidu 三款产品做过一次测试，当时的测试结果是 Kling>Vidu>PixVerse， 而今天 PixVerse 的新模型似乎是打了一场翻身仗。

笔者首先使用同一个 Prompt 让 PixVerse-V3.5 和 V4 同时生成一段视频，进行纵向对比。然后再使用 Vidu、Sora 和 Minimax 的 HailuoAI（Kling 由于排队时间过长，截止发稿仍没有生成出视频来）也生成一段视频（相同 Prompt），来横向比较 PixVerse-V4 的效果。

（Prompt：Create a 5-second video of a person using an AI language learning app in a cozy living room. The user speaks into their phone, and a speech bubble appears with the AI’s real-time feedback. The scene should be warm, with natural lighting, and the app interface should be clearly visible on the phone screen。

中文翻译：制作一个人在舒适的客厅里使用人工智能语言学习应用程序的 5 秒视频。用户对着手机说话，AI 的实时反馈就会出现一个语音气泡。场景应温暖，自然光，应用界面应清晰地显示在手机屏幕上。测试中不对视频生成过程做任何其他的控制）

PixVerse V4（上），V3.5（下）

相比前代产品， 笔者认为 V4 提升最大的地方明显不符合物理规律的运动消失了，如手机分裂成 2 个 ，也包括人的坐姿。 V4 视频中的小男孩的坐姿相对自然，而 V3.5 的视频中，虽然没有呈现人物的全身，但可以明显看到男人腿、躯干的相对位置比较别扭，左腿的运动也很不自然。

而说到所有视频模型的“老大难”问题“对人物手部的刻画”，V4 模型也显著优于 V3.5 模型。 虽然男孩的手在移动当中出现了模糊的情况，但还是可以明显看出五个手指，没有“多指”或“粘连”的情况。而 V3.5 的视频中，男人手部交叠时双手的手指融合在了一起，左手移动时还带出了另一个手机，相当的出戏。

当然，文字生成难度较大，两者都有问题，而且，不论是 V4 还是 V3.5，也都没有呈现出应用界面。

生成声音需要额外输入 Prompt，Voice Prom pt： “Soft background music with occasional bird chirps outside, creating a cozy home atmosphere..”

除了视频，声音也是本次 PixVerse 更新的一个重点。但是，在笔者生成的视频当中， Prompt 中写到的轻音乐和鸟鸣，变成了心跳声和敲击声 ，不知道出了什么问题，但参考其他媒体的测试结果，声音生成功能，有时表现得是不错的。除此之外，本次更新 PixVerse 还推出 Auto Speech 功能，能让人物开口说话，还能对口型，但由于 Credits 的限制，笔者没有进行测试。

纵向对比的结果看，Pixverse-V4 相比确实比前代产品更强。而横向对比来看，PixVerse-V4 也能跻身第一梯队。

Sora

选用模型： Sora

相比 PixVerse，Sora 很讨巧地使用第一人称特写视角来满足呈现 App UI 的要求。虽然这种视角规避了对人物身体的呈现，但对手部的刻画却有了更细节的展示，从视频来看，无论是手指的数量、形状、持握手机的姿势都相当自然，尤其是拇指的动作呈现得很好。另外 Sora 的文字生成做得也更好，能看出来是英文单词。

但是 Sora 对提示词的遵循出了比较大的问题，没有客厅、气泡等 Prompt 中的重要元素。

Vidu

选用模型： Vidu1.5

Vidu 和 Pixverse 一样，呈现的也是人物全身的视角。从坐姿来看，Vidu 做得也不错，人物姿势自然，嘴部的运动也是其他产品都没有表现出来的，美中不足的是，人物的左臂穿过了沙发上搭着的毯子，有些出戏。而手部刻画上，Vidu 最初其实做得不错，但随着镜头旋转，似乎出现了多指的情况，呈现得也不清晰，手机背面也出现了闪烁的情况。

Hailuo

选用模型： T2V-01-Director

Hailuo 的效果个人感觉是最不尽如人意的一个，不仅人物的坐姿相当扭曲，手部及手机呈现的效果也相当出戏，整体效果不如 PixVerse-V4 和其他产品。

总结

就笔者主观判断和对呈现效果的统计来看，这几款产品中 PixVerse 和 Sora 为一档，但 PixVerse 对 Prompt 的还原度更高。而 Vidu 和 Hailuo 都有明显错误，呈现效果差于其他两款产品，而 Hailuo 的错误更多、更明显， 所以最终大概的结果为 PixVerse-V4>Sora>Vidu>Hailuo ，这么来看，PixVerse-V4 是相当有竞争力的。

除了生成效果之外，官方还表示，新模型大幅提升了视频的生成速度。从笔者的体验看，Pixverse 生成速度确实是最快，大约 5 秒之内就能生成视频，但 Hailuo、Sora 和 PixVerse 的生成速度也基本在 30 秒之内，并感觉不出太大的差异。

PixVerse 重大更新整理｜白鲸出海制图

从 2024 年初上线至今，PixVerse 模型的版本已经更新了 6 次。而从去年夏天开始，Pixverse 基本上保持了 2 个月一更新的频率，虽然在我们 7 月份选题对视频模型的测试中，PixVerse-V2 的表现是远不如可灵和 Vidu 的，但是，经过多次快速的迭代，它的质量也追了上来。而除此之外，从多片段一致性，到运动控制，再到这一版模型的音频生成，PixVerse 在迭代模型本身能力的同时，也在兼顾可用性。

更多玩家涌入视频生成赛道，

但 GPT-3 时刻尚未来临

2025 年初至今，视频生成赛道新闻整理｜白鲸出海制图

2025 年初至今不到两个月时间，视频生成赛道就有 7 款新产品或新版本模型上线，其中不乏阿里、字节、Adobe 等音视频领域里的“头号玩家”。而且这些模型都自称在模型的稳定性、流畅性和一致性等基本能力上有了很大提升。而去年下半年社交媒体上火过的 AI 拥抱/亲吻，AI 舞蹈等，也反映着视频生成模型正在迈入“实用”的门槛。

但从今天对 PixVerse-V4 和其他几款模型的测试来看，笔者认为，虽然模型的基础能力确实有显著的提升，但几乎所有模型都或多或少存在着生成视频不太自然，物体相对运动关系出现错误等情况，除了少数的一些娱乐向场景，还很难应用到实际生产力场景中， 视频生成的 GPT-3 时刻尚未到来，但我们已看到曙光。

PixVerse再推新模型，生成能力跻身第一梯队？

正文

一款伪直播应用，赚了百万美元

「9块9」的中国AI耳机，疯狂收割老外

不搭边消除，休闲玩法也能做出3000万以上月流水？

垫资百万美金过年，北美短剧公司老板：同行倒了不少

换个名字获客成本降到不足1美金，“大神”又推火了一个AI App？

请到「今天看啥」查看全文