专栏名称: 白鲸出海
白鲸出海,泛互联网出海服务平台,白鲸专注于具备互联网属性的行业、公司、产品和服务的出海,包括应用、游戏、电商、区块链、智能手机及硬件、旅游、网络文学、影视、动漫、教育、体育和金融等。
目录
相关文章推荐
阿里开发者  ·  IDEA中使用DeepSeek满血版的手把手 ... ·  9 小时前  
阿里开发者  ·  LLM 联网搜索,到底是咋回事? ·  19 小时前  
百度智能云  ·  百度智能云xDeepSeek,最具性价比的D ... ·  3 天前  
51好读  ›  专栏  ›  白鲸出海

PixVerse再推新模型,生成能力跻身第一梯队?

白鲸出海  · 公众号  · 科技公司  · 2025-02-24 22:00

正文

PixVerse 不断加速,时隔 2 个月,再更新模型。


出品 | 白鲸出海编辑部

作者 | 张凯然

编辑 | 殷观晓

2 月 24 日,PixVerse 宣布推出最新视频生成模型 PixVerse-V4。根据官方的说法,新模型不仅可以生成更真实的画面,更自然的人物/物体,生成视频的速度也更快,而除模型之外,PixVerse 还推出了音频生成功能和风格重绘功能(Restyle)。
PixVerse 官方消息|图片来源:X

PixVerse 的母公司是爱诗科技,由前字节视觉技术负责人王长虎创立。我们曾在《 这一次,“大力出奇迹”的是快手 》和《 这个 AI 赛道,一个月内融资 4 笔,一大半的创始人是华人 》两个选题中,都对其有过观察。

作为“老朋友”,又发布了新产品,笔者自然也去测试了一番。


这次 PixVerse 成“优等生”了吗?
去年 7 月我们对 Kling、PixVerse 和 Vidu 三款产品做过一次测试,当时的测试结果是 Kling>Vidu>PixVerse, 而今天 PixVerse 的新模型似乎是打了一场翻身仗。
笔者首先使用同一个 Prompt 让 PixVerse-V3.5 和 V4 同时生成一段视频,进行纵向对比。然后再使用 Vidu、Sora 和 Minimax 的 HailuoAI(Kling 由于排队时间过长,截止发稿仍没有生成出视频来)也生成一段视频(相同 Prompt),来横向比较 PixVerse-V4 的效果。
(Prompt:Create a 5-second video of a person using an AI language learning app in a cozy living room. The user speaks into their phone, and a speech bubble appears with the AI’s real-time feedback. The scene should be warm, with natural lighting, and the app interface should be clearly visible on the phone screen。
中文翻译:制作一个人在舒适的客厅里使用人工智能语言学习应用程序的 5 秒视频。用户对着手机说话,AI 的实时反馈就会出现一个语音气泡。场景应温暖,自然光,应用界面应清晰地显示在手机屏幕上。测试中不对视频生成过程做任何其他的控制)
PixVerse V4(上),V3.5(下)
相比前代产品, 笔者认为 V4 提升最大的地方明显不符合物理规律的运动消失了,如手机分裂成 2 个 ,也包括人的坐姿。 V4 视频中的小男孩的坐姿相对自然,而 V3.5 的视频中,虽然没有呈现人物的全身,但可以明显看到男人腿、躯干的相对位置比较别扭,左腿的运动也很不自然。
而说到所有视频模型的“老大难”问题“对人物手部的刻画”,V4 模型也显著优于 V3.5 模型。 虽然男孩的手在移动当中出现了模糊的情况,但还是可以明显看出五个手指,没有“多指”或“粘连”的情况。而 V3.5 的视频中,男人手部交叠时双手的手指融合在了一起,左手移动时还带出了另一个手机,相当的出戏。
当然,文字生成难度较大,两者都有问题,而且,不论是 V4 还是 V3.5,也都没有呈现出应用界面。

生成声音需要额外输入 Prompt,Voice Prom pt: “Soft background music with occasional bird chirps outside, creating a cozy home atmosphere..”

除了视频,声音也是本次 PixVerse 更新的一个重点。但是,在笔者生成的视频当中, Prompt 中写到的轻音乐和鸟鸣,变成了心跳声和敲击声 ,不知道出了什么问题,但参考其他媒体的测试结果,声音生成功能,有时表现得是不错的。除此之外,本次更新 PixVerse 还推出 Auto Speech 功能,能让人物开口说话,还能对口型,但由于 Credits 的限制,笔者没有进行测试。
纵向对比的结果看,Pixverse-V4 相比确实比前代产品更强。而横向对比来看,PixVerse-V4 也能跻身第一梯队。
Sora
选用模型: Sora
相比 PixVerse,Sora 很讨巧地使用第一人称特写视角来满足呈现 App UI 的要求。虽然这种视角规避了对人物身体的呈现,但对手部的刻画却有了更细节的展示,从视频来看,无论是手指的数量、形状、持握手机的姿势都相当自然,尤其是拇指的动作呈现得很好。另外 Sora 的文字生成做得也更好,能看出来是英文单词。
但是 Sora 对提示词的遵循出了比较大的问题,没有客厅、气泡等 Prompt 中的重要元素。
Vidu

选用模型: Vidu1.5

Vidu 和 Pixverse 一样,呈现的也是人物全身的视角。从坐姿来看,Vidu 做得也不错,人物姿势自然,嘴部的运动也是其他产品都没有表现出来的,美中不足的是,人物的左臂穿过了沙发上搭着的毯子,有些出戏。而手部刻画上,Vidu 最初其实做得不错,但随着镜头旋转,似乎出现了多指的情况,呈现得也不清晰,手机背面也出现了闪烁的情况。
Hailuo

选用模型: T2V-01-Director

Hailuo 的效果个人感觉是最不尽如人意的一个,不仅人物的坐姿相当扭曲,手部及手机呈现的效果也相当出戏,整体效果不如 PixVerse-V4 和其他产品。
总结
就笔者主观判断和对呈现效果的统计来看,这几款产品中 PixVerse 和 Sora 为一档,但 PixVerse 对 Prompt 的还原度更高。而 Vidu 和 Hailuo 都有明显错误,呈现效果差于其他两款产品,而 Hailuo 的错误更多、更明显, 所以最终大概的结果为 PixVerse-V4>Sora>Vidu>Hailuo ,这么来看,PixVerse-V4 是相当有竞争力的。

除了生成效果之外,官方还表示,新模型大幅提升了视频的生成速度。从笔者的体验看,Pixverse 生成速度确实是最快,大约 5 秒之内就能生成视频,但 Hailuo、Sora 和 PixVerse 的生成速度也基本在 30 秒之内,并感觉不出太大的差异。

PixVerse 重大更新整理|白鲸出海制图

从 2024 年初上线至今,PixVerse 模型的版本已经更新了 6 次。而从去年夏天开始,Pixverse 基本上保持了 2 个月一更新的频率,虽然在我们 7 月份选题对视频模型的测试中,PixVerse-V2 的表现是远不如可灵和 Vidu 的,但是,经过多次快速的迭代,它的质量也追了上来。而除此之外,从多片段一致性,到运动控制,再到这一版模型的音频生成,PixVerse 在迭代模型本身能力的同时,也在兼顾可用性。
更多玩家涌入视频生成赛道,
但 GPT-3 时刻尚未来临
2025 年初至今,视频生成赛道 新闻整理|白鲸出海制图

2025 年初至今不到两个月时间,视频生成赛道就有 7 款新产品或新版本模型上线,其中不乏阿里、字节、Adobe 等音视频领域里的“头号玩家”。而且这些模型都自称在模型的稳定性、流畅性和一致性等基本能力上有了很大提升。而去年下半年社交媒体上火过的 AI 拥抱/亲吻,AI 舞蹈等,也反映着视频生成模型正在迈入“实用”的门槛。

但从今天对 PixVerse-V4 和其他几款模型的测试来看,笔者认为,虽然模型的基础能力确实有显著的提升,但几乎所有模型都或多或少存在着生成视频不太自然,物体相对运动关系出现错误等情况,除了少数的一些娱乐向场景,还很难应用到实际生产力场景中, 视频生成的 GPT-3 时刻尚未到来,但我们已看到曙光。

推荐阅读

一款伪直播应用,赚了百万美元

「9块9」的中国AI耳机,疯狂收割老外

不搭边消除,休闲玩法也能做出3000万以上月流水?

垫资百万美金过年,北美短剧公司老板:同行倒了不少

换个名字获客成本降到不足1美金,“大神”又推火了一个AI App?







请到「今天看啥」查看全文