专栏名称: 果壳
果壳网(Guokr.com)是开放、多元的泛科技兴趣社区。
目录
相关文章推荐
宇宙解码  ·  晒被子后有“太阳味”,是螨虫被烤焦了吗? ·  9 小时前  
科普中国  ·  劝你多吃芋头的理由,1个就够了! ·  昨天  
51好读  ›  专栏  ›  果壳

Sora实测拉垮,Veo趁机上位

果壳  · 公众号  · 科学  · 2024-12-17 20:00

主要观点总结

Google DeepMind发布了升级版的视频生成模型Veo 2,作为今年Google I/O大会上发布的Veo的升级版。该模型在视频生成方面有了显著的提升,特别是在生成视频的质量和物理引擎的优化方面。与OpenAI的Sora相比,Veo 2能够生成更高分辨率、更长时间的视频,并且具有更强的镜头感。此外,Veo 2还能模拟更真实的物理现象和人类动作表情。目前,Veo 2还未开放使用,但已被集成进Google Labs的视频生成工具VideoFX,并计划明年集成到YouTube Shorts等视频编辑工具中。

关键观点总结

关键观点1: Veo 2作为Google DeepMind的新产品发布,是Veo的升级版

Veo 2现在能生成两分钟高分辨率(4k)的视频片段,相比Sora有更高的分辨率和更长的生成时间。

关键观点2: Veo 2在视频生成质量上有显著进步

DeepMind表示Veo 2最主要的进步在生成视频的质量上,包括对现实世界互动规律更深入的理解,能更真实地复现物理现象和人类动作表情。

关键观点3: Veo 2具有更强的镜头感

Veo 2能接受各种摄影要求的提示,从镜头类型到摄影剪辑方式都有针对性优化。

关键观点4: Veo 2目前尚未开放使用

用户可以通过访问特定网址加入候补名单以等待使用。目前,Veo 2已被集成进Google Labs的视频生成工具VideoFX,并计划明年集成到其他视频编辑工具中。


正文

昨天,Google DeepMind发布了视频生成模型Veo 2,作为今年五月Google I/O上发布的Veo的升级版。


和OpenAI的摧枯拉朽比起来,DeepMind已经很久没动静了。上一次DeepMind上新闻是参与开发Gemini,再上一次,还是大战李世石的AlphaGo。


而这次,DeepMind作为Google最强实验室之一,在Sora显露疲态之时,拿出了对标OpenAI的产品(虽然实装水平还不能确定)。


Sora拉垮,Veo上位


八天前,OpenAI在连续12天的直播发布会中突然放出Sora Turbo,更快、更高清,还能对生成的视频进行微调和剪辑。


然而Sora向用户大规模开放后,实测效果却并不那么理想,和发布会上的Demo出现了买家秀和卖家秀的云泥之别……


除了不能生成人脸、不能上传人脸之外,Sora再一次无法理解人类的手,生成形态诡异数量成谜的手指头:



对物理世界的模拟不到位,看久了甚至有种晕车的感觉,用新发布的各种剪辑功能也救不回来:



有人发帖说,Sora几乎就没有对的时候,发布会上和网站上的演示视频绝对是手动挑选和调试的。


Sora效果太差了,基本没法生成准确的东西,亏我还花了钱订阅|Reddit


在Sora大翻车的这个节点,Veo2的发布就很有针对性了。


据DeepMind的博客,Veo 2现在可以生成两分钟的视频片段,分辨率高达4k(4096 x 2160 像素),而与之相比,Sora最高支持1080p,最多生成20秒的视频。



Veo的特长


单从时长和清晰度来看,Veo 2占了上风,但DeepMind表示,Veo 2最主要的进步还是在生成视频的质量上。


第一,是物理引擎的优化。Veo 2对现实世界的互动规律有更深入的理解,能更好地复现物理现象以及人类的动作和表情,生成的视频更有真实感。


同一个刀子切番茄的prompt,Sora生成的视频是下面这样:


@Jay_AIrapper


Veo 2生成的视频是下面这样,虽然刀工差了点,但番茄和人手都挺正常的:


@Jay_AIrapper


第二,是更强的镜头感。Veo 2可以接受各种和摄影要求相关的prompts,从镜头类型,到景深指定,再到广角蒙太奇固定机位等摄影剪辑方式,Veo 2都做了针对性的优化。


DeepMind在博客中演示,输入18mm镜头、浅景深、低角度跟踪镜头穿过场景中央,就能得到像下面这样专业的电影效果:


视频由Veo 2生成,未经修改|DeepMind


“虽然视频模型经常会产生‘幻觉’,生成多余的细节(比如乱七八糟的手指头或者不该存在的物体),但Veo 2产生幻觉的频率比较低,因此输出的视频更逼真。”DeepMind在博客中写道。


而从目前发布的demo来看,Veo 2生成的画面确实有种干净清爽不杂乱的感觉,对液体和固体的质感模拟得也很到位。




此外,Veo 2输出的视频也包含一个不可见的SynthID水印,表示这些视频是AI生成的。


啥时候能用?


尽管看着很美,但是用不着的咱们可以先当作没有。


目前,Veo 2还没有开放使用,访问以下网址可以加入候补名单https://deepmind.google/technologies/veo/veo-2/。


Veo 2没有作为一个单独的文生图工具发布,而是被集成进了Google Labs的视频生成工具VideoFX。Google表示,下一步,他们会继续扩大Veo 2的容量,让更多用户用上,明年还将把Veo 2集成到旗下的其他视频编辑工具里,比如YouTube Shorts。


这一批的文生视频模型demo效果都特别好,但是实际大家用上又是另一回事,毕竟Sora没交到用户手里的时候,大家觉得也是挺牛的。


作者:翻翻

编辑:odette

封面图来源:DeepMind



本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]