专栏名称: Dots机构投资者社区

机构投资者组成的社区，深度点评财经事件

谷歌版Sora来了，4K高清暴击OpenAI！视频生图新卷王，更理解物理世界

Dots机构投资者社区 · 公众号 · · 2024-12-18 08:15

正文

本文转自微信公众号“新智元”，作者：新智元。

编辑：编辑部 HYZ

【导读】 OpenAI的Sora翻车后，迎来谷歌的暴击：昨天深夜，Veo 2、Imagen 3、Whisk一套组合拳打来，AI视频和生图根据，再次被谷歌改变了。

谷歌再次爆打OpenAI。

全新发布的Veo 2，实测效果已经被许多人公认「超越Sora」。

作为谷歌最先进的视频生成模型，Veo 2更好地理解现实世界物理和运动的细微差别，理解电影摄影语言的能力（如镜头类型和效果），分辨率高达4K。

同时放出的，还有Imagen 3图像生成模型，和用图像而非文本作为prompt的工具Whisk。

无论是在LLM上，还是在视觉创作上，谷歌正在缩小和OpenAI的差距。

举个栗子，我们用相同的提示「A pair of hands skillfully slicing a ripe tomato on a wooden cutting board」生成一个切西红柿的视频。

在Veo 2中，西红柿不仅会随着刀子的前后移动而移动，并且其横断面清晰可见。切片虽略显厚实，但前后始终保持一致，而且还能正确地叠放起来。

相比之下，Sora不仅照着手指疯狂下刀，而且切了半天的西红柿依然「完好无损」……

Veo 2

Sora

难怪有网友说，在理解物理世界和一致性上，Veo 2已经到了next level。

高达4K的分辨率，大大提升的细节和真实感，人体动作和表情的改善，以及更好的物理建模和时间一致性，都让Veo 2达到了顶级AI视频模型的级别。

在Meta的Movie Gen Bench上，Veo已经可以和Kling、Minimax、Sora掰手腕了

Veo 2强势升级，4K电影级画质

想象一下，只用简单文字描述，就能生成高达4K、超长分钟的精美视频。

Veo 2正是这样一个颠覆性的创新。

它可以遵循简单和复杂的指令，并在物理模拟过程中，展现出令人惊叹的生成质量。

镜头如清风般轻柔地穿梭在粉彩色的木制蜂箱之间，勤劳的蜜蜂翩翩起舞，时隐时现于画框之中。画面缓缓停驻在场景中央那位气质优雅的养蜂人身上，他身着的洁白养蜂服在金色的午后阳光中熠熠生辉。他轻抬着一罐琥珀色的蜂蜜，略微倾斜着让阳光透过蜜液折射出温暖的光晕。在他身后，一片高大的向日葵随着微风轻轻摇曳，金黄的花瓣在温暖的阳光照耀下绽放出柔和的光芒。镜头徐徐上移，展现出一座典雅的乡村老宅，薄荷绿色的百叶窗点缀其间，摇曳的树影在墙面上织就出斑驳的光影图案。这组照片采用35毫米镜头搭配柯达Portra 400胶片摄制，浸润在金色光线中的每一个细节——养蜂人的手套、晶莹的蜂蜜罐、饱经岁月的蜂箱木纹，都呈现出丰富而细腻的质感层次

现在，Veo 2可以像电影摄影师一样和我们交流。不必再费力和它讨论技术参数、猜测Gemini的标题，只要用习惯的术语说出想要的内容即可。

Veo 2生成的经典追车场景

另外，我们还可以进行更精确的相机控制，比如下图就是一个包含第一人称视角、转移焦点的提示。

可以看到，车内的皮革内饰、车速表等高频细节，给人留下极其深刻的印象。

通过人类评估，Veo 2模型在与几大顶尖视频模型的对比中，脱颖而出。

它不仅仅是简单地生成视频，更是对现实世界物理规律、人类动作，表情方面得到了极致的理解。

对此，谷歌总结了新模型的三大亮点：

首先是，增强的真实感和保真度。

相较于其他的AI视频模型，Veo 2在细节、真实感、伪影减少方面得到了显著的改进。

其次是，领先的运动能力。

Veo 2能以精确的方式生成运动画面，这主要归功于它对物理学的理解、和遵循详细指令的能力。

第三个是，更强大的相机控制选项。

它能精确理解指令，创建各种拍摄风格、角度、运动效果，以及这些元素的组合。

对于创作者而言，Veo 2就像是一个无所不能的AI导演。你可以指定电影类型、镜头风格，甚至是特定的电影技巧，它皆可完美呈现。

比如这位在显微镜前科学家的面部特写。

富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生，实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写，细腻的横向推移突显出她眉宇间深深刻画的忧思与焦虑。她专注地俯身于实验台前，目不转睛地透过显微镜观察，手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中，防护服呈现出令人不安的黄色，与实验室冰冷的不锈钢器械相互映衬，无声地诉说着事态的严峻和未知的威胁。景深精确控制下，镜头对准她眼中流露的恐惧，完美传达出她肩负的重大压力与责任

再比如，一个从场景中间滑过的低角度追踪镜头。

晨光徐徐升起，为这幅精心布置的早餐图景镀上一层温暖的金边。金黄色的枫糖浆如丝绸般缓缓流淌，轻柔地浇注在层层叠起的蓬松松饼上，每一片松饼都袅袅升起缕缕暖意盎然的水汽。特写镜头捕捉着金黄酥脆的培根，只见它滋滋作响，细小的油珠在阳光下化作金色光点翩翩起舞。醇香的咖啡优雅地旋转注入通透的玻璃杯中，逐渐在杯中漾开层层叠叠的焦糖色咖啡奶泡。最后，镜头如潜水般俯入一枚刚切开的鲜橙，以震撼的微距视角展现出饱满晶莹、汁水四溢的果肉纹理

更令人惊叹的是，Veo 2对专业术语的理解。

只需在提示中输入「18mm lens」，Veo 2就得知创建拍摄广角镜头，或在提示中加入「浅景深」（shallow depth of field）它便可模糊背景，突出主体。