专栏名称: AI领域技术栈

人工智能领域技术：计算机视觉、自然语言处理、深度学习、语音识别、生物识别、大数据、图像识别、机器人过程自动化、知识图谱、人机交互、强化学习、神经网络、决策树、语音合成、虚拟代理、自主无人系统技术、自动驾驶、脑机接口、语义理解、遗传算法

谷歌版Sora震撼登场，4K高清视频生成技术引领AI新纪元！

AI领域技术栈 · 公众号 · · 2024-12-18 22:51

正文

阅读原文小猫动图

在AI技术日新月异的今天，每一次的技术革新都如同巨石投入平静的湖面，激起层层波澜。就在不久前，OpenAI的Sora还在视频生成领域占据着一席之地，然而，一场来自谷歌的“暴击”彻底改变了这一格局。全新发布的Veo 2、Imagen 3以及Whisk一套组合拳，再次将AI视频和图像生成的标杆推向了新的高度。

谷歌Veo 2：超越Sora，4K高清视频生成的新王者

就在人们还在对Sora的视频生成能力啧啧称奇时，谷歌Veo 2的横空出世，如同一颗璀璨的星辰，照亮了AI视频生成的天空。作为谷歌最先进的视频生成模型，Veo 2不仅理解了现实世界物理和运动的细微差别，更具备了理解电影摄影语言的能力，如镜头类型和效果，分辨率更是高达4K。

想象一下，只需用简单的文字描述，Veo 2就能生成一段长达数分钟、精美绝伦的4K视频。这不仅仅是技术的革新，更是对创作方式的颠覆。在Veo 2的生成视频中，每一个细节都栩栩如生，仿佛让观众置身于电影之中。

在对比测试中，Veo 2的表现更是让人惊叹不已。以相同的提示“一双巧手在木制砧板上熟练地切着一个熟透的西红柿”为例，Veo 2生成的视频中，西红柿随着刀子的前后移动而移动，横断面清晰可见，切片虽然略显厚实，但前后始终保持一致，而且还能正确地叠放起来。相比之下，Sora则显得力不从心，西红柿在疯狂的切割下依然“完好无损”。

Veo 2不仅在物理世界和一致性上达到了新的高度，更在细节、真实感和保真度上实现了显著的改进。它生成的视频不仅画质超群，更能展现出细腻的人体动作和表情。在Meta的Movie Gen Bench上，Veo 2已经能够与Kling、Minimax、Sora等顶尖视频模型一较高下，甚至在某些方面更胜一筹。

电影级的视觉体验：Veo 2的三大亮点

Veo 2之所以能够在AI视频生成领域脱颖而出，离不开其三大亮点：增强的真实感和保真度、领先的运动能力以及更强大的相机控制选项。

首先，在真实感和保真度方面，Veo 2相较于其他的AI视频模型有着显著的优势。它生成的视频细节丰富、真实感强，伪影现象大幅减少。这使得Veo 2生成的视频更加逼真、更加引人入胜。

其次，在运动能力方面，Veo 2同样表现出色。它能够以精确的方式生成运动画面，这主要得益于其对物理学的深刻理解和遵循详细指令的能力。无论是快速移动的车辆还是缓慢摇曳的树叶，Veo 2都能生成出流畅而自然的画面效果。

最后，在相机控制选项方面，Veo 2更是无所不能。它能够精确理解指令，创建各种拍摄风格、角度、运动效果以及这些元素的组合。对于创作者而言，Veo 2就像是一个无所不能的AI导演，只需要指定电影类型、镜头风格甚至是特定的电影技巧，它就能完美呈现。

Imagen 3：颜色明亮，构图更精准

除了Veo 2之外，谷歌还同时发布了全新升级的Imagen 3图像生成模型。这次升级堪称革命性，不仅提升了图像的整体质感，更使得构图更为精准。

Imagen 3生成的图像颜色明亮、色彩饱满，给人一种焕然一新的感觉。同时，它在构图方面也有着出色的表现。无论是风景照还是人物照，Imagen 3都能根据指令生成出构图合理、美观大方的图像。这使得Imagen 3在图像生成领域同样具有极高的竞争力。

谷歌版Sora震撼登场，4K高清视频生成技术引领AI新纪元！

正文

请到「今天看啥」查看全文