谷歌刚刚发布了其最新的视频生成模型 Veo 2 和图像生成模型 Imagen 3,并推出了一项全新的图像生成实验工具 Whisk,有趣的是根据谷歌的测试,OpenAI Sora成为表现最差的主流视频生成模型,可灵成为视频生成顶流之一,海螺表现也不错
Veo 2:号称最先进的视频生成模型
Veo 2 能够生成各种主题和风格的高质量视频。在与顶尖模型的对比测试中,由人类评估者进行评判,Veo 2 取得了最先进的成果。它对真实世界物理规律以及人类动作和表情的细微之处有了更深入的理解,从而提高了视频的整体细节和真实感
Veo 2 理解电影语言的独特之处。用户可以指定类型、镜头和电影特效,Veo 2 能够以高达
4K 的分辨率
和数分钟的时长来呈现效果。无论是低角度的跟踪镜头,还是科学家使用显微镜的特写镜头,Veo 2 都能轻松实现。通过提示词中的 “18mm 镜头” 或 “浅景深”,Veo 2 可以分别生成广角镜头或背景模糊、突出主体的效果
Veo 2 的核心优势包括:
高质量和控制力
: 能够忠实地遵循简单和复杂的指令,并逼真地模拟真实世界的物理规律以及各种视觉风格
增强的真实感和保真度
: 在细节、真实度和伪影减少方面显著优于其他人工智能视频模型
先进的运动能力
: 由于对物理规律的理解以及执行详细指令的能力,Veo 能够准确地呈现运动
更强大的相机控制选项
: 准确地解读指令,以创建各种镜头风格、角度、运动以及它们的组合
Veo 2 在 Meta 发布的
MovieGenBench 基准数据
集上,对 1003 个提示词及其对应的视频进行了人类评估。结果显示,Veo 2 在整体偏好和准确遵循提示词的能力方面表现最佳,对比模型为Sora,Meta的Movie Gen,可灵,海螺
Overall Preference(总体偏好)
绿色部分
代表
Veo
模型被用户偏好。
红色部分
代表
其他模型
被用户偏好。
白色部分
代表结果打平(Ties)
Prompt Adherence(对提示的遵循程度)
•同样,绿色代表 Veo 模型遵循提示的表现。红色代表其他模型表现更好。白色表示平局
从谷歌这个测试中我们发现,OpenAI的 Sora 是几款主流的视频生成模型中相对表现最差的,可灵是谷歌最大的竞争对手,在总体偏好和指令遵循偏好两个指标上,如果把平手和偏好指标数据加起来,可灵是几款视频模型中唯一相对Veo超过50%的偏好选择的模型,哈哈,
可灵获得谷歌的认证
与传统视频模型经常“虚构”多余细节(如多余的手指或意外的物体)不同,Veo 2 产生这些问题的频率较低,使其输出更逼真。
Imagen 3
谷歌也改进了其 Imagen 3 图像生成模型,现在可以生成更明亮、构图更好的图像。它能够以更高的精度渲染更多样化的艺术风格,从照片写实主义到印象主义,从抽象到动漫。升级后的 Imagen 3 模型能够更忠实地遵循提示词,并呈现更丰富的细节和纹理
提示:背景有霓虹绿色灯光、浅景深的亚洲女性肖像
提示:一张特写的微距摄影素材照片,画面中一颗草莓被精细地雕刻成蜂鸟的形状,正处于飞翔中,翅膀模糊成动态效果,仿佛正在吸食一朵色彩鲜艳的管状花朵的花蜜。背景是郁郁葱葱、色彩丰富的花园,柔和的虚化效果(散景)营造出梦幻般的氛围。图像极其精细,采用浅景深确保草莓蜂鸟的锐利对焦,而背景则柔和淡出。高分辨率、专业摄影师风格,柔和的光线使场景细节表现得淋漓尽致,专业的色彩分级进一步增强了鲜艳的色彩,使画面呈现出卓越的清晰度。景深使蜂鸟与花朵在虚化背景下格外突出
提示:以高预算动画电影风格呈现,画面充满生动、绘画般的质感,展现出广阔的星际景观,紫色、蓝色与金色的发光星云交织辉映。主角是一名身披星辰图案飘逸斗篷的小女孩,伫立在一座晶莹剔透的悬崖边缘。悬崖下,熔化的星尘之河在银河中蜿蜒流淌,金色光芒动态闪烁。背景中,高耸的星座以神话生物的形态悬浮,轮廓由发光的点状线条勾勒而成。
流星划破广袤的天空,为画面增添了动感与璀璨的光辉。镜头角度略微升高,既捕捉到了浩瀚银河的壮丽,也展现出主角旅程的孤独与神秘感
Imagen 3 可以生成各种格式和风格的高质量图像,从逼真的风景到质感丰富的油画或奇思妙想的粘土动画场景
提示:雄狮在梦幻般的丛林中傲然咆哮的详细插图,紫色白色线条艺术背景,浅紫色纸张纹理上的剪贴画
提示:黏土动画场景。一个老年妇女的中广角镜头。她穿着飘逸的衣服。她正站在一个郁郁葱葱的花园里,用一个橙色的浇水壶给植物浇水
在与顶尖图像生成模型的并排比较中,由人类评估者进行评判,Imagen 3 取得了最先进的成果