专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  另外两件事[241215] ·  3 天前  
APPSO  ·  ChatGPT ... ·  5 天前  
APPSO  ·  苹果 2024 年度最佳 App ... ·  6 天前  
APPSO  ·  深夜狙击 ChatGPT,Google ... ·  6 天前  
51好读  ›  专栏  ›  APPSO

4K 视频生成!Google 版 Sora 深夜秀肌肉,再度狙击 Open AI

APPSO  · 公众号  · app  · 2024-12-17 07:13

主要观点总结

Google DeepMind 推出了新的视频模型 Veo 2 和 Imagen 3。Veo 2 具备高级视频制作功能,支持高分辨率,并改进了物理和动作理解,同时减少了错误生成。Imagen 3 能在多种艺术风格中更精确地转化文字描述为图像。两者都受到了高度评价,并伴随着新工具 Whisk 的推出,用于创作数字化产品。

关键观点总结

关键观点1: Veo 2模型的新功能

支持最高4K分辨率的视频制作,具备更真实的物理现象和人类表情模拟,降低了错误生成频率,并嵌入SynthID水印以增强安全性。

关键观点2: Imagen 3模型的突破

支持多种艺术风格,更精确地将文字描述转化为图像,生成更明亮、构图更协调的视觉作品。

关键观点3: Veo 2和Imagen 3的推出与测试

这两款产品已在多个国家推出,并进行了性能测试和对比,显示出其领先性能。DeepMind计划逐步将Veo 2功能引入YouTube Shorts等产品,并持续优化性能。

关键观点4: 新工具Whisk的推出

Whisk整合了Imagen 3模型和Gemini的视觉理解能力,用户可以通过导入或创作图像来表达特定主题、场景和风格需求,并创作数字化产品。


正文

就在刚刚,Google Deepmind 推出了新的视频模型 Veo 2 和 Imagen 3。
Google CEO Sundar Pichai 第一时间在 X 平台发文介绍了这两款产品:
我们非常荣幸推出 Veo 2,这款全新、最先进的视频模型(具备更强的真实世界物理与运动理解,支持最高 4K 分辨率)。

你可以在 VideoFX 上加入等候名单。

我们改进后的 Imagen 3 模型同样达到了行业领先的成果,并将于今天在 100 多个国家推出,届时将在 ImageFX 平台上线。

根据官方介绍,Veo 2 带来了多项重要突破:

支持制作高达 4K 分辨率的视频

能够识别指令中的摄像机控制,例如广角、第一人称视角和无人机拍摄

能更真实地模拟物理现象和人类表情变化
相比其他视频模型常见的「错误生成」问题(如多余手指或意外物体),Veo 2 显著降低了这类错误的出现频率,大幅提升了输出结果的真实度。
在安全性方面,所有由 Veo 2 生成的视频都会嵌入不可见的 SynthID 水印,便于识别其 AI 生成的属性。
Google Labs 的视频生成工具 VideoFX 已集成了 Veo 2 的新功能,同时扩大了用户访问范围。

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

不过,DeepMind 有意控制推广的速度,计划在明年将 Veo 2 的功能逐步引入 YouTube Shorts 等产品,以在扩展应用范围的同时确保模型质量和安全性。
在性能评测方面,Veo 2 展现出了领先优势。
在 Meta 发布的基准测试数据集 MovieGenBench 上,参与者观看了 1003 个提示及其对应的视频。结果显示,Veo 2 在整体用户偏好度和指令遵循准确性方面均位居榜首。
测试统一在 720p 分辨率下进行,其中 Veo 生成 8 秒视频,VideoGen 生成 10 秒视频,其他模型则生成 5 秒视频。评分者观看了所有视频的完整长度。
注意看,对比测试对象中也出现了国产 AI 视频模型(可灵 AI、Minimax)以及最新发布的 Sora Turbo。
所有比较均在 720p 分辨率下进行。Veo 的视频样本长度为 8 秒,VideoGen 的为 10 秒,其他模型的为 5 秒。评分者将看到完整视频长度。
尽管 Veo 2 取得了显著进步,但在生成真实、动态或复杂场景的视频时,仍面临着保持场景连贯性的挑战。DeepMind 表示将持续优化这些领域的性能。
与此同时,Imagen 3 也实现了重大突破。
新版本不仅支持创作多种艺术风格(包括现实主义、幻想、肖像等),能够更精确地将文字描述转化为图像,以及生成更明亮、构图更协调的视觉作品。
向左滑动查看更多内容
即日起,Imagen 3 将通过 Google Labs 的 ImageFX 在全球超过 100 个国家推出。
附上体验地址:
https://labs.google/fx/tools/image-fx/unsupported-country
此外,Google 还推出了名为 Whisk 的工具。
该工具在技术层面整合了最新的 Imagen 3 模型与 Gemini 的视觉理解能力。
Gemini 模型可以自动为图像生成详细描述,这些描述随后会作为输入传递给 Imagen 3。

用户可以通过导入或创作图像,表达特定主题、场景和风格需求,并将这些元素融合重组,创作数字化产品,比如毛绒玩具、珐琅别针或贴纸等。
今天 DeepMind 在核心技术上的突破,无疑比 OpenAI 简单的功能叠加更具价值,从嵌入 SynthID 水印到采取渐进式推广策略,也让这次更新显得格外厚重。
真正 AI 产品的更新,不仅在于它能做什么,更在于它如何做,以及为谁而做。