再度狙击OpenAI！“谷歌版”Sora深夜上线，4k视频生成时代来了

人工智能学家 · 公众号 · AI · 2024-12-18 15:39

正文

来源：学术头条

今日凌晨，谷歌在此狙击 OpenAI——宣布推出全新视频生成模型 Veo 2 和最新版本的图像生成模型 Imagen 3，称两款模型在视频与图像生成上达到了 SOTA，能够为用户带来更高质量、更细致的创作体验。

Veo 2：SOTA 视频生成

Veo 2 是谷歌最新的视频生成模型，在多个主题和风格下展现出了高质量的生成效果。据人类评价者对比测试结果，Veo 2 在 画质、细节和真实性 上均达到 SOTA 水准。

Veo 2 对现实物理、人体动作及表情的细微差异有更深入的理解，使生成内容更加真实。它能够识别电影语言，支持用户通过提示词定制场景效果，例如指定镜头类型、画面风格或电影特效。

Veo 2 可生成 分辨率高达 4K、时长延长至数分钟 的视频。无论是要求一个穿过场景中间的低角度跟踪镜头，或者一个通过显微镜观察的科学家面部特写镜头，Veo 2 都能完美呈现。在提示中建议“18mm 镜头”，Veo 2 就会知道如何制作这种镜头所擅长的广角镜头，或者通过在提示中输入“浅景深”来模糊背景并聚焦于拍摄对象。

视频｜由 Veo 2 生成，未经修改。

同时，Veo 2 极大 降低了生成视频中产生“幻觉”即不必要细节 （如多余的手指或意外物体）的问题，增强了输出的真实性。

为了确保生成技术的安全性和负责任的使用，Veo 2 继续采用 SynthID 无形水印技术，有助于识别内容为 AI 生成，从而有效降低误导性信息传播和错误归因的风险。

研究团队表示，Veo 2 的功能将逐步通过 VideoFX 、YouTube、Vertex AI 等工具面向更多用户开放，并计划于明年拓展至 YouTube Shorts 等产品。

Imagen 3：图像生成模型再升级

谷歌还对 Imagen 3 图像生成模型进行了全面升级，现在该模型的生成效果更加明亮、构图更精美，并支持更多样化的艺术风格，从写实主义到印象派，从抽象风格到动漫风格。升级后的模型在细节和材质表现上更为丰富，并且对提示词的响应更为准确。

在人类评价者的对比测试中，Imagen 3 在生成质量上超过了多个领先图像生成模型，达到了 SOTA 水准。

从今日起，Imagen 3 已通过 ImageFX 工具在全球 100 多个国家开放。用户可访问 ImageFX 平台，立即体验最新的图像生成技术。

图｜Imagen 3 的丰富细节和图像质量构图示例。

此外，谷歌也推出了一款基于图像的创意可视化工具 Whisk，其允许用户输入或创建图像，传达心中的主题、场景和风格。然后，用户可以将它们组合在一起，重新混合，创造出独一无二的作品，从数字毛绒玩具到珐琅徽章或贴纸，Whisk 可满足各种创意需求。

Whisk 的技术核心结合了最新 Imagen 3 模型和 Gemini 模型的视觉理解能力。Gemini 模型自动为用户上传的图像生成详细描述，并将这些描述输入 Imagen 3，从而实现对场景、风格和主体的灵活重新混合，为创意带来全新可能。

视频｜Whisk 可让用户快速地将想法形象化并重新混合。

阅读报告全文，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》
未来今日研究所：2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成：十年回顾
《以人为中心的大型语言模型（LLM）研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告
理解世界还是预测未来？世界模型的综合综述
Google Cloud CSA2024 AI 与安全状况调研报告
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇
Deepmind：AI 加速科学创新发现的黄金时代报告
PitchBookNVCA2024 年第三季度全球风险投资监测报告
德科 2024 年未来全球劳动力报告
高工咨询 2024 年协作机器人产业发展蓝皮书
国际能源署 IEA2024 年全球能源效率报告
基因慧基因行业蓝皮书 2024 - 2025
普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战
中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书
中移智库 2024 先进感知新技术及新应用白皮书
智次方研究院 2025 中国 AIoT 产业全景图谱报告
未来今日研究所：2024 技术趋势报告 - 人工智能篇
国际电联：迈向衡量数字经济的通用框架的路线图
联合国粮食与农业组织：2024 年世界粮食安全和营养状况
大语言模型综述
李飞飞等，AI 智能体：探索多模式交互的前景综述
哈尔滨工业大学 - ChatGPT 调研报告
2024《美国核部署战略报告》最新文件
清华大学：AIGC 发展研究 3.0 发布版 b 版
OpenAI：2024 年 OpenAI o1 大模型技术报告
Verizon2024 年世界支付安全报告
皇家学会哲学学报从复杂系统角度评估人工智能风险
复旦大学大模型 AI 代理的兴起和潜力：综述
经合组织 OECD2024 年气候行动监测报告
Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态
2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch
《全球金融稳定报告》把舵定航不确定性、人工智能与金融稳定
瑞士洛桑联邦理工学院《人工智能中的 - 创造力：进展与挑战》
《你所需要知道的理 - 论：人工智能、人类认知与决策》牛津大学最新 53 页报告
世界经济论坛新兴技术时代的网络弹性导航：应对复杂挑战的协作解决方案 2024
ADL 理特咨询 2024 汽车出行未来展望报告
2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道
科学时代的大语言模型中的人工智能
Gartner2025 年重要战略技术趋势报告
CBInsights2024 年第三季度全球人工智能投融资状况报告
TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻
天津大学 2024 大模型轻量化技术研究报告
欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版
美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告
国际原子能机构 2024 年世界聚变展望报告
复旦大学 2024 大语言模型的能力边界与发展思考报告
安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图
YouGov2024 美国公众对人工智能 AI 的态度调研报告
麦肯锡中国报告：《中国与世界》完整版
麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域
Project Sid，一个旨在模拟多智能体交互以研究 AI 文明的项目
德国研究与创新专家委员会德国研究创新与科技成果报告
2024 年欧洲关键产业的科技重塑研究报告
智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体
ActivateConsulting 2025 年顶级技术和媒体发展趋势报告

再度狙击OpenAI！“谷歌版”Sora深夜上线，4k视频生成时代来了

正文

Veo 2：SOTA 视频生成

Imagen 3：图像生成模型再升级

请到「今天看啥」查看全文