还在谈文生视频？谷歌已经进入 Next Level，原 Sora 负责人领军世界模型项目

AI范儿 · 公众号 · · 2025-01-07 09:29

主要观点总结

Google组建新团队开发可模拟现实世界的AI模型，隶属于Google DeepMind。该团队将由曾参与开发OpenAI视频生成工具Sora的联合负责人Tim Brooks领导，并与Google的其他AI团队如Gemini、Veo和Genie合作。新团队的目标是基于大型生成模型模拟世界，解决关键新问题并将模型算力提升至最高水平。此技术可用于创作互动媒体和构建真实的机器人训练环境，但面临创意行业态度复杂、版权问题等挑战。

关键观点总结

关键观点1: Google组建新团队开发模拟现实世界的AI模型

新团队由Tim Brooks领导，将隶属于Google DeepMind，并与其他AI团队如Gemini、Veo和Genie合作，旨在解决关键新问题并将模型算力提升至最高水平。

关键观点2: 世界模型的应用和重要性

世界模型将在视觉推理和模拟、智能体规划以及实时互动娱乐等多个领域发挥重要作用。该技术可用于创作互动媒体（如视频游戏和电影），以及构建真实的机器人训练环境。

关键观点3: 面临的挑战和问题

创意行业对这项技术态度复杂，存在版权问题悬而未决，一些世界模型似乎使用了未经授权的游戏视频片段进行训练，可能使开发公司面临法律风险。

正文

Google 正组建新团队开发可模拟现实世界的 AI 模型，由曾参与开发 OpenAI 视频生成工具 Sora 的联合负责人 Tim Brooks 领导。Brooks 于去年 10 月加入 Google DeepMind，这个新团队将隶属于该部门。

Brooks 周一在 X 平台表示："DeepMind 正计划开发能够模拟世界的大型生成模型，我正在组建一个专门的团队实现这一目标。"

根据职位发布信息，新团队将与 Google 的 Gemini、Veo 和 Genie 团队展开合作，在他们的基础上解决"关键性新问题"，将模型算力提升至"最高水平"。其中，Gemini 是 Google 的旗舰 AI 模型，用于图像分析和文本生成等任务，Veo 则是其视频生成模型。

Genie 是 Google 在世界模型领域的探索，这种 AI 能实时模拟游戏和 3D 环境。Google 在去年 12 月展示的最新版 Genie 已能生成各种可交互的 3D 世界。

一份职位描述指出："我们认为在视频和多模态数据上扩展 AI 训练是通向通用人工智能 (AGI) 的关键路径。"AGI 通常指能够完成任何人类工作的 AI。"世界模型将在视觉推理和模拟、智能体规划以及实时互动娱乐等多个领域发挥重要作用。"

据悉，Brooks 的团队将基于这些模型开发"实时交互式生成"工具，并研究如何将其与 Gemini 等现有多模态模型整合。

目前包括知名 AI 研究者李飞飞的 World Labs、以色列新创公司 Decart 和 Odyssey 在内的多家公司都在研发世界模型。他们认为这项技术未来可用于创作互动媒体（如视频游戏和电影），以及构建真实的机器人训练环境。

然而，创意行业对这项技术态度复杂。

据最新调查，已经大规模裁员的游戏公司如 Activision Blizzard，正在使用 AI 削减成本、提高效率并弥补人员流失。Animation Guild（代表好莱坞动画师和漫画家的工会）发布的 2024 年研究预测，到 2026 年，美国超过 10 万个影视动画工作岗位将受到 AI 冲击。

有些世界模型领域的创业公司，如 Odyssey，已承诺与创意专业人士合作而非取代他们。Google 是否会采取类似立场，还有待观察。

版权问题同样悬而未决。一些世界模型似乎使用了未经授权的游戏视频片段进行训练，这可能使开发公司面临法律风险。

作为 YouTube 的所有者，Google 声称其服务条款赋予了他们在平台视频上训练模型的权利，但尚未透露具体使用了哪些视频进行训练。

要进“ 交流群 ”，请关注公众号获取进群方式

投稿、需求合作或报道请添加公众号获取联系方式

往期推荐