李飞飞首个「空间智能」模型发布：一张图，生成一个 3D 世界

人工智能学家 · 公众号 · AI · 2024-12-05 17:00

正文

来源：学术头条

今日凌晨，由「AI 教母」李飞飞联合创办的 World Labs 发布了他们的 第一个「空间智能」模型，只需一张图，就可以生成一个逼真的 3D 世界。

据介绍，对于输入的图像，这一「空间智能」系统可以估算出 3D 几何图形，填充场景中未见的部分，创建新的内容，实现各个方位的 3D 世界构建。

例如，当你输入图片：

你会获得这样一个 3D 世界：

与生成式 AI 工具生成的图片或视频等 2D 内容不同， 以 3D 形式生成的内容具有更好的控制性和一致性。 而且，该模型还可以适应各种场景类型和艺术风格，比如生成不同的相机效果、3D 效果以及经典绘画风格的 3D 内容。

这将改变我们制作电影、游戏、模拟器和其他物理世界数字表现形式的方式。

以下为官方完整短片：

相机效果

World Labs 团队在官方博客中写道， 输出的 3D 场景可以在浏览器中实时呈现，且能够实现完全的相机控制。

这意味着你可以像在电子游戏中一样使用自由移动的相机来探索它们，甚至可以模拟 3D 相机效果，如 浅景深 （即只有距离摄像机一定距离的物体才能对焦）或 多轴变焦（ 同时调整相机的位置和视野）。

1.浅景深模拟效果

‍2.‍多轴变焦效果

3D 效果

大多数生成模型预测像素，而预测 3D 场景则有很多好处：

持久现实： 世界一旦生成，就会一直存在。即使你把视线移开，再回来时，场景也不会改变。
实时控制： 生成场景后，你可以在场景中实时移动。你可以留心观察一朵花的细节，也可以窥探某个角落，看看会有什么发现。
正确的几何形状： 生成的世界符合 3D 几何的基本物理规则。它们具有一种实体感和深度感。这与某些人工智能生成视频的不真实感形成了鲜明的对比。

可视化 3D 场景的最简单方法是绘制深度图，其中每个像素的颜色取决于其与相机的距离：

你可以使用 3D 场景结构来构建互动效果——只需点击一下，就能与场景互动：

你还可以制作特效，使场景动画化：

走进绘画世界

World Labs 团队还尝试窥探了一些创意杰作背后的世界，从梵高、霍珀、修拉和康丁斯基的作品中生成了他们最喜欢的世界。重要的一点是，这一「空间模型」可以生成原画中没有的内容。一起来欣赏 3D 版世界名画：

3D-原生生成式 AI 的无限可能

研究团队认为，3D 世界生成可与其他人工智能工具自然地结合。例如，你可以首先使用文本到图像模型生成图像，从而从基于文本创建世界。

他们还与一些创作者合作探索了 3D 原生生成式 AI 工作流带来的各种可能性。

例如，Brittani Natali 在生成的世界中精心设计了相机路径，通过三部短片唤起不同的情绪，其工作流程结合了 World Labs 的技术和 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具：

研究团队表示，这些成果是他们生成 3D 世界的首个早期预览。他们正在努力改进生成的 3D 世界的大小和逼真度，且在尝试与用户互动的新方法。

整理：学术君

如需转载或投稿，请直接在公众号内留言

阅读报告全文，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》
未来今日研究所：2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成：十年回顾
《以人为中心的大型语言模型（LLM）研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告
理解世界还是预测未来？世界模型的综合综述
Google Cloud CSA2024 AI 与安全状况调研报告
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇
Deepmind：AI 加速科学创新发现的黄金时代报告
PitchBookNVCA2024 年第三季度全球风险投资监测报告
德科 2024 年未来全球劳动力报告
高工咨询 2024 年协作机器人产业发展蓝皮书
国际能源署 IEA2024 年全球能源效率报告
基因慧基因行业蓝皮书 2024 - 2025
普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战
中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书
中移智库 2024 先进感知新技术及新应用白皮书
智次方研究院 2025 中国 AIoT 产业全景图谱报告
未来今日研究所：2024 技术趋势报告 - 人工智能篇
国际电联：迈向衡量数字经济的通用框架的路线图
联合国粮食与农业组织：2024 年世界粮食安全和营养状况
大语言模型综述
李飞飞等，AI 智能体：探索多模式交互的前景综述
哈尔滨工业大学 - ChatGPT 调研报告
2024《美国核部署战略报告》最新文件
清华大学：AIGC 发展研究 3.0 发布版 b 版
OpenAI：2024 年 OpenAI o1 大模型技术报告
Verizon2024 年世界支付安全报告
皇家学会哲学学报从复杂系统角度评估人工智能风险
复旦大学大模型 AI 代理的兴起和潜力：综述
经合组织 OECD2024 年气候行动监测报告
Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态
2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch
《全球金融稳定报告》把舵定航不确定性、人工智能与金融稳定
瑞士洛桑联邦理工学院《人工智能中的 - 创造力：进展与挑战》
《你所需要知道的理 - 论：人工智能、人类认知与决策》牛津大学最新 53 页报告
世界经济论坛新兴技术时代的网络弹性导航：应对复杂挑战的协作解决方案 2024
ADL 理特咨询 2024 汽车出行未来展望报告
2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道
科学时代的大语言模型中的人工智能
Gartner2025 年重要战略技术趋势报告
CBInsights2024 年第三季度全球人工智能投融资状况报告
TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻
天津大学 2024 大模型轻量化技术研究报告
欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版
美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告
国际原子能机构 2024 年世界聚变展望报告
复旦大学 2024 大语言模型的能力边界与发展思考报告
安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图
YouGov2024 美国公众对人工智能 AI 的态度调研报告
麦肯锡中国报告：《中国与世界》完整版
麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域
Project Sid，一个旨在模拟多智能体交互以研究 AI 文明的项目

李飞飞首个「空间智能」模型发布：一张图，生成一个 3D 世界

正文

请到「今天看啥」查看全文