专栏名称: APPSO

让智能手机更好用的秘密。

「AI 教母」李飞飞空间智能首个产品亮相！一张图生成一个 3D 游戏世界，这次真不是 PPT

APPSO · 公众号 · app · 2024-12-03 11:50

正文

今天凌晨，李飞飞空间智能首个产品惊艳亮相。

开局一张图，它就能生成一个 3D 视频游戏场景。虽说现在有不少 AI 都能把照片转化为 3D 模型，但 World Labs 带来的不只是建模，而是一个真正可交互、可编辑的活体世界。

除了原始输入的图片，所有内容都是通过 AI 生成。

World Labs 在博客中说道：

大多数生成式 AI 工具都制作图像或视频等 2D 内容。相反，以 3D 形式生成可以提高控制和一致性。这将改变我们制作电影、游戏、模拟器和物理世界的其他数字表现形式的方式。

实际上，当前市场不乏 3D 生成模型，但通常会出现许多问题。比如初创公司 Decart 的 Minecraft 模拟器 Oasis，要么画面不够清晰，要么场景布局经常混乱。

相比之下，World Labs 却创造出了一个稳定、真实且符合物理规则的 3D 世界。

一个活的世界，比一千张死的图片更有价值。

一张图生成一个 3D 游戏世界？李飞飞空间智能首秀

开局一张图，结局竟是一个世界？一起来看看 World Labs 产品生成的 3D 游戏世界。

使用鼠标或键盘 W/A/S/D 自由穿行，然后用鼠标单击并拖动来环顾四周：

体验地址：https://www.worldlabs.ai/blog

场景生成好后，你就成了一个虚拟摄影师，在浏览器里实时操控相机，想拍什么角度就拍什么角度，如同专业摄影。

还能模拟浅景深，不过，只有距离相机一定距离的物体才能清晰对焦：

推拉镜头也没问题。

World Labs 的核心突破在于，他们没有止步于像素级的表面呈现，而是直指 3D 场景生成的本质优势：

恒久的现实：创造出来的 3D 世界是稳定的，不会消失或者偷偷改变。

实时控制：生成场景后，想去哪去哪，甚至能凑近看花朵的每个细节。

真实的物理规则：生成的世界遵循现实世界的物理法则，没有漂浮的物体，没有穿墙的 bug，就像现实世界一样自然

World Labs 还表示，通过深度贴图技术，他们成功让每个像素都有了真实的空间距离感。而图片中每个像素的颜色，都是由它和摄像头的距离来决定的。

不仅如此，World Labs 还给场景注入了灵魂——添加各种互动特效，打造动画效果，让整个世界活起来。

来都来了，脑洞大开的 World Labs 还能把梵高、霍珀这些大师的名画还原成可以探索的 3D 世界。不得不说，绝美。

而且原画里没有的东西，它都能「脑补」出来，而且出奇地合理。

联动 Midjourney，让创作者玩转 3D 新世界

说到创作过程，3D 生成的世界还能和其他 AI 工具完美配合，这意味着创作者可以用自己熟悉的工具，创造出全新的体验。

比如说，World Labs 可以先使用文本到图像模型生成图像，从而从文本创建世界。不同的模型有自己的风格，而这些独特的风格都能被保留下来。

来看个具体的例子。

World Labs 团队基于同一提示词，让不同的 AI 画了四个版本的青少年卧室。

A vibrant cartoon-style teenager's bedroom with a bed covered in colorful blankets, a cluttered desk with a computer, posters on the walls, and scattered sports gear. A guitar leans against the wall, and a cozy, patterned rug is in the center. Light from a window adds a warm, youthful vibe to the room.

一间充满活力的卡通风格青少年卧室，床上铺着五颜六色的毯子，杂乱的书桌上放着一台电脑，墙上贴着海报，运动装备散落。一把吉他靠在墙上，中间是一块舒适的图案地毯。窗外的光线为房间增添了温暖、年轻的氛围。

已经有一些创作者通过与 World Labs 达成合作，提前用上了。比如，Eric Solorio 就展示了怎么用它来设计人物动作和控制镜头。

而 Brittani Natali 则把 World Labs 的技术和 Midjourney、Runway、Suno、ElevenLabs 等工具组合起来，设计丰富的镜头运动，并创作出富有情感张力的短片。

不过，World Labs 也坦言：

这些结果是我们生成 3D 世界的第一次早期预览。我们正在努力提高生成世界的大小和保真度，并尝试让用户与它们交互的新方式。

另外，想试试吗？现在可以去申请候补名单了。

附上地址：
https://forms.gle/tkfW7yMqMsCXWw4F7

并且，World Labs 现在也在招人，总共开放应用 AI 研究工程师、业务运营、数据工程师、模型优化工程师、产品设计师等 8 类岗位。

感兴趣可以去看看：
https://jobs.ashbyhq.com/worldlabs

值得注意的是，博客里提到页面上所有的图片均使用 FLUX 1.1 [pro]、Ideogram 或 Midjourney 生成，堪称巧妙联动。

李飞飞本人也第一时间在 X 平台站台宣传：

非常兴奋地向你展示我们团队 @theworldlabs 的最新成果！无论你如何构思这个概念，用语言来形容通过照片或句子生成的 3D 场景的互动感受都是相当有挑战性的。希望你能喜欢这篇博客！🤩❤️‍🔥

硬刚 Sora！李飞飞为什么说 2D 已死，3D 当立？

深入探讨 World Labs 的技术，就不得不回到这家公司的起点。

被誉为「AI 教母」的李飞飞曾任 Google Cloud AI 负责人。今年 9 月份，在成功融资 2.3 亿美元后，她正式官宣创办 AI 初创公司 ——World Labs。

当时，李飞飞发文称，将与其他三位联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall，以及一支世界级图像技术团队共同创办实验室，致力于解决这个大自然花费五亿年才解决的超级难题。

关注 AI 第一新媒体，率先获取 AI 前沿资讯和洞察

World Labs 也宣称明年将推出首款构建能够理解 3D 世界并与之交互的 AI 模型产品，公司称其为「大世界模型」。

据称目标用户是艺术家、设计师、开发人员和工程师，以及游戏公司和电影公司。

关于空间智能，World Labs 的官网是这样描述的：

「人类智能有许多方面，其中之一是语言智能，它使我们能够通过语言进行交流和与他人联系。但更为基础的或许是空间智能，它让我们能够理解和与周围世界互动。

空间智能还能帮助我们创造，将脑海中的画面带入现实世界...... 要超越当今模型的能力，我们需要具备空间智能的 AI，它能够在三维空间和时间中对世界进行建模，并对物体、场所和交互进行推理。」

在 World Labs 正式成立后，李飞飞在接受 a16z 采访时强调，空间智能是视觉智能的核心。相比仅限于一维的语言模型，空间智能作为理解和创造三维世界的基础，对 AI 的发展至关重要。

未来，空间智能将帮助我们将这些体验提升到 3D 级别。不仅仅是图像或剪辑，而是一个完全模拟但又充满活力和互动的 3D 世界。

这种技术可能用于游戏，但用途远不止于此，比如虚拟摄影等各种应用场景，甚至有数百万种可能的应用。

现在发布的项目也印证了她的说法。

今天凌晨，英伟达 AI 智能体项目负责人 Jim Fan （同时也是李飞飞的前学生）发文表示祝贺：

GenAI 正在创建越来越高维的人类体验快照。Stable Diffusion 是一个 2D 快照。

Sora 是一个带有时间维度的 2D 快照。现在，World Labs 带来了一个 3D 且完全沉浸式的快照。空间智能得以优雅地呈现，非常出色。

插个冷知识，在 Sora 迟迟未能落地之际，李飞飞曾在斯坦福大学的一场闭门论坛上公开 diss Sora。

她指出，尽管 OpenAI 的 Sora 模型能够生成视频，但其核心仍是二维，缺乏对三维空间的深入理解。

在她看来，二维是表象，三维是本质，空间智能才是 AI 通向 AGI 的钥匙。

当时，她以 Sora 模型生成的「日本女性走过霓虹闪烁东京街头视频」举例称：

如果你希望算法换个角度，来展现这个女子走过街头的视频，比如把摄像机放在女子背后，Sora 无法做到。

因为这个模型对于三维世界并没有真正的深刻理解。而人类可以在脑海中想象女子背后的情景。

人类可以理解在复杂的环境下如何活动。我们知道如何抓取，如何控制，如何打造工具，如何建造城市。根本而言，空间智能是几何形状，是物体间的关系，是三维空间。

可以说，从 Stable Diffusion 的二维图像，到 Sora 的时间维度视频，再到 World Labs 开创的交互式 3D 世界，AI 不仅要理解世界，更要创造世界。

一张照片是起点，一个真正立体、可交互、富有生命力的虚拟世界是终点，而 World Labs 正在弥合这道鸿沟。