李飞飞创业项目推出3D AI模型，有望应用于教育领域

多知网 · 公众号 · · 2024-12-03 12:46

正文

World Labs正进一步改善所生成3D场景的大小和真实度。

来源 | 多知

作者|王上

12月3日，李飞飞创立的“World Labs”刚刚发布了一个最新的AI系统——仅凭一张图片，AI就能生成一个真实、可互动的3D场景。 World Labs表示，这是迈向空间智能的第一步。

与生成静态内容的 AI 图像/视频生成器不同，World Labs 的系统可创建持久的 3D 环境，即使用户从不同角度探索，也能保持一致。 “大多数生成式人工智能工具都是制作图片或视频等 2D 内容”，World Labs 写道。“三维生成则提高了控制力和一致性”。可以说，这是一个突破性技术。

不论是Midjourney、FLUX，还是Runway、DreamMachine以及谷歌推出的“世界模型”Genie，大多数GenAI工具仅能制作图像/视频2D内容。

World Labs的AI系统则超越了传统生成模型的单纯像素预测，转而直接渲染出完整的3D场景 ，且场景具有高度的交互性和自由度，用户可以通过键盘或鼠标自由控制视角，甚至可以像玩游戏一样探索这个虚拟世界。

（一张静态的图可以转为3D动态画面）

当前，3D生成式AI的应用范围已扩展到视频游戏、电影、建筑甚至教育等领域，World Labs推出的AI系统将有望改变这些领域。

3D AI系统对教育领域来说有很多的应用场景，未来有更大的想象空间：

第一，如果裸眼即可实现3D效果，那么意味着可以直接进行沉浸式学习 ，使学生在模拟的三维环境中进行学习和探索。这比较适合学习立体几何、物理、生物、医学等科目，还可以用于偏实操性的职业教育的教学中。

第二，3D场景也可以与智能硬件结合，加强交互体验。 此外，学生可以通过虚拟现实(VR)和增强现实(AR)技术，与3D模型互动，进行模拟实验或历史场景重现。

第三，与其他AI产品结合，如在虚拟环境中学习口语等。

李飞飞被誉为“AI教母”，现为斯坦福大学计算机科学教授，美国工程院院士，美国国家医学院院士。她的专业领域是计算机视觉和认知神经科学。2023年，她入选了《时代》周刊100个最具影响力AI人物。

2009年，李飞飞发布了当时人工智能史上最大的人工编辑的图像数据集 ImageNet，并于2010年创办了 ImageNet 挑战赛（ILSVRC）， 极大地推动了计算机视觉识别能力的进步。 除了短暂在谷歌工作之外，李飞飞一直在学术界任职。

李飞飞也在积极推进人工智能的教育与研究，她于2019年在斯坦福大学成立了以人为本人工智能研究院（HAI），确保人类能在人工智能中受益。在此之前，李飞飞还和同事们成立了AI4All项目，给女性和有色人种、困难学生等人群提供人种智能课程。

今年4月，李飞飞首次下场开始自创业，专注于空间智能，9月，这家名为World Lab正式亮相，该团队集合了李飞飞的学生和相关领域的知名技术人员。

其中，Justin Johnson 是李飞飞的学生，也是技术大牛；Ben Mildenhall在 Nerf 方面具有开创性的贡献；Christopher Lassner，他在计算机图形学领域很有名。

（World Labs创始人团队，左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞）

公开信息显示，World Labs已经获得2.3亿美元的投资，投资者包括 Andreessen Horowitz (a16z)、Ashton Kutcher、英特尔资本、AMD Ventures 和谷歌前CEO埃里克-施密特(Eric Schmidt)。 该公司的估值超过 10 亿美元，显示了资本看好“空间智能”技术的未来。

此前，李飞飞在接受a16z的专访时提到，视觉空间智能非常根本，与语言一样根本。 可以说，图像和视频生成的下一步将依赖于“空间智能”技术的进步，而World Labs正在朝着这个方向努力。

“我认为我们实际上现在正处于寒武纪大爆发过程中，因为现在不只是文本，像素、视频、音频方面都在出现可能的 AI 应用和模型。所以这是一个非常激动人心的时刻。”李飞飞在专访中说到。

所谓空间智能，Justin Johnson曾在接受a16z的专访时解释，空间智能是机器在三维空间和时间中以三维方式感知、推理和行动的能力，这能帮助它理解事物在三维空间和时间（4D）中的位置，事物的交互方式。 这是将 AI 从大型数据中心带出来，放入 3D/4D 世界中，使其理解这个世界的丰富性。

目前，World Labs迈出了空间智能技术的重要一步。 根据World Labs 官网介绍，3D场景AI系统的优势在于：

持久现实：一旦一个3D场景被生成，它就会一直存在。如果你看向别处再回来，场景不会发生变化。

实时控制：在生成一个场景后，你可以实时地在其中移动。你可以停留在一朵花的细节上，或者绕过一个角落去看看有什么新发现。

正确的几何学：生成的世界遵循基本的3D几何物理规则。它们具有实体感和深度感，这与一些AI生成视频的梦幻性质形成对比。

用户还可以应用实时相机效果，如景深调整和推拉变焦，类似于传统的电影制作技术。该技术还支持更多交互式 3D 效果，如动态照明变化和场景修改等功能，甚至还可以修改动画效果，还可以基于浏览器进行实时渲染。

（推拉聚焦效果）

（调整视野效果） ‍

李飞飞本人也在社交平台分享了这一成果，表示：“虽然很难用语言完全描述这种通过一张图片或一句话就能生成的3D场景互动体验，但我相信它会给大家带来全新的感受。”

World Labs 联合创始人贾斯汀·约翰逊 (Justin Johnson) 所指出的那样，如今创造互动式沉浸式场景需要多年的开发时间和巨额预算。借助 AI 生成的世界模型，他们希望让这个过程更快、更方便，从而让人人拥有创造力。

这种技术不仅是艺术创作的巨大工具，也为虚拟现实(VR)提供了无限可能，网友们纷纷表示，这项技术可能是VR应用的一次重大飞跃。

李飞飞创业项目推出3D AI模型，有望应用于教育领域

正文

请到「今天看啥」查看全文