专栏名称: 多知网
专注于报道培训教育领域,有意思,有价值,有细节,有深度
目录
相关文章推荐
蛋先生工作室  ·  2025年2月8日最新蛋价(上午) ·  昨天  
电子商务研究中心  ·  春节网购狂欢背后的隐忧 ... ·  2 天前  
电商报Pro  ·  DeepSeek招兵买马,实习生照样年薪百万 ·  3 天前  
首席品牌官  ·  今年春节最佳电子榨菜,是美团的贺岁短剧! ·  3 天前  
51好读  ›  专栏  ›  多知网

李飞飞创业项目推出3D AI模型,有望应用于教育领域

多知网  · 公众号  ·  · 2024-12-03 12:46

正文

World Labs正进一步改善所生成3D场景的大小和真实度。


来源 | 多知

作者|王上



12月3日,李飞飞创立的“World Labs”刚刚发布了一个最新的AI系统——仅凭一张图片,AI就能生成一个真实、可互动的3D场景。 World Labs表示,这是迈向空间智能的第一步。


与生成静态内容的 AI 图像/视频生成器不同,World Labs 的系统可创建持久的 3D 环境,即使用户从不同角度探索,也能保持一致。 “大多数生成式人工智能工具都是制作图片或视频等 2D 内容”,World Labs 写道。“三维生成则提高了控制力和一致性”。可以说,这是一个突破性技术。


不论是Midjourney、FLUX,还是Runway、DreamMachine以及谷歌推出的“世界模型”Genie,大多数GenAI工具仅能制作图像/视频2D内容。


World Labs的AI系统则超越了传统生成模型的单纯像素预测,转而直接渲染出完整的3D场景 ,且场景具有高度的交互性和自由度,用户可以通过键盘或鼠标自由控制视角,甚至可以像玩游戏一样探索这个虚拟世界。


(一张静态的图可以转为3D动态画面)


当前,3D生成式AI的应用范围已扩展到视频游戏、电影、建筑甚至教育等领域,World Labs推出的AI系统将有望改变这些领域。


3D AI系统对教育领域来说有很多的应用场景,未来有更大的想象空间:


第一,如果裸眼即可实现3D效果,那么意味着可以直接进行沉浸式学习 ,使学生在模拟的三维环境中进行学习和探索。 这比较适合学习立体几何、物理、生物、医学等科目,还可以用于偏实操性的职业教育的教学中。


第二,3D场景也可以与智能硬件结合,加强交互体验。 此外,学生可以通过虚拟现实(VR)和增强现实(AR)技术,与3D模型互动,进行模拟实验或历史场景重现。


第三,与其他AI产品结合,如在虚拟环境中学习口语等。


李飞飞被誉为“AI教母”,现为斯坦福大学计算机科学教授,美国工程院院士,美国国家医学院院士。她的专业领域是计算机视觉和认知神经科学。2023年,她入选了《时代》周刊100个最具影响力AI人物。


2009年,李飞飞发布了当时人工智能史上最大的人工编辑的图像数据集 ImageNet,并于2010年创办了 ImageNet 挑战赛(ILSVRC), 极大地推动了计算机视觉识别能力的进步。 除了短暂在谷歌工作之外,李飞飞一直在学术界任职。


李飞飞也在积极推进人工智能的教育与研究,她于2019年在斯坦福大学成立了以人为本人工智能研究院(HAI),确保人类能在人工智能中受益。在此之前,李飞飞还和同事们成立了AI4All项目,给女性和有色人种、困难学生等人群提供人种智能课程。


今年4月,李飞飞首次下场开始自创业,专注于空间智能,9月,这家名为World Lab正式亮相,该团队集合了李飞飞的学生和相关领域的知名技术人员。


其中,Justin Johnson 是李飞飞的学生,也是技术大牛;Ben Mildenhall在 Nerf 方面具有开创性的贡献;Christopher Lassner,他在计算机图形学领域很有名。


(World Labs创始人团队,左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞)


公开信息显示,World Labs已经获得2.3亿美元的投资,投资者包括 Andreessen Horowitz (a16z)、Ashton Kutcher、英特尔资本、AMD Ventures 和谷歌前CEO埃里克-施密特(Eric Schmidt)。 该公司的估值超过 10 亿美元,显示了资本看好“空间智能”技术的未来。


此前,李飞飞在接受a16z的专访时提到,视觉空间智能非常根本,与语言一样根本。 可以说,图像和视频生成的下一步将依赖于“空间智能”技术的进步,而World Labs正在朝着这个方向努力。


“我认为我们实际上现在正处于寒武纪大爆发过程中,因为现在不只是文本,像素、视频、音频方面都在出现可能的 AI 应用和模型。所以这是一个非常激动人心的时刻。”李飞飞在专访中说到。


所谓空间智能,Justin Johnson曾在接受a16z的专访时解释,空间智能是机器在三维空间和时间中以三维方式感知、推理和行动的能力,这能帮助它理解事物在三维空间和时间(4D)中的位置,事物的交互方式。 这是将 AI 从大型数据中心带出来,放入 3D/4D 世界中,使其理解这个世界的丰富性。


目前,World Labs迈出了空间智能技术的重要一步。 根据World Labs 官网介绍,3D场景AI系统的优势在于:


持久现实:一旦一个3D场景被生成,它就会一直存在。如果你看向别处再回来,场景不会发生变化。


实时控制:在生成一个场景后,你可以实时地在其中移动。你可以停留在一朵花的细节上,或者绕过一个角落去看看有什么新发现。


正确的几何学:生成的世界遵循基本的3D几何物理规则。它们具有实体感和深度感,这与一些AI生成视频的梦幻性质形成对比。


用户还可以应用实时相机效果,如景深调整和推拉变焦,类似于传统的电影制作技术。该技术还支持更多交互式 3D 效果,如动态照明变化和场景修改等功能,甚至还可以修改动画效果,还可以基于浏览器进行实时渲染。


(推拉聚焦效果)


(调整视野效果)


李飞飞本人也在社交平台分享了这一成果,表示:“虽然很难用语言完全描述这种通过一张图片或一句话就能生成的3D场景互动体验,但我相信它会给大家带来全新的感受。”



World Labs 联合创始人贾斯汀·约翰逊 (Justin Johnson) 所指出的那样,如今创造互动式沉浸式场景需要多年的开发时间和巨额预算。借助 AI 生成的世界模型,他们希望让这个过程更快、更方便,从而让人人拥有创造力。


这种技术不仅是艺术创作的巨大工具,也为虚拟现实(VR)提供了无限可能,网友们纷纷表示,这项技术可能是VR应用的一次重大飞跃。







请到「今天看啥」查看全文