本文来自往期 PRO会员通讯精选解读,文末关注「机器之心PRO会员」,查看更多专题解读。
斯坦福大学教授李飞飞在一场播客专访中将智能分为说话的能力和做事能力,与之对应的是语言智能和空间智能,语言是人类的语言,而 3D 是自然的语言。而拥有空间智能的 AI,将做到人类从未做到的事:真正地打破物理世界和数字世界的界限。她将其创业公司 World Labs 的目标明确为开发「大世界模型(LWM)」,让空间智能将和当前备受关注的语言智能相辅相成,最终赋予 AI 理解、推理和生成 3D 世界的能力。目录
01. World Labs 想开发的 LWM 是什么?
什么是 LWM?LWM 和空间智能有什么关系?LWM 和下一代 AI 有什么关系?Word Labs 官宣前有哪些空间智能工作?李飞飞团队之外还有谁在研究空间智能?03. 世界模型近期的进展如何?
最近有哪些新的世界模型?当前的世界模型有多强...
01 World Labs 想开发的 LWM 是什么?1、斯坦福大学计算机科学家李飞飞于 9 月 13 日正式宣布创办 AI 初创公司 World Labs,在介绍团队成员的同时公开了官网和和打造 LWM(大世界模型)的愿景。
① 根据 World Labs 官网的介绍,该公司的目标是构建 LWM,让 AI 模型从 2D 像素平面提升到完整的 3D 世界(虚拟和现实世界),赋予 AI 与人类一样丰富的空间智能。
② 在推文中,李飞飞她认为 Ai 领域中真正难以解决的问题是空间智能,这项技术可以赋能和实现创作、设计、学习、AR/VR、机器人等领域的无数可能用例。
③ World Labs 的创始团队包含李飞飞、Justin Johnson、Christoph Lassner、Ben Mildenhall 四位联创以及一支世界级图像技术团队。
2、在 World Labs 官宣成立后,李飞飞与联创 Justin Johnson 参与了一场访谈,进一步阐述了公司理念、对下一代人工智能的看法,并强调了「视觉空间智能非常根本,与语言一样根本」。
① World Labs 这一名字的由来便是团队的终极目标,即构建并理解世界,解锁空间智能这颗北极星。
② 李飞飞和 Johnson 在访谈中强调,空间智能不仅仅是对现有数据的理解,而是关于理解新的数据,并且将 AI 从大型数据中心带出来,放入 3D/4D 世界中,使其能够理解这个世界的丰富性。
3、李飞飞和 Johnson 在访谈中表示,未来的 AI 模型的底层表示应当是三维的,因为智能的进化路径必然会转向这种三维表示所带来的更高的「可操作性」,将动物和人类与世界互动的能力转化为原生的三维技术是释放潜在 AI 应用洪流的关键。[3]
① 对于当下备受瞩目的语言模型或多模态语言模型,它们的底层表现形式仍是一维的存在。这种表示在处理语言时十分自然,也是 LLM 突破的援引,而 MLLM 则是把其他模态的数据硬塞进这个一维的序列表示中。
② 对于空间智能,World Labs 认为三维才是表征的核心。一维的 LLM(语言)表征损失了太多信息,另一类基于像素的生成式 AI 可以处理二维图像和视频,虽然纯 2D 表征可以实现三维任务的处理,但适配度和可操作性相对有限。
③ 如果将三维表征放在核心的位置,问题与表示方式之间会更加匹配,且通过对动态三维世界进行二维投影的建模也能处理二维的问题,这也是 World Labs 将堵住压在「在底层结构中引入更多的三维表示」的原因。
4、根据访谈内容,World Labs 的目标是超越场景的世界,进而解锁能够与万事万物互动的「新媒介」。
① 在计算机视觉和生成领域,人们通常会对事物进行划分,如第一级是物体,第二级是场景,场景是多个物体的组合。World Labs 要做的 LWM 需要打破场景边界。
② 打破了场景边界的 LWM 将有机会带来「新媒介」,解锁与三维世界互动能力的空间智能将对 AR、VR 带来质的改变。如果技术发展到极致,或许会淘汰如手机、平板、显示器等现在很多对物理世界的依赖。
5、对于真正做出 LWM 并解锁空间智能,World Labs 仍不确定最终的硬件形态应当如何,但可以明确的有大量技术需要开发,因而他们需要多种不同类型的专业人才。
① World Labs 表示空间智能方面的研究需要高质量、大规模的工程能力,还需要对三维世界有深刻的理解,另外还要与计算机图形学领域紧密联系。
② 李飞飞由此选择与 Justin Johnson、Ben Mildenhall、 Christopher Lassner 等多学科人才作为联合创始人。
6、当媒体在 2024 年 5 月曝出李飞飞创业计划时,其创业方向引起了人们的热议。而 World Labs 启动后,其 LWM 愿景又一次将世界模型拉回热议的中心。
① 有声音认为 World Labs 的承诺与此火热的「元宇宙」有些相似,但 World Labs 认为元宇宙的热潮来得太早,仍缺乏真正的互动内容。他们暗示,世界模型或许能够解决这一问题。
② 另一方面,在大模型技术爆发后,大量新势力车企已经开始把自动驾驶技术的方向转向世界模型与端到端方案,探索具身智能的机器人创业公司也成批出现。
李飞飞在 2024 年 5 月的演讲中正式介绍了空间智能的概念,同时分享了团队在该领域的进展。而后在 5 月 -9 月期间,国内外的高校团队也陆续发布了探索空间智能的研究工作.....
关注👇🏻「机器之心PRO会员」,前往「收件箱」订阅,查看完整解读内容 更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。