专栏名称: 人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构

李飞飞：World Labs这样实现「空间智能」

人工智能学家 · 公众号 · AI · 2024-12-13 16:26

正文

来源：机器之心报道

编辑：泽南、陈陈

遵循世界的 3D 特性，很多事就会变得自然而然。

说到斯坦福大学教授李飞飞（Fei-Fei Li），她提倡的「空间智能」最近正在引领 AI 发展方向。

李飞飞已经在人工智能历史上赢得了一席之地，她多年来一直致力于创建 ImageNet 数据集和竞赛，在深度学习革命中发挥了重要作用。

2012 年，一个名为 AlexNet 的神经网络引爆了 AI 研究界，它的表现远远超过所有其他类型的模型，并赢得了当年的 ImageNet 竞赛。自那时起，神经网络开始腾飞，其动力来自互联网上可用的大量免费训练数据和提供空前计算能力的 GPU。

自 ImageNet 以来的 13 年里，计算机视觉研究者们掌握了物体识别，并转向图像和视频生成。李飞飞与他人共同创办了斯坦福大学以人为本人工智能研究所 (HAI)，并继续突破计算机视觉的界限。

就在今年，她创办了一家初创公司 World Labs ，旨在生成用户可以探索的 3D 场景。World Labs 致力于为人工智能提供「空间智能」，即生成、推理和与三维世界互动的能力。

李飞飞昨天在人工智能顶会 NeurIPS 上发表了主题演讲，讲述了她对机器视觉的愿景。她表示，非常荣幸第一次在 NeurIPS 上演讲，50 分钟讲 180 页 PPT 是个很有趣的经历。

在演讲之前，李飞飞接受了 IEEE Spectrum 的独家采访，让我们看看她对空间智能有哪些新的见解：

Eliza Strickland：你为什么把你的演讲命名为「提升视觉智能的阶梯（Ascending the Ladder of Visual Intelligence）？」

李飞飞： 智能具有不同层次的复杂性和精细度。在这次演讲中我想传达的是，在过去几十年，尤其是深度学习发生变革的十多年里，我们在视觉智能方面学会做的事情简直令人叹为观止。我们正在变得越来越擅长使用这项技术。同时，我也受到了 Judea Pearl 因果阶梯理论的启发，这一理论出自他 2020 年出版的书《The Book of Why》。

演讲还有一个副标题，即「从看到做到（From Seeing to Doing）」。这是人们没有足够重视的一点：从看到与交互和做事紧密相关，无论是对于动物还是对于 AI 智能体来说都是如此。这与语言背道而驰。语言从根本上来说是一种用来传达思想的交流工具。在我看来，它们是非常互补但同样深刻的智能模式。

Eliza Strickland：你的意思是我们对某些视觉刺激有本能的反应吗？

李飞飞： 我不仅仅是在谈论本能。 如果你观察感知的演变和动物智能的演变，你会发现它们是深深交织在一起的。 每当我们能够从环境中获取更多信息时，进化的力量就会推动事物能力和智能向前发展。如果你不能感知环境，你与世界的关系就非常被动；无论你是捕食者还是被捕食者，都是一个非常被动的行为。

但是一旦你能够通过感知从环境中获取线索，进化的压迫感就会增加，这推动了智能的发展。

Eliza Strickland：你认为这就是我们创造越来越深层次的机器智能的方式吗？通过让机器更多地感知环境？

李飞飞： 我不确定「深度」这个词是不是我该用的形容词。我认为我们正在创造更多的能力。我认为它将变得更加复杂，更有能力。 解决空间智能问题确实是朝着全面智能（full-scale intelligence）迈出的一个基本且关键的步骤， 这是绝对正确的。

Eliza Strickland：我看到过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界。

李飞飞： 我认为空间智能是视觉智能的发展方向。如果我们真的想要解决视觉问题，并且将其与行动联系起来，有一个非常简单、显而易见的事实：世界是三维的。我们不是生活在一个平面世界中。我们的物理智能体，无论是机器人还是设备，都将生活在三维世界中。即使是虚拟世界也越来越变得三维化。

如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈，即使他们在虚拟世界中工作，很多内容也是三维的。如果你花一点时间认识到这个简单但深刻的事实，毫无疑问，解决 3D 智能的问题是根本性的。

Eliza Strickland：我很好奇 World Labs 中的场景是如何保持物体永久性并遵守物理定律的。这感觉像是一个令人兴奋的进步，因为像 Sora 这样的视频生成工具仍然在处理这些事情。

李飞飞： 一旦你 遵循世界的 3D 特性，很多事情就会变得自然而然。 例如，在我们发布的一段视频中，有一个关于篮球的视频。由于场景是 3D 的，篮球会根据重力或其他物理规则正确落地并与环境交互。如果场景只是由 2D 像素生成的，篮球不会有任何物理反应，无法表现出落地或运动的效果。

Eliza Strickland：就像 Sora，球可能会去某个地方，然后消失。在推动这项技术发展的过程中，你面临的最大技术挑战是什么？

李飞飞： 没有人解决了这个问题，对吧？这非常非常困难。在一个 demo 中，我们取了一幅梵高的画作，并围绕它生成了整个场景，风格一致：艺术风格、光线，甚至是那个街区会有什么样的建筑。如果你转过身来看到的是摩天大楼，那将完全不可信，对吧？而且它必须是三维的。你必须能够进入其中。所以它不仅仅是像素。

Eliza Strickland：你能说说你用来训练它的数据吗？

李飞飞： 非常多。

Eliza Strickland：在算力方面是否存在很多挑战？

李飞飞： 这需要大量的算力。是公共部门无法承担的那种计算能力。这也是我需要通过休学术假，以私营部门的方式来做这件事的部分原因。同时，这也是我一直倡导公共部门获得计算资源访问权的部分原因，我自己的经历强调了在足够资源支持下进行创新的重要性。

Eliza Strickland：赋予公共部门权力是一件好事，因为公共部门通常更愿意通过获取知识，为人类谋福利。

李飞飞： 知识发现需要资源支持，对吧？在伽利略时代，最好的望远镜是让天文学家观察新天体的望远镜。Hooke 意识到放大镜可以变成显微镜，并发现了细胞。

每当有新的技术工具出现时，它都会帮助人们寻求知识。现在，在人工智能时代，技术工具涉及计算和数据。对于公共部门，我们必须认识到这一点。

Eliza Strickland：你希望联邦政府提供哪些资源？

李飞飞： 过去五年来，斯坦福大学 HAI 一直在做这项工作。我们一直在与国会、参议院、白宫、行业和其他大学合作，创建国家人工智能研究资源中心 (NAIRR)。

Eliza Strickland：假设我们能让人工智能系统真正理解 3D 世界，这会给我们带来什么？

李飞飞： 它将为人们释放大量创造力和生产力。我希望以更高效的方式设计我的房子。我知道许多医疗用途都涉及理解一个非常特殊的 3D 世界，即人体。我们总是谈论未来人类将创造机器人来帮助我们，但机器人在 3D 世界中导航，它们需要空间智能作为大脑的一部分。

我们还谈论虚拟世界，它将允许人们参观很多地方、学习概念或娱乐。这些都要使用 3D 技术，尤其是混合现实技术，我们称之为 AR [增强现实]。我很想戴着一副眼镜穿过国家公园，它能让我了解树木、道路、云朵的信息。我也想借助空间智能学习不同的技能。

Eliza Strickland：会是什么样的技能？

李飞飞： 我举个蹩脚的例子，如果我在高速公路上爆胎了，我该怎么办？现在，我打开一个「如何换轮胎」的视频。但如果我能戴上眼镜，看看我的车发生了什么，然后得到指导，那就太酷了。但这是一个蹩脚的例子。你可以考虑烹饪，你可以考虑雕刻 —— 有趣的事情。

Eliza Strickland：你认为（这个方向）在我们这一代能走多远？

李飞飞： 我认为这会是我们有生之年的事，因为技术进步的速度非常快。你已经看到了过去 10 年带来的变化。这肯定预示着接下来会发生什么。

参考内容：

https://spectrum.ieee.org/fei-fei-li-world-labs

https://x.com/drfeifei/status/1867286498086990325

阅读报告全文，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》
未来今日研究所：2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成：十年回顾
《以人为中心的大型语言模型（LLM）研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告
理解世界还是预测未来？世界模型的综合综述
Google Cloud CSA2024 AI 与安全状况调研报告
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇
Deepmind：AI 加速科学创新发现的黄金时代报告
PitchBookNVCA2024 年第三季度全球风险投资监测报告
德科 2024 年未来全球劳动力报告
高工咨询 2024 年协作机器人产业发展蓝皮书
国际能源署 IEA2024 年全球能源效率报告
基因慧基因行业蓝皮书 2024 - 2025
普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战
中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书
中移智库 2024 先进感知新技术及新应用白皮书
智次方研究院 2025 中国 AIoT 产业全景图谱报告
未来今日研究所：2024 技术趋势报告 - 人工智能篇
国际电联：迈向衡量数字经济的通用框架的路线图
联合国粮食与农业组织：2024 年世界粮食安全和营养状况
大语言模型综述
李飞飞等，AI 智能体：探索多模式交互的前景综述
哈尔滨工业大学 - ChatGPT 调研报告
2024《美国核部署战略报告》最新文件
清华大学：AIGC 发展研究 3.0 发布版 b 版
OpenAI：2024 年 OpenAI o1 大模型技术报告
Verizon2024 年世界支付安全报告
皇家学会哲学学报从复杂系统角度评估人工智能风险
复旦大学大模型 AI 代理的兴起和潜力：综述
经合组织 OECD2024 年气候行动监测报告
Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态
2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch
《全球金融稳定报告》把舵定航不确定性、人工智能与金融稳定
瑞士洛桑联邦理工学院《人工智能中的 - 创造力：进展与挑战》
《你所需要知道的理 - 论：人工智能、人类认知与决策》牛津大学最新 53 页报告
世界经济论坛新兴技术时代的网络弹性导航：应对复杂挑战的协作解决方案 2024
ADL 理特咨询 2024 汽车出行未来展望报告
2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道
科学时代的大语言模型中的人工智能
Gartner2025 年重要战略技术趋势报告
CBInsights2024 年第三季度全球人工智能投融资状况报告
TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻
天津大学 2024 大模型轻量化技术研究报告
欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版
美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告
国际原子能机构 2024 年世界聚变展望报告
复旦大学 2024 大语言模型的能力边界与发展思考报告
安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图
YouGov2024 美国公众对人工智能 AI 的态度调研报告
麦肯锡中国报告：《中国与世界》完整版
麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

李飞飞：World Labs这样实现「空间智能」

正文

请到「今天看啥」查看全文