专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

专访「AI 教母」李飞飞：世界是三维的，我们需要尊重这一事实

学术头条 · 公众号 · · 2024-12-13 08:23

正文

在人工智能（AI）领域，斯坦福大学教授李飞飞被称为“AI 教母”。

她在深度学习革命中发挥了重要作用，多年来一直致力于创建 ImageNet 数据集和竞赛，该数据集和竞赛要求人工智能系统识别 1000 个类别的物体和动物。2012年，一个名为 AlexNet 的神经网络在 ImageNet 竞赛中获得了冠军，其出色的表现震惊了整个人工智能研究界。

从那时起，神经网络 在互联网上提供的大量免费训练数据和可提供前所未有计算能力的 GPU 的推动下， 开始取得突破 。

在 ImageNet 出现之后的 13 年里，计算机视觉研究人员掌握了物体识别技术，并开始研究图像和视频生成技术。李飞飞与他人共同创建了斯坦福以人为本人工智能研究院（HAI），并 继续推动计算机视觉的发展 。就在今年，她创办了一家初创公司--World Labs，该公司可以生成用户可以探索的 3D 场景。World Labs 致力于赋予人工智能“空间智能”，即 生成 3D 世界、在 3D 世界中进行推理并与之互动的能力。

昨天，李飞飞在人工智能顶会 NeurIPS 上发表了题为“ From Seeing to Doing: Ascending the Ladder of Visual Intelligence ”的主旨演讲， 阐述了她对机器视觉的愿景 。

主旨演讲链接：

https://neurips.cc/virtual/2024/invited-talk/101127

在演讲前，李飞飞接受了 IEEE Spectrum 高级编辑 Eliza Strickland 的专访。内容如下：

Eliza Strickland ：为什么将演讲题目定为“攀登视觉智能的阶梯”（Ascending the Ladder of Visual Intelligence）？

李飞飞 ：我认为，直观地说，智能有不同程度的复杂性和先进性。在演讲中，我想表达的是，在过去的几十年里，尤其是深度学习革命的十多年里，我们在视觉智能方面所学到的东西令人惊讶。我们的技术能力越来越强。Judea Pearl 提出的“因果关系阶梯”也给了我启发。

演讲还有一个副标题，“从看到做”。人们对这一点还不够了解： 无论是动物还是 AI 智能体，“看”都与互动和“做”密切相关。这和语言是不同的。语言从根本上说是一种交流工具，用来传递思想 。在我看来，这些都是非常互补但同样影响深刻的智能模态。

ES ：你的意思是说，我们会本能地对某些景象做出反应？

李飞飞 ：我说的不仅仅是本能。如果你看一下感知的进化和动物智能的进化，就会发现这两者之间有着深刻的联系。 每当我们能够从环境中获得更多信息时，进化的力量就会推动能力和智能的发展。如果你不能感知环境，你与世界的关系就会非常被动 ；你是吃还是被吃，都是非常被动的行为。但是，一旦你能够通过感知从环境中获取线索，进化的压力就会真正增大，从而推动智能的发展。

ES ：你认为这就是我们创造更深入的机器智能的方式吗？让机器感知更多环境？

李飞飞 ：我不知道“深入”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂，越来越有能力。我认为， 解决空间智能问题是迈向全面智能化的基础和关键一步 ，我对这一点深信不疑。

ES ：我看过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界？

李飞飞 ：我认为 空间智能是视觉智能的发展方向 。如果我们真的要解决视觉问题，并将其与做某些事联系起来，有一个非常简单、一目了然的事实： 世界是 3D 的。我们生活的世界不是平面的。我们的物理智能体，无论是机器人还是设备，都将生活在 3D 世界中 。就连虚拟世界也变得越来越 3D 化。如果你与艺术家、游戏开发者、设计师、建筑师和医生交谈，即使他们是在虚拟世界中工作，其中大部分也是 3D 的。如果你能静下心来，认清这个简单而深刻的事实，那么毫无疑问，破解 3D 智能问题就是根本所在。

ES ：我很好奇 World Labs 展示的场景是如何保持物体的持久性和遵守物理定律的。这感觉像是一个令人兴奋的进步，因为像 Sora 这样的视频生成工具仍然在摸索这些东西。

李飞飞 ： 一旦你认同了世界的 3D 性，很多事情就自然而然地发生了 。例如，在我们发布在社交媒体上的一个视频中，篮球被投放到一个场景中。因为它是 3D 的，所以你可以拥有这种能力。如果场景只是 2D 生成的像素，篮球将无处可去。

ES ：或者，就像在 Sora 中一样，它可能会出现在某个地方，但随后就消失了。在尝试推进这项技术的过程中，你们面临的最大技术挑战是什么？

李飞飞 ：没有人解决过这个问题，对吧？这非常非常难。在 World Labs 的演示视频中，你可以看到我们用一幅梵高的画，以统一的风格生成了它周围的整个场景：艺术风格、灯光，甚至街区会有什么样的建筑。 如果你转过身去，它就变成了摩天大楼，那就完全没有说服力了 。它必须是 3D 的。你必须在其中导航。因此，它不仅仅是像素。

ES ：你能说说你用来训练它的数据吗？

李飞飞 ：很多。

ES ：你在算力负担方面是否面临技术挑战？

专访「AI 教母」李飞飞：世界是三维的，我们需要尊重这一事实

正文

请到「今天看啥」查看全文