在人工智能(AI)领域,斯坦福大学教授李飞飞被称为“AI 教母”。
她在深度学习革命中发挥了重要作用,多年来一直致力于创建
ImageNet
数据集和竞赛,该数据集和竞赛要求人工智能系统识别 1000 个类别的物体和动物。2012年,一个名为
AlexNet
的神经网络在 ImageNet 竞赛中获得了冠军,其出色的表现震惊了整个人工智能研究界。
从那时起,神经网络
在互联网上提供的大量免费训练数据和可提供前所未有计算能力的 GPU 的推动下,
开始取得突破
。
在 ImageNet 出现之后的 13 年里,计算机视觉研究人员掌握了物体识别技术,并开始研究图像和视频生成技术。李飞飞与他人共同创建了斯坦福以人为本人工智能研究院(HAI),并
继续推动计算机视觉的发展
。就在今年,她创办了一家初创公司--World Labs,该公司可以生成用户可以探索的 3D 场景。World Labs 致力于赋予人工智能“空间智能”,即
生成 3D 世界、在 3D 世界中进行推理并与之互动的能力。
昨天,李飞飞在人工智能顶会 NeurIPS 上发表了题为“
From Seeing to Doing: Ascending the Ladder of Visual Intelligence
”的主旨演讲,
阐述了她对机器视觉的愿景
。
主旨演讲链接:
https://neurips.cc/virtual/2024/invited-talk/101127
在演讲前,李飞飞接受了 IEEE Spectrum 高级编辑 Eliza Strickland 的专访。内容如下:
Eliza Strickland
:为什么将演讲题目定为“攀登视觉智能的阶梯”(Ascending the Ladder of Visual Intelligence)?
李飞飞
:我认为,直观地说,智能有不同程度的复杂性和先进性。在演讲中,我想表达的是,在过去的几十年里,尤其是深度学习革命的十多年里,我们在视觉智能方面所学到的东西令人惊讶。我们的技术能力越来越强。Judea Pearl 提出的“因果关系阶梯”也给了我启发。
演讲还有一个副标题,“从看到做”。人们对这一点还不够了解:
无论是动物还是 AI 智能体,“看”都与互动和“做”密切相关。这和语言是不同的。语言从根本上说是一种交流工具,用来传递思想
。在我看来,这些都是非常互补但同样影响深刻的智能模态。
ES
:你的意思是说,我们会本能地对某些景象做出反应?
李飞飞
:我说的不仅仅是本能。如果你看一下感知的进化和动物智能的进化,就会发现这两者之间有着深刻的联系。
每当我们能够从环境中获得更多信息时,进化的力量就会推动能力和智能的发展。如果你不能感知环境,你与世界的关系就会非常被动
;你是吃还是被吃,都是非常被动的行为。但是,一旦你能够通过感知从环境中获取线索,进化的压力就会真正增大,从而推动智能的发展。
ES
:你认为这就是我们创造更深入的机器智能的方式吗?让机器感知更多环境?
李飞飞
:我不知道“深入”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂,越来越有能力。我认为,
解决空间智能问题是迈向全面智能化的基础和关键一步
,我对这一点深信不疑。
ES
:我看过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界?
李飞飞
:我认为
空间智能是视觉智能的发展方向
。如果我们真的要解决视觉问题,并将其与做某些事联系起来,有一个非常简单、一目了然的事实:
世界是 3D 的。我们生活的世界不是平面的。我们的物理智能体,无论是机器人还是设备,都将生活在 3D 世界中
。就连虚拟世界也变得越来越 3D 化。如果你与艺术家、游戏开发者、设计师、建筑师和医生交谈,即使他们是在虚拟世界中工作,其中大部分也是 3D 的。如果你能静下心来,认清这个简单而深刻的事实,那么毫无疑问,破解 3D 智能问题就是根本所在。
ES
:我很好奇 World Labs 展示的场景是如何保持物体的持久性和遵守物理定律的。这感觉像是一个令人兴奋的进步,因为像 Sora 这样的视频生成工具仍然在摸索这些东西。
李飞飞
:
一旦你认同了世界的 3D 性,很多事情就自然而然地发生了
。例如,在我们发布在社交媒体上的一个视频中,篮球被投放到一个场景中。因为它是 3D 的,所以你可以拥有这种能力。如果场景只是 2D 生成的像素,篮球将无处可去。
ES
:或者,就像在 Sora 中一样,它可能会出现在某个地方,但随后就消失了。在尝试推进这项技术的过程中,你们面临的最大技术挑战是什么?
李飞飞
:没有人解决过这个问题,对吧?这非常非常难。在 World Labs 的演示视频中,你可以看到我们用一幅梵高的画,以统一的风格生成了它周围的整个场景:艺术风格、灯光,甚至街区会有什么样的建筑。
如果你转过身去,它就变成了摩天大楼,那就完全没有说服力了
。它必须是 3D 的。你必须在其中导航。因此,它不仅仅是像素。
ES
:你能说说你用来训练它的数据吗?
李飞飞
:很多。
ES
:你在算力负担方面是否面临技术挑战?