专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
目录
相关文章推荐
南京日报  ·  全国甲级旅游民宿!南京+1 ·  6 小时前  
草原云 北方新报  ·  免票!半价!哪吒粉丝福利来啦 ·  7 小时前  
草原云 北方新报  ·  免票!半价!哪吒粉丝福利来啦 ·  7 小时前  
新熵  ·  DeepSeek成BAT生死符,不接入就出局? ·  2 天前  
资质体系认证中心  ·  【重要通知】信息技术服务标准(ITSS)运行 ... ·  3 天前  
资质体系认证中心  ·  【重要通知】信息技术服务标准(ITSS)运行 ... ·  3 天前  
51好读  ›  专栏  ›  学术头条

专访「AI 教母」李飞飞:世界是三维的,我们需要尊重这一事实

学术头条  · 公众号  ·  · 2024-12-13 08:23

正文


在人工智能(AI)领域,斯坦福大学教授李飞飞被称为“AI 教母”。


她在深度学习革命中发挥了重要作用,多年来一直致力于创建 ImageNet 数据集和竞赛,该数据集和竞赛要求人工智能系统识别 1000 个类别的物体和动物。2012年,一个名为 AlexNet 的神经网络在 ImageNet 竞赛中获得了冠军,其出色的表现震惊了整个人工智能研究界。


从那时起,神经网络 在互联网上提供的大量免费训练数据和可提供前所未有计算能力的 GPU 的推动下, 开始取得突破


在 ImageNet 出现之后的 13 年里,计算机视觉研究人员掌握了物体识别技术,并开始研究图像和视频生成技术。李飞飞与他人共同创建了斯坦福以人为本人工智能研究院(HAI),并 继续推动计算机视觉的发展 。就在今年,她创办了一家初创公司--World Labs,该公司可以生成用户可以探索的 3D 场景。World Labs 致力于赋予人工智能“空间智能”,即 生成 3D 世界、在 3D 世界中进行推理并与之互动的能力。


昨天,李飞飞在人工智能顶会 NeurIPS 上发表了题为“ From Seeing to Doing: Ascending the Ladder of Visual Intelligence ”的主旨演讲, 阐述了她对机器视觉的愿景


主旨演讲链接:

https://neurips.cc/virtual/2024/invited-talk/101127


在演讲前,李飞飞接受了 IEEE Spectrum 高级编辑 Eliza Strickland 的专访。内容如下:


Eliza Strickland :为什么将演讲题目定为“攀登视觉智能的阶梯”(Ascending the Ladder of Visual Intelligence)?


李飞飞 :我认为,直观地说,智能有不同程度的复杂性和先进性。在演讲中,我想表达的是,在过去的几十年里,尤其是深度学习革命的十多年里,我们在视觉智能方面所学到的东西令人惊讶。我们的技术能力越来越强。Judea Pearl 提出的“因果关系阶梯”也给了我启发。


演讲还有一个副标题,“从看到做”。人们对这一点还不够了解: 无论是动物还是 AI 智能体,“看”都与互动和“做”密切相关。这和语言是不同的。语言从根本上说是一种交流工具,用来传递思想 。在我看来,这些都是非常互补但同样影响深刻的智能模态。


ES :你的意思是说,我们会本能地对某些景象做出反应?


李飞飞 :我说的不仅仅是本能。如果你看一下感知的进化和动物智能的进化,就会发现这两者之间有着深刻的联系。 每当我们能够从环境中获得更多信息时,进化的力量就会推动能力和智能的发展。如果你不能感知环境,你与世界的关系就会非常被动 ;你是吃还是被吃,都是非常被动的行为。但是,一旦你能够通过感知从环境中获取线索,进化的压力就会真正增大,从而推动智能的发展。


ES :你认为这就是我们创造更深入的机器智能的方式吗?让机器感知更多环境?


李飞飞 :我不知道“深入”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂,越来越有能力。我认为, 解决空间智能问题是迈向全面智能化的基础和关键一步 ,我对这一点深信不疑。


ES :我看过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界?


李飞飞 :我认为 空间智能是视觉智能的发展方向 。如果我们真的要解决视觉问题,并将其与做某些事联系起来,有一个非常简单、一目了然的事实: 世界是 3D 的。我们生活的世界不是平面的。我们的物理智能体,无论是机器人还是设备,都将生活在 3D 世界中 。就连虚拟世界也变得越来越 3D 化。如果你与艺术家、游戏开发者、设计师、建筑师和医生交谈,即使他们是在虚拟世界中工作,其中大部分也是 3D 的。如果你能静下心来,认清这个简单而深刻的事实,那么毫无疑问,破解 3D 智能问题就是根本所在。



ES :我很好奇 World Labs 展示的场景是如何保持物体的持久性和遵守物理定律的。这感觉像是一个令人兴奋的进步,因为像 Sora 这样的视频生成工具仍然在摸索这些东西。


李飞飞 一旦你认同了世界的 3D 性,很多事情就自然而然地发生了 。例如,在我们发布在社交媒体上的一个视频中,篮球被投放到一个场景中。因为它是 3D 的,所以你可以拥有这种能力。如果场景只是 2D 生成的像素,篮球将无处可去。


ES :或者,就像在 Sora 中一样,它可能会出现在某个地方,但随后就消失了。在尝试推进这项技术的过程中,你们面临的最大技术挑战是什么?


李飞飞 :没有人解决过这个问题,对吧?这非常非常难。在 World Labs 的演示视频中,你可以看到我们用一幅梵高的画,以统一的风格生成了它周围的整个场景:艺术风格、灯光,甚至街区会有什么样的建筑。 如果你转过身去,它就变成了摩天大楼,那就完全没有说服力了 。它必须是 3D 的。你必须在其中导航。因此,它不仅仅是像素。


ES :你能说说你用来训练它的数据吗?


李飞飞 :很多。


ES :你在算力负担方面是否面临技术挑战?








请到「今天看啥」查看全文