专栏名称: 投资银行在线
投资银行在线 Investment Bank Online,一个资本与项目对接的平台,一个互联网金融的探索者和实践者。
51好读  ›  专栏  ›  投资银行在线

AI教母李飞飞最新演讲:如何构建空间智能?

投资银行在线  · 公众号  ·  · 2024-07-26 10:08

正文

图片来源:Figma
Z Highlights

  • 九年前,李飞飞站在TED舞台上,发表了一个关于计算机视觉的早期进展报告,这是人工智能的一个子领域。当时,有三股强大的力量首次汇聚在一起:被称为神经网络的算法家族,被称为GPU的快速专用硬件,以及像她的实验室花费多年时间策划的包含5000万张照片的图像集(ImageNet)这样的大数据。当这些因素结合在一起时,不仅使计算机的视觉能力达到了前所未有的高度,还开启了现代人工智能的时代。

  • 在未来,我们能将整个世界以数字形式捕捉下来,能够模拟世界的丰富和细微差别,就像大自然在我们个人思维中潜移默化地做的一样。随着空间智能的发展加速,这一良性循环的新时代正在我们眼前上演。

  • 空间智能技术使机器能够与人,以及真实或想象中的三维世界进行互动。

智能的产生

李飞飞: 我今天来这里是想和大家分享一些令我激动的关于人工智能的最新进展。我演讲的题目是“从看见到行动:向计算机和机器人‘教授’空间智能”。真正让我兴奋的是,在座的各位都是像素达人,而像素真的让我很兴奋。所以让我先给大家展示一些东西。好吧,除了这个logo,其实我什么也没展示给你们。

这就是5.4亿年前的世界,纯粹、无尽的黑暗。黑暗并不是因为缺乏光线,而是因为缺乏视觉。实际上,阳光可以透过一千米的海洋表面,而热液喷口的光也能渗透到海底。尽管这里充满了生命,但在这些古老的水域中找不到任何一只眼睛,没有视网膜、没有角膜、没有晶状体。所以,所有这些光、所有这些生命都是看不见的。

曾经有一段时间,“看见”这一概念尚未存在,它只是一种从未有过的东西,直到我们开始了解它。三叶虫,第一个能感知光线的器官出现了。它们是我们认为的现实世界的第一批居民,也是第一个发现这个世界上还有许多其他自我的生物。人们认为,这种视觉能力帮助开启了一个叫做寒武纪大爆发的时期,在这一时期,有大量不同种类的动物物种化石记录。最初是被动的体验——单纯的光线进入,随后变得更加丰富和活跃。 神经系统开始进化,视力转变为洞察力,看见变成了理解,理解引导了行动,所有这些都促成了智能的产生。

因此,在5亿年后的今天,我们不再满足于仅仅拥有自然赋予我们的视觉智能。我们的好奇心促使我们创造出能像我们一样聪明,甚至比我们更聪明的机器。
图片来源:Figma

空间智能的发展

李飞飞: 九年前,我站在TED舞台上,发表了一个关于计算机视觉的早期进展报告,这是人工智能的一个子领域。 当时,有三股强大的力量首次汇聚在一起:被称为神经网络的算法家族,被称为GPU的快速专用硬件,以及像我的实验室花费多年时间策划的包含5000万张照片的图像集(ImageNet)这样的大数据。当这些因素结合在一起时,不仅使计算机的视觉能力达到了前所未有的高度 ,还开启了现代人工智能的时代。 我们已经走了很长一段路,当时仅仅是标注物体就已经是一项突破,就像那些早期三叶虫第一次看到光一样。

但神经网络算法的速度和准确性逐年迅速提高。由我的实验室主导的年度ImageNet挑战赛评估了这些算法的表现,每年提交的数据都在刷新纪录,你们可以从这幅图中可以看到一些模型、里程碑模型的年度进展。我们还进一步开发了能够分割物体的模型,甚至能够识别视频中物体之间的动态关系,而不仅仅是标记物体。

但还有更多事情要做。我记得,大约10年前,我展示了第一个可以用人类自然语言描述图像和照片的计算机视觉算法,这是一种自动撰写字幕的方法,这是与我出色的前学生Andrej Karpathy共同完成的。那时,我想试试运气,让Andrej操作计算机做相反的事情,根据口头描述创建图像。Andrej说这是不可能的。然而,正如你最近在这条推文中看到的,在短短几年内,不可能的事情变成了可能,这要归功于最近在生成式AI中使用的扩散模型的发展。现在,AI程序可以根据任何人类输入的句子创建全新的照片或视频。

你们中的许多人已经看到了Sora OpenAI的成果,即使没有大量的GPU也可以实现。我的学生和我们的合作者在Sora之前几个月就创造了一个名为Volt的生成模型。这只是部分成果。当然,我们还有成长的空间,我们也会犯错误。比如,看看猫眼是如何潜入波浪之下而不被弄湿的,真是个灾难。但你们已经克服了这些, 我们将从这些错误中学习,创造我们想象中的未来。在未来,我们希望充分利用AI的所有潜力。

多年来,我一直在说,拍一张照片并不等于看到和理解它。现在我想补充一点,单单看到是不够的,看到是为了做和学习。当我们在三维时空中行动时,我们就会学习,学习如何看和做得更好。大自然创造了这种由空间智能驱动的'看'与'做'的良性循环。

让我们来看看这张照片,如果这张照片让你想做点什么,请举手,如果这种情况在现实生活中真的发生过,请继续举手。在瞬间,你的大脑会看着玻璃杯的几何形状,它在三维空间中的位置,它与桌子、盖子及周围所有物体的关系,然后你预测接下来会发生什么。不仅如此,你的大脑已经计算出了让你冲向那个玻璃杯从而拯救你的地毯的动作。

对于具有空间智能的生物,这种行动的冲动是与生俱来的,空间智能将感知与行动联系在一起。因此, 要推进人工智能的发展,就必须超越它的能力。 今天,我们需要的不仅仅是能看或能说的人工智能,我们需要能做的人工智能,就像大自然赋予我们的那样。实际上,我们在这方面正取得令人兴奋的进展,我们在空间智能方面的最新里程碑正在催化这个良性循环,即教会计算机看、做、学,然后看得更好、做得更好。

这并不容易。动物花了数百万年的时间进化出空间智能,这依赖于眼睛使用光线将二维图像投射到视网膜上,再由大脑将这些图像翻译成三维。直到最近,谷歌的一组计算机视觉研究人员才做到这一点。他们创建了一种算法,可以仅通过一组照片将数据转化为三维形状。以下是他们工作的更多成果。同时,我在斯坦福的学生和同事更进一步,创建了一种仅需一张图像就能生成三维形状的算法。以下是我们工作的一些成果。

回想一下,我们之前用文本输入来生成视频。密歇根大学的一组研究人员想出了如何将一行文本转化为三维空间布局。这为室内设计和规划设计的提供了可能性。

与此同时,我在斯坦福的同事和学生们开发了一种算法,可以将一幅图像生成无限可能的空间供观众探索,或者说像进入一个完全不同的世界,这些原型是未来可能性的第一个萌芽迹象。 在未来,我们将整个世界以数字形式捕捉下来,能够模拟我们世界的丰富和细微差别,就像大自然在我们个人思维中潜移默化地做的一样。随着空间智能的发展加速,这一良性循环的新时代正在我们眼前上演。

空间智能的未来展望

李飞飞: 这种反反复复的学习正在推动机器人学习,这是任何需要直接理解三维世界并与之互动的智能系统的关键组成部分。十年前,我的实验室利用图像技术建立了一个拥有数百万张高质量图像的数据库,帮助计算机观看学习。

现在,我们正在通过行为和动作来教会计算机如何在三维世界中行动。我们不再手动创建训练示例,而是利用由3D空间模型驱动的仿真环境,提供无限的变化和互动。你现在看到的只是在仿真环境中训练机器人的无限可能性中的一小部分示例。这是我实验室开发的一个名为Behavior的项目。此外,基于大语言模型的输入,机器人语言智能也取得了令人激动的进展。






请到「今天看啥」查看全文