添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
白小交 发自 凹非寺
转载自:量子位(QbitAI)
我们无法忽视世界是三维的,解决三维智能是根本性的。
李飞飞最新采访来了,继续延伸她在NeurIPS有关视觉智能的话题。
她表示,解决空间智能问题是迈向全面智能化的基础和关键一步。
不过从现场传出的NeurIPS演讲PPT中竟然有写:AI将取代人类?!
这究竟是怎么一回事?!
有网友表示,当她看到这页时,她的表情be like:
有一说一,今年NeurIPS好不热闹,大佬们聚在一起,就是容易制造各种话题(Doge)。
比如,疑似Bengio和OpenAI o1的人吵起来了。
何恺明竟然探讨起了AI宿命论???
来来来,来看看一个吃瓜汇总。
李飞飞180页PPT谈视觉智能
今年李飞飞在NeurIPS演讲的话题是《从看到到做:攀登视觉智能的阶梯》。
她自曝准备了180页ppt,从各种路透图来看,确实是干货满满。
而在最新IEEE Spectrum采访中,她进一步揭示了相关细节。(该采访是在NeurIPS演讲前进行)
采访实录:
Q:为什么演讲题目是“攀登视觉智能的阶梯(Ascending the Ladder of Visual Intelligence)”?
李飞飞:我认为,直觉告诉我们,智能具有不同的复杂度和精密度。在演讲中,我想传达这样一种感觉:在过去的几十年里,尤其是过去十多年的深度学习革命中,我们在视觉智能方面所取得的成就令人惊叹。我们越来越擅长使用这项技术。我还受到了 Judea Pearl 的“因果关系阶梯”的启发。(收录于2020年出版的《the Book of Why》)
(这里插一嘴,Judea Pearl本人还特意纠正了一下,他表示因果关系阶梯所定义的等级是第一定律的数学结果,而不是一种判断性的建构。)
李飞飞:演讲还有一个副标题,即“从看到到做(From Seeing to Doing)”。这是人们没有足够重视的一点:“看 ”都与互动和 “做 ”密切相关,无论是对于动物,还是AI Agents来说都是如此。这与语言是不同的。语言从根本上说是一种交流工具,用来传递思想。在我看来,这些都是非常互补但同样深刻的智能模式。
Q:你的意思是说,我们会对某些景象做出本能的反应?
李飞飞:我说的不仅仅是本能。如果你看一下感知力的进化和动物智力的进化,就会发现这两者之间有着深刻的联系。每当我们能够从环境中获得更多信息时,进化的力量就会推动能力和智力的发展。如果你不能感知环境,你与世界的关系就会非常被动;你是吃还是被吃,都是非常被动的行为。但是,一旦你能够通过感知从环境中获取线索,进化的压力就会真正增强,从而推动智力向前发展。
Q:你认为这就是我们创造更深入的机器智能的方式吗?让机器感知更多的环境?
李飞飞:我不知道 “深度 ”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂,越来越有能力。我认为,解决空间智能问题是迈向全面智能化的基础和关键一步,这是绝对正确的。
Q:我看过世界实验室的演示。你为什么要研究空间智能并构建这些三维世界?
李飞飞:我认为空间智能是视觉智能的发展方向。如果我们真的要破解视觉问题,并将其与做事联系起来,那么有一个极其简单、一目了然的事实:世界是三维的。我们生活的世界不是平面的。我们的物理Agent,无论是机器人还是设备,都将生活在三维世界中。就连虚拟世界也变得越来越3D化。如果你与艺术家、游戏开发者、设计师、建筑师、医生交谈,即使他们是在虚拟世界中工作,其中大部分也是三维的。如果你能花点时间认识到这个简单而深刻的事实,那么毫无疑问,解决3D智能问题就是根本所在。
一旦你尊重了世界的三维性,很多事情就自然而然地发生了。例如,在我们发布在社交媒体上的一个视频中,篮球被投放到一个场景中。因为它是三维的,所以你可以拥有这种能力。如果场景只是 2D 生成的像素,篮球将无处可去。
Q:或者,就像Sora中那样,它可能会去到某个地方,但随后就消失了。在你尝试推进这项技术的过程中,最大的技术挑战是什么?
李飞飞:没有人解决过这个问题,对吧?这非常非常难。在世界实验室的演示视频中,你可以看到我们将一幅梵高的画作,以一致的风格生成了它周围的整个场景:艺术风格、灯光,甚至是那个社区会有什么样的建筑。如果你转过身去,它就变成了摩天大楼,那就完全没有说服力了,对吗?它必须是 3D 的。你必须进入其中。所以它不仅仅是像素。
Q:你能说说你用来训练它的数据吗?
李飞飞:很多。
Q:你们在计算负担方面遇到过技术挑战吗?
李飞飞:计算量很大。这是公共部门负担不起的计算量。这也是我很高兴能休假,以私营部门的方式来做这件事的部分原因。我的亲身经历强调了在获得充足资源的情况下进行创新的重要性。
知识的发现需要资源的支持,对吧?在伽利略时代,是最好的望远镜让天文学家观测到了新的天体。是虎克意识到放大镜可以变成显微镜,发现了细胞。每一次新技术工具的出现,都有助于知识的探寻。而现在,在人工智能时代,技术工具涉及计算和数据。我们必须认识到这一点。
Q:假设我们能让人工智能系统真正理解三维世界,这会给我们带来什么?
李飞飞:它将为人们释放大量的创造力和生产力。我希望能以更高效的方式设计我的房子。我知道,许多医疗用途都涉及到理解一个非常特殊的三维世界,那就是人体。我们总在谈论未来人类将创造机器人来帮助我们,但机器人是在三维世界中航行的,它们需要空间智能作为大脑的一部分。我们也在谈论虚拟世界,它能让人们参观景点、学习概念或娱乐。这些虚拟世界使用三维技术,尤其是混合技术,也就是我们所说的 AR(增强现实技术)。我很想戴着一副眼镜在国家公园里漫步,它能为我提供有关树木、道路和云彩的信息。我还想通过空间智能学习不同的技能。
Q:什么样的技能?
李飞飞:我举个蹩脚的例子,如果我在高速公路上爆胎了,我该怎么办?现在,我打开了一个 “如何换轮胎 ”的视频。但如果我能戴上眼镜,看到我的车发生了什么,然后在指导下完成这个过程,那就很酷了。但这只是个蹩脚的例子。你可以考虑烹饪,可以考虑雕刻—有趣的事情。
Q:你认为我们在有生之年能在这方面取得多大进展?
李飞飞:哦,我认为这将在我们有生之年实现,因为科技进步的步伐真的很快。你已经看到了过去 10 年所带来的变化。这无疑预示着下一步会发生什么。
今年NeurIPS好热闹
NeurIPS整个会议期间,可以说是好不热闹。
比如,Bengio和OpenAI的人吵起来了。
据在场的人爆料,在今年因果关系小组讨论中,OpenAI o1的主创表示,我们最终应该训练Agent来优化对世界的理解,来解决科学问题。
Bengio还有一位谷歌AGI安全研究员Tom Everitt则指出这样做很可怕!他们表示不应该制造这样强大的Agent,还有其他方法可以增强人类的能力,并进行科学研究,比如让模型学习因果图。
而就在刚才,Bengio还进一步回应了,再次强调了AI Agent潜在的风险。
如果我们不解决调整和控制问题,随着我们赋予系统越来越多的代理权,人工智能的风险将继续增长。在此之前,我们需要在科学和政策两方面取得重大进展。
而何恺明竟然探讨起了AI宿命论?!
据热心网友们的爆料,他是在被问到AI属于发明还是发现的时候。
他表示这要看你相不相信宿命论了。(Doge)
除此之外,他在演讲中探讨了AI未来的发展:Super-human AI?
据小红书网友爆料,他提到一个有意思的观点,他将人类比作大模型的传感器:
人类感知,理解,压缩了世界的所有的知识并用文本和语言记录下来。大语言模型吸取,学习这些内容并将其建模为一个强大而丰富的空间。但是就像你只用RGB观测宇宙一样,总会有紫外,红外这样看不到,看不清的东西。
△授权自博主@时间煮雨我主Q
好了,NeurIPS期间还有没有发生什么有意思的事情,欢迎小伙伴们跟我们爆料。
参考链接:
[1]https://spectrum.ieee.org/fei-fei-li-world-labs
[2]https://x.com/connoraxiotes/status/1866921924703498412
[3]https://x.com/kyliebytes/status/1866987524805234785
[4]https://www.xiaohongshu.com/explore/6759be860000000001029429
[5]http://xhslink.com/a/IFIoiN1IoRy1
[6]https://x.com/yoshua_bengio/status/1867274312941523193?s=46&t=iTysI4vQLQqCNJjSmBODPw
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看