专栏名称: 张小北
编剧,太空堡垒预告片工作室联合创始人 工作事宜请联系邮箱:[email protected]
目录
相关文章推荐
凤凰网  ·  豆瓣9.3,70岁导演拍出最好哭国产片 ·  昨天  
凤凰网  ·  豆瓣9.3,70岁导演拍出最好哭国产片 ·  昨天  
银幕穿越者  ·  史上“最挤”中秋档总票房仅3亿 ... ·  4 天前  
张小北  ·  //@宋方金://@植物眼:看来直播带货的模 ... ·  4 天前  
Mtime时光网  ·  30年了,最另类武侠片绝对是它! ·  6 天前  
张小北  ·  转发微博-20240915224419 ·  1 周前  
51好读  ›  专栏  ›  张小北

转发微博-20240922095934

张小北  · 微博  · 电影  · 2024-09-22 09:59

正文

2024-09-22 09:59

转发微博
#模型时代# 李飞飞:为何空间智能是下一个AI纪元。
李飞飞刚刚和贾斯汀-约翰逊等组队成立了空间智能公司World Labs。a16z的播客节目马上对李飞飞团队做了一个访谈。他们一起探讨了从早期人工智能寒冬到深度学习崛起以及多模态人工智能快速发展的历程。
节目的介绍说,如果你对人工智能如何超越现在的“语言模型”阶段,进入三维生成世界的新领域感到好奇,那么一定要听。

我印象最深刻的一句话是"视觉空间智能是如此基础。它和语言一样基础,可能在某些方面更加古老和基础"。确实,离开人类世界,就没有语言了,但是依然有视觉。但是我又觉得AI视觉很可能又超越人类视觉,因为人类的视觉只能接受波长380至760纳米的电磁波(也就是可见光部分,150种色)。

***
时间戳:
00:00 - 空间智能:新领域
01:38 - 扩展人工智能:ImageNet 对计算机视觉的影响
06:56 - 计算的作用
09:16 - 数据是关键驱动因素
17:01 - 确定人工智能的终极目标
18:58 - 什么是空间智能?解开人工智能中的三维理解
26:35 - 模型比较:空间智能与基于语言的人工智能
29:41 - 1D vs. 3D
32:39 - 利用空间智能构建沉浸式世界
35:11 - 从静态场景到动态世界
37:42 - VR 和 AR 的未来
40:42 - 创建深度技术平台
44:26 - 打造世界级团队
45:54 - 衡量成功:空间智能的里程碑

核心观点:
***
1、空间智能被李飞飞描述为"AI的下一个前沿",其重要性不亚于语言智能。这一领域涉及理解和生成3D/4D世界结构,这对于任何需要在物理世界中感知、推理和行动的智能系统来说都是至关重要的。

2、一个关键的区别在于,语言模型基于一维序列表示,而空间智能需要本质的三维表示。Justin解释:"语言模型和多模态语言模型的底层表示是一维的。我们谈论上下文长度、transformer、序列...从根本上说,它们对世界的表示是一维的。"这种本质上的差异意味着空间智能需要全新的方法和算法。

3、计算能力的指数级增长是推动AI进步的关键力量。现代GPU的计算能力比10年前快1000倍以上。Justin举例:"AlexNet(2012年的里程碑模型)在两块GTX 580上训练了6天。而在最新的GB200上,同样的训练只需不到5分钟。"这种计算能力的飞跃为更复杂的空间智能模型铺平了道路。

3、大规模数据集,如ImageNet,对推动计算机视觉的突破至关重要。李飞飞i回顾道:"在ImageNet之前,数据集大多只有几千或几万张图像。我们认为需要将其扩展到互联网规模。"这种对大规模、高质量数据的强调仍然是空间智能研究的核心。

4、计算机视觉领域经历了从监督学习到自监督学习的重要范式转变。Justin解释:"在监督学习时代,我们需要人工标注每一张图像。而现在的算法突破使我们能够利用未标记的数据。"这一转变极大地扩展了可用的训练数据,促进了更强大、更通用的模型的发展。
神经辐射场(NeRF)等技术模糊了3D重建和生成之间的界限。李飞飞指出:"当NERF出现在生成方法和扩散模型的背景下时,重建和生成开始真正融合。"这种融合为创建更真实、更灵活的3D模型开辟了新的可能性。

5、空间智能有望实现多种突破性应用,包括虚拟世界生成、增强现实和先进的机器人技术。Justin设想了一个未来:"我们不仅仅是获得一个图像或一个短视频片段,而是得到一个完整的模拟但充满活力和互动性的3D世界。"这种技术可以彻底改变游戏、教育、设计等多个领域。

6、发展空间智能需要跨学科的专业知识,涵盖计算机视觉、图形学、系统工程等多个领域。Justin强调:"我们需要在每个必要的子领域找到世界顶级的专家,来共同构建这个极其复杂的系统。"这种多学科方法反映了空间智能的复杂性和广度。

7、World Labs的目标是开发基础的空间智能模型,而不是专注于特定的应用。李飞飞解释:"我们将自己视为一家深度技术公司,是提供可服务于不同用例的模型的平台公司。"这种方法旨在创造一个通用的技术基础,可以适应各种未来的应用。

8、语言是人造的,而3D世界遵循物理定律,这使空间智能成为一个独特的挑战。李飞飞指出:"语言从根本上说是纯粹的生成信号。而3D世界不是。它遵循物理定律,有特定的结构。"这种固有的复杂性要求空间智能模型必须学习和遵循现实世界的规则。

9、尽管2D视频可以提供一些深度信息,但它不足以完全捕捉3D世界的复杂性。Justin解释:"即使你最终看到的是2D图像或视频,你的大脑也在将其解释为3D世界的投影。"原生的3D表示能够实现更自然、更直观的交互和操作。

10、空间智能有望成为AR/VR/MR设备的核心操作系统。李飞飞预测:"无论硬件形式是什么 - 护目镜、眼镜还是隐形眼镜 - 空间智能都将成为增强现实、虚拟现实和混合现实的操作系统。"这种技术可能会取代我们现有的多个屏幕,实现虚拟和物理信息的无缝融合。

11、对于机器人来说,空间智能至关重要。李飞飞解释:"机器人的接口天生就是3D世界,但它们的计算和'大脑'本质上是数字的。空间智能是连接机器人数字大脑和真实世界行为的关键。"这突显了空间智能在未来自主系统中的核心地位。

12、实现完整的空间智能是一个持续的旅程,可能带来我们现在无法想象的应用。Justin认为:"宇宙是一个巨大的、不断演化的四维结构,广义上的空间智能就是要理解这一切的深度,并找出所有可能的应用。"这种开放式的愿景暗示了空间智能的巨大潜力和长期影响。 高飞的微博视频