专栏名称: 人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构

李飞飞：理解世界运作方式是AI的下一步，我们需要从大语言模型转向大世界模型

人工智能学家 · 公众号 · AI · 2024-11-27 16:43

主要观点总结

本文介绍了人工智能的发展，特别是从大型语言模型到大型世界模型的转变。文章强调了基于视觉的智能的重要性，以及我们如何从计算机视觉这一AI子领域的发展来推动这一变革。作者还提到了未来知识库的重要性，并列举了一系列前沿科技趋势报告，包括人工智能、深度具身智能体的空间推理与规划、低空经济场景等。

关键观点总结

关键观点1: 人工智能发展的重要性

文章强调了人工智能发展的重要性，特别是从大型语言模型向大型世界模型的转变。这是实现真正以人为中心的人工智能的关键步骤。

关键观点2: 基于视觉的智能的核心地位

文章指出，基于视觉的智能，即空间智能，是人工智能发展的下一个前沿。它对于人类理解和与世界互动的能力起着至关重要的作用。

关键观点3: 计算机视觉领域的进展

文章介绍了计算机视觉领域的发展，包括使用神经网络模型识别图像和生成图像的技术进步，以及这些进步如何帮助引发现代AI热潮。

关键观点4: 未来知识库的作用

文章提到了未来知识库的重要性，并列举了一系列前沿科技趋势报告，涵盖了人工智能、深度具身智能体的空间推理与规划、低空经济场景等多个领域。

正文

图片来源：Princeton University

来源：图灵人工智能

编译：ChatGPT

语言中充满了视觉格言。 比如，“眼见为实”，“一幅画胜过千言万语”，“眼不见，心不烦”等等。这是因为我们人类从视觉中获取了很多意义。但并不是一直都具备视觉能力。直到大约 5.4 亿年前，所有生物都生活在水面以下，且它们都无法看见。只有随着三叶虫的出现，动物们才能第一次感知到周围阳光的丰富。接下来发生的事情是非凡的。在接下来的 1 千万到 1.5 千万年中，视觉的能力开启了一个被称为寒武纪大爆发的时期，在这个时期，大多数现代动物的祖先出现了。

今天，我们正在经历人工智能（AI）的现代寒武纪大爆发。似乎每周都有一种新的、令人惊叹的工具问世。最初，生成式AI革命是由像 ChatGPT这样的巨大语言模型推动的，它们模仿人类的语言智能。但我相信，基于视觉的智能——我称之为空间智能——更为根本。语言很重要，但作为人类，我们理解和与世界互动的能力在很大程度上基于我们所看到的。

一个被称为计算机视觉的AI子领域长期以来一直致力于教会计算机拥有与人类相同或更好的空间智能。过去 15 年，该领域迅速发展。并且，在以AI以人为本的核心信念指导下，我将我的职业生涯奉献给了这一领域。

没有人教孩子如何看。孩子们通过经验和例子来理解世界。 他们的眼睛就像生物相机，每秒拍摄五张“照片”。到三岁时，孩子们已经看过数亿张这样的照片。

我们需要从大型语言模型转向大型世界模型

我们知道，经过数十年的研究，视觉的一个基本元素是物体识别，因此我们开始教计算机这种能力。这并不容易。将一只猫的三维（3D）形状呈现为二维（2D）图像的方式是无穷无尽的，这取决于视角、姿势、背景等。 为了让计算机在图片中识别出一只猫，它需要拥有大量信息，就像一个孩子一样。

这一切直到 2000 年代中期才成为可能。那时，被称为卷积神经网络的算法，经过数十年的发展，遇到了现代 GPU 的强大能力以及“大数据”的可用性——来自互联网、数码相机等的数十亿张图像。

我的实验室为这一融合贡献了“大数据”元素。在 2007 年，我们在一个名为 ImageNet 的项目中创建了一个包含 1500 万张标记图像的数据库，涵盖 22000 个物体类别。然后，我们和其他研究人员使用图像及其相应的文本标签训练神经网络模型，使得模型能够用简单的句子描述之前未见过的照片。利用 ImageNet 数据库创建的这些图像识别系统的意外快速进展，帮助引发了现代AI热潮。

随着技术的进步，基于变换器架构和扩散等技术的新一代模型带来了生成性AI工具的曙光。在语言领域，这使得像 ChatGPT这样的聊天机器人成为可能。在视觉方面，现代系统不仅能够识别，还可以根据文本提示生成图像和视频。结果令人印象深刻，但仍然仅限于2D。

为了让计算机具有人类的空间智能，它们需要能够建模世界、推理事物和地点，并在时间和3D空间中进行互动。简而言之，我们需要从大型语言模型转向大型世界模型。

我们已经在学术界和工业界的实验室中看到了这一点的初步迹象。借助最新的 AI 模型，这些模型使用来自机器人传感器和执行器的文本、图像、视频和空间数据进行训练，我们可以通过文本提示来控制机器人——例如，要求它们拔掉手机充电器或制作一个简单的三明治。或者，给定一张 2D 图像，该模型可以将其转化为用户可以探索的无限数量的合理 3D 空间。

应用是无穷无尽的。想象一下，能够在普通家庭中导航并照顾老人的机器人；为外科医生提供不知疲倦的额外帮助；或者在模拟、培训和教育中的应用。这是真正以人为中心的人工智能，空间智能是它的下一个前沿。人类进化了数亿年所取得的成果，现在在计算机中仅需几十年就能出现。而我们人类将是受益者。

本文翻译自：The Economist, https://www.economist.com/the-world-ahead/2024/11/20/fei-fei-li-says-understanding-how-the-world-works-is-the-next-step-for-ai

阅读最新前沿科技研究 报告，欢迎访问 欧米伽研究所的“未来知识库”

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0（167页）

3. 战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

4. 人工智能与物理学相遇的综述（86页）

5. 麦肯锡：全球难题，应对能源转型的现实问题（196页）

6. 欧米伽理论，智能科学视野下的万物理论新探索（50页报告）

7. 《美国反无人机系统未来趋势报告（2024-2029 年）》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015（94页）

11. CB Insights：未来变革者：2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页，美国防部首席数字和人工智能办公室（CDAO）

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP：2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察：引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起：整合人工智能、区块链技术与量子计算(研究报告，书）

19. OpenAI o1 评估：AGI 的机遇和挑战（280页）

20. 世界知识产权组织：2024 年全球创新指数（326页）

21. 美国白宫：国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索，243页

23. 中国信通院：量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能，144页

26. 联合国：《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织：2024团结在科学中，守卫地球系统的未来

28. 世界经济论坛《量子技术助力社会发展：实现可持续发展目标》研究报告

29. 人工智能科学家：迈向全自动开放式科学发现

30. 欧盟：石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会：美国的数字身份之路研究报告

32. 麦肯锡：2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议：2024世界投资报告

34. 兰德：评估人工智能对国家安全和公共安全的影响

35. 兰德：2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织：2015-2022 年生物多样性与发展融资

37. ITIF：中国半导体创新能力研究报告

38. 英国皇家学会：数学未来计划，数学和数据教育的新方法研究报告

39. 欧盟：10年人类大脑计划创新评估报告

40. GLG格理集团：2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国：2024为人类治理人工智能最终报告

43. 达信Marsh：2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询：2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

46. 麦肯锡：2024世界能源产业展望

47. 世界经济论坛《太空：全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛：世界“技术先锋”名单100家公司名单

49. 世界经济论坛：2024绘制地球观测的未来：气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

51. 大模型生成的idea新颖性与人类对比研究报告（94页）

52. IQM ：2024 年量子状况报告

53. 2024十大新兴技术研究报告

54. 2024地球观测 (EO) 洞察带来的全球价值（58页）

55. 2023-2024世界基础设施监测报告

56. 世界银行：2024世界发展报告，中等收入陷阱

57. 2024国际前沿人工智能安全科学报告132页