各位早上好,我非常荣幸且激动能够在本周与大家共聚一堂,并带来此次开幕演讲。我也非常期待接下来最充满活力的讨论,甚至可能做出一些重要决定。
1.人工智能的历史与起源
对我们许多人而言,人工智能往往被视为一个关于技术、关于现代世界的故事,也毋庸置疑是一个关于未来的故事——这正是我们大家今天齐聚于此的原因。然而对我而言,它还是一个可以追溯到所有生命起源之初的故事,早在五亿年前就已经开始。那是一个极其久远的时代,当时连“视觉”这一概念都尚未出现,实际上连眼睛都尚未进化,没有任何生物曾看过这个世界,所有生命都被置于你现在在屏幕上所看到的那片黑暗当中。
当然,要在十分钟左右的时间里讲完五亿年的历史确实有点勉为其难,所以我给大家带来一个简要版:当进化赋予了你们在屏幕上所见的这些简单生物以感知周围世界并对这些感知(即便十分微弱)做出反应的能力时,一场进化军备竞赛由此展开。最初只是一种被动的体验——让光线进入体内,但不久之后就变得更加丰富并富有主动性。神经系统开始进化,“看见”开始转变为“洞察”,看见进而变为理解,而理解则推动了行动,所有这些都孕育了“智能”,从而永久地重塑了地球上生命的本质。
时至今日,五亿年之后,人类的智能已经让我们的物种可以想象并塑造工作和生活的方方面面。而我们也不再满足于仅仅拥有自然赋予的这份智慧。我们怀着的好奇心如今驱使我们想要创造出与我们同样聪明、甚至更胜一筹的机器。这也是为什么我们本周要讨论的这项重要技术,其起源可以追溯到20世纪中叶。
英国的伟大数学家艾伦·图灵(Alan Turing)极具前瞻性,早在计算机尚未真正出现之前,他就已经开始思考如何让它们拥有可与人类比肩的认知能力。对我而言,他的著作一直在向人类发出挑战:要大胆设想能够思考的机器,就像他自己所想象的那样。这股好奇心与雄心同样也感染了美国的早期计算机科学家们,他们不仅举办了首个研究项目来探索“会思考的机器”的可能性,还在1956年那个炎热的夏天正式提出了“人工智能”这一术语——比这个概念进入公众视野要早几十年。这张图片正是当时他们为那次研讨会撰写的研究论文截图。
说实话,令人觉得有趣的是,他们当时以为只需要两个月就能解决这一重大课题的很大一部分,甚至能破解智能的奥秘。也许他们太过乐观,但不得不佩服他们的胆识。如今,我们已经在那个“两个月项目”里走过了820个月,但确实也取得了不少实质性进展。
2.现代人工智能三大关键要素
另一个对人工智能的误解在于,认为它只是计算机和工程领域的事情,然而事实上,它一直以来都是一门高度跨学科、富有活力的追求。我们当今所处的现代人工智能时代,正是三项极其重要又各自独立的技术与科学进步汇聚而成的成果。
第一项是对感知算法的研究——即生物(包括动物乃至人类)如何理解周围世界,并最终创造出让机器也能具备类似能力的数学模型。在达特茅斯人工智能夏季研讨会上延续了图灵的大胆假设之后,神经生理学家David Hubel和Torsten Wiesel率先揭示了哺乳动物视觉皮层中神经处理的层次结构,为他们赢得了诺贝尔奖,也彻底改变了我们对视觉处理的认知。大约在同一时期,心理学家Frank Rosenblatt搭建了最早的神经网络原型之一——感知器(Perceptron)。这项工作启发了数十年后无数计算机科学家,尤其是早期先驱者,如Kunihiko Fukushima、Jeff Hinton、Yann LeCun、Yoshua Bengio等,去设计愈发先进的模型,最终形成了我们今天所熟知的深度学习神经网络算法,让机器拥有了自身近乎神奇的感知和分析能力。
与此同时,第二条研究脉络也开始出现——认知科学家转而研究人类自身的大脑,揭示我们对周围环境进行感知时所拥有的惊人深度和复杂性。他们的研究明确指出,无法将我们的脑与其所处的进化环境分割开来。大脑不过是一个被禁锢在颅骨黑暗之中的机器,却又从生命最初时刻开始,就急切地向外部学习,通过每一次光线的照射、每一次触觉刺激、每一声细语来获取信息。
对我个人而言,作为在21世纪初成长起来的科学家,当时感知算法几乎是我所在领域的唯一关注点,而认知科学带给我的启示在于“规模”。演化与发育能如此有效地塑造人类智慧,是因为它们能利用大量数据来驱动我们的学习。我和我的合作者、学生们推测,同样的规律也适用于机器,只不过这一次,数据来自现代数字设备和互联网,而不再是依靠生物感官。由此激发了我所在实验室发起的ImageNet项目——它是第一个针对人工智能的大规模互联网训练与评测数据集。我们提出了一个关键假设:数据是让神经网络等高容量算法真正“活起来”的关键。这个理念让神经网络焕发新生,开启了利用海量数据来推动人工智能进步的全球趋势,也成为如今所说的人工智能“规模定律”(scaling law)的一部分。
最后,如果没有极其强大的运算能力来支撑,以上所有成就都不会发生,或者根本连起点都无法跨越。最初的里程碑包括冯·诺依曼(von Neumann)在上世纪40年代提出的计算机体系结构理论,它一直沿用至今,并在70年代初催生了第一批微处理器。可有趣的是,真正让硅芯片原始运算速度获得飞跃的,竟是电子游戏。为追求更逼真的游戏画面,90年代初诞生了一个小型产业,但在短短二十年内迅速膨胀为全球巨头——以英伟达(NVIDIA)等公司为代表,开发出了越来越强大的图形处理器(GPU)。结果证明,这恰恰是让神经网络算法得以利用互联网规模大数据进行学习的最后一块拼图。所以,如果现场有游戏玩家,那我们要感谢你们。
3.2012年之后的人工智能突破
当然,后面的故事不仅仅是“历史”,更是建构未来的“配方”。2012年,在ImageNet挑战赛上,我的实验室率先将算法、数据和计算这三大要素首次大规模结合在一起,几乎在一夜之间就改变了我们整个领域。那是机器首次能够理解并准确地描述海量图像——成百上千万张之多。如今我们对此已经习以为常,但在当时,这是一项前所未有的壮举,甚至有些像科幻小说里的场景。它就像推倒了第一块多米诺骨牌,随后的一系列突破接连不断,并且来得越来越快。
如今,十多年过去了,我们依然在探索这一切的意义。当初只是学术界的一个好奇心驱动的研究,如今却年复一年地吸引着商界领袖、创业者、行业分析师,甚至政治家们的热切关注。如今,十多年过去了,我们依然看不到尽头。毫无疑问,历史学家今后一定会把这段时间称作“真正的第一个人工智能时代”。从任何一个你能想到的指标来看——无论是计算机专业中人工智能方向的学生人数、投资金额、新创企业数量,还是其他方面——人工智能都是一场在深度和广度上不断扩大的革命。我想在座的各位都不需要我来重复,过去几年里,人工智能又迎来了更惊人的跃进——也就是大型语言模型的出现。
这些大型语言模型把现代人工智能所依赖的三大要素——算法、数据和计算力——都推向了更极致的规模。它们采用了一种名为“Transformer”的新型模型架构,训练数据几乎覆盖了整个互联网,并在数量惊人的最新、最强大芯片上运行。正如我们所见,其结果是在机器能力上比过去十年来的任何一次突破都更为迅猛。现在我们几乎将“人工智能可以用自然语言流畅地跟我们对话”视为理所当然,人工智能能回答我们提出的几乎任何领域的问题,甚至能够生成各种复杂形式的内容——从图像、声音、音乐到视频,无所不包。ChatGPT所取得的惊人成就就是这项创新如何影响我们日常生活的最佳例证,因其创造了用户采用速度的历史新纪录。
而且,这些能力并不只是表面上看着“会说话”而已。若你看看这张图表,会发现人工智能模型在各种基准测试(从手写识别到博士水平的科学问答)上的表现近几年都在飞速攀升;其中一些难度极高、对人类来说具有挑战性的任务,人工智能的成绩简直像坐火箭一样往上蹿,几乎呈垂直上升的趋势。
4.大模型与近期人工智能进展
不仅如此,从能够流畅使用语言开始,大型语言模型还在朝更具“主动性”的方向发展——它们学会了将复杂任务分解成若干步骤,并逐步规划如何实现目标。人们目前将这种趋势称作“代理式(agentic)人工智能”。而在2025年,这似乎正成为这场深远技术演进的新篇章。对许多用户和企业而言,这些能力已经非常实用,而它们还远不止于此,后续的发展潜力更是不可估量。
我们目前所讨论的还大多停留在“语言智能”层面,但人类之所以为人,是因为我们拥有更全面、更完整的智能。从“被动感知”到“主动行动”的新阶段正在到来。在我自己的研究领域——涉及摄像头和机器人时,我看到人工智能正逐渐具备“创造、理解、推理和交互”这些维度,进而在数字或物理的三维空间里与人和环境相互作用。我们称之为“空间智能(spatial intelligence)”和“具身智能(embodied intelligence)”。