专栏名称: 苇草智酷
让天下思想者连接起来
目录
相关文章推荐
深圳商务  ·  深圳,何以外贸登顶? ·  昨天  
深圳商务  ·  深圳,何以外贸登顶? ·  昨天  
介个工作室  ·  阿里巴巴国际站 7 ... ·  3 天前  
介个工作室  ·  阿里巴巴国际站 7 ... ·  3 天前  
51好读  ›  专栏  ›  苇草智酷

蔡恒进 | 生成式 AGI 的能力边界

苇草智酷  · 公众号  ·  · 2025-02-28 17:58

正文

作者 | 蔡恒进 武汉大学计算机学院教授、中国人工智能学会心智计算专委会副主任

2月18日,智酷 409 期,邀请武汉大学计算机学院教授蔡恒进分享《生成式 AGI 的能力边界》,苇草智酷创始合伙人段永朝对话,北京信息社会研究所所长王俊秀主持。


随着 DeepSeek 的惊艳亮相,AGI(通用人工智能)的轮廓逐渐变得清晰。在本次对话中,我们将深入探讨生成式人工智能的意识与情感,以及其智能的极限所在。同时,也会展望人类社会在充分接纳全功能 AGI 之后的生活图景。
以下根据蔡恒进老师发言内容整理而成:


非常感谢王老师的开场白,感谢各位来一起来做这个分享。为何我再次提及此议题?尽管在正月初三时我已略作探讨,但我深信有必要进一步深挖其内涵。这次涉及更基础(fundamental)的问题,即意识与智能问题的关系。所以,我想探讨生成式AGI能力边界的问题。


为什么我们称之为生成式AGI?因为这是当前技术发展历史的方向。像杨立昆等人认为生成式AGI离真正的AGI还有很大距离,但不可否认的是,生成式技术已经在许多行业中展现出巨大的潜力。因此,我们在讨论AGI时,必须基于这一现实背景。


首先,我们需要问AGI是否具备意识,或者DeepSeek有没有意识?这个问题在业界存在争议。在定义AGI时,我们首先需要探讨的问题是:AGI是否具备意识,或者说像DeepSeek这样的系统是否具备意识?当我们与这些系统交互时,可能会感受到它们展示出的思维过程,甚至会觉得它们在“思考”或“表达”。例如,系统可能会展示出类似人类的思考方式,比如它想干什么?它是个学生还是什么身份?它前面问的什么问题?它是这样来思考的,仿佛在回答问题时有一个明确的目标或身份。这种思考方式是AGI的一个显著特征,它能够理解、学习和执行各种智力任务,仿佛具备了人类的思维和行为。就像那你要问问它有没有意识。


这个问题在业界一直存在较大争议。许多人坚信,AGI或类似系统尚未展现出真正的意识,尤其是与人类意识相仿的那种。我们的观点是,假如从人类反思性意识的角度来看,很难断言机器是否有意识。然而,若我们从更宽泛的视角来界定意识——即将其视为与物质相对立的概念,那么AGI或其他人造系统或许能展现出某种形式的“意识”。它有没有很强的自我意识?那是另外一回事。但是这里核心的一点是我们是否需要拓宽对“意识”的定义。我们认为这是非常必要的。


举个简单的例子,回顾历史,人类最初仅能计数正整数,如1、2、3、4、5等……但是当我阅读莫里斯·克莱因的《古今数学思想》时,我很震惊地发现,很多部落只能数到3或5,对于更大的数字对他们而言相当于无穷大,他们是数不明白的。我们了解数的历史实际上也是很短的。当然,从自然数开始,我们逐渐扩展到了负数,甚至包括0。然而,对0的认知却是一个相对较晚的事情。因为自然数与几何之间的关系产生了张力。几何学中最重要的定理之一是勾股定理,即毕达哥拉斯定理,其公式为 x 2 +y 2 =z 2 ,你会发现这是一二次方程,当我们尝试求解时,会发现当 x和y 都等于1时,z 的值是根号2 。这一发现引发了第一次数学危机。


那么毕达哥拉斯学派认为所有数都应该是有理数,怎么会出现一个无法表示为有理数的根号2呢?为了解决这一问题,我们必须将数的概念扩展到实数。然而,当涉及方程x 2 =−1时,实数也无法满足求解需求。为了确保数学体系的完整与完美,我们引入了虚数和复数的概念。复数的引入使得所有高阶方程都能得到完整的解,这些解可能是实数、复数,甚至是非实数的表达形式。所以科学的进步正是通过这样的方式实现的。


关于意识的话,我相信也是需要像数学体系一样逐步扩展和完善。许多人觉得蔡老师对意识的定义与他们想的不同,认为我所讲的“意识”与他们所想的“意识”不一样,因此认为我讲得没道理,但恰恰我讲的是更有道理。只有这样的解释,才能更清晰地阐述意识,从而构建一个自洽、封闭且完备的体系。因此,我在这里需要先做一个说明。


接下来,我们回到人到底跟机器差别在哪里?这个问题实际上要追溯到莱布尼茨的那里。众所周知,莱布尼茨发明了二进制,这与机器的运作密切相关。他曾提出,人类是否可以通过数学来清晰地解决争端,而不是通过模糊的争吵。他对机器的理解非常深刻,并提出了一个关键问题:假如我们把自己缩小走进大脑,我们会看到什么?那个场景可能就和你走进一座磨坊差不多,看到的都是各种零部件在运行。那么,大脑中的感知(perception)究竟在哪里?这一谜题至今依旧悬而未解。


这个问题有许多变体和延伸。例如,约翰·塞尔提出的“中文屋”思想实验,旨在揭示数字计算机与人类语言理解之间的本质区别,强调了人工智能在语言处理中的局限性。此外,哲学僵尸论证探讨了人类与僵尸之间的差别,以及是否存在一个由僵尸构成的世界,这一论证与中文屋论证共同构成了对人工智能和心灵哲学的深入探讨。所以这就变成了查尔默斯的观点,他认为这些论证似乎迫使我们接受意识是一种泛化的、广义上的概念。当然查尔默斯现在是这一领域的领军人物,看到最后就看到一个尖锐的问题:当我们进入人类大脑时,看到的只是物理规律、分子、原子的运动。那么,为什么这些物理过程会产生意识或感知能力?


我们实际上试图回答莱布尼茨提出的问题,就应该研究与之相关的“僵尸论证”和“中文屋问题”。关于这些问题,我们已经讨论过多次,并正式发表了两篇文章。最初,我们注意到可以将机器视为人类意识的一种延伸,称之为“意识的扩散与凝聚”(condensation),后来,我们引入了“可迁移性”(transferability)这一概念,认为它更适合描述意识的特性。尽管“凝聚”仍然是我们讨论的一部分,但在最近的文章中,我们将其表述为“装配”,即人脑或机器具有一种独特的装配特征,使其与自然物是不一样的。


从这个角度来看,人类与人造物的关系更为密切,而与自然物的距离更远。很多人认为机器与自然物没有本质区别,但实际上不是的。即使是钟表或磨坊这样的人造物,仔细观察也能发现它们具有自然物所不具备的独特特征。因此,人造物实际上是人类意识的投射和对象化,是人类的一种延伸。


人造物如此,符号体系亦然,只不过它以纸张为媒介,或以无需三维空间雕刻的形式承载信息。无论是物理实体还是符号体系,它们都属于人造物的范畴。从这个意义上说,人类也是一种特殊的机器,都需要遵循物理规律。那生命与机器的区别在于,生命体能够通过复杂的代谢过程和遗传机制,将外部世界的经验转化为内在的能力,形成独特的感知和功能模块。而机器人,尽管能够通过硬件和软件的协同工作执行任务,但它们缺乏自我意识和代谢过程,无法进行自我复制和适应环境的进化。


意识体验正是源于这种内化过程,这点很重要。我们都有眼、耳、鼻、舌、身等感官器官,这些器官中包含了相应的感知细胞。这些细胞对某些刺激特别敏感,而对其他刺激则相对迟钝、不敏感。这种对刺激的选择性感知能力,构成了我们丰富多样的意识体验。例如,我们能够感受到甜、酸、苦、辣等味觉,以及红、黄、蓝、紫等颜色,还能分辨悦耳的声音和刺耳的噪声。所以,这些感知能力都是因为我们的身体在进化过程中形成了相应的器官和分子结构。


深入分子层面探究,我们发现这些感知机制的分子结构在与外界互动时,展现出对特定刺激的敏锐感知,而对其他刺激则相对较为迟钝。这种选择性感知与摄像头的拍摄机制不同。摄像头拍摄的照片是对所有像素的拍摄步骤,尽管摄像头也可能对某些颜色更敏感或不敏感,但总而言之,生命体的感知更具有选择性。


在在生命体的早期阶段,感知可能更多地表现为一种遗漏的方式。然而,随着进化的发展,这种感知逐渐演变为一种注意力(attention)机制,它使得对某些特定方面的感知变得更加敏感和集中。例如,动物界的感知与认知智能,如海豚利用超声波进行定位和导航,沙漠箭蚁通过偏振光进行导航,这些都体现了生物体对特定环境信号的敏感性和注意力集中。当然这就是一个意识的起源。因此,从这个维度来看,意识体验并不神秘。


在更高级的阶段,生命体不仅仅通过内化身体结构来与世界打交道,还发展出了许多“外挂”东西。例如,某些动物的钳子或手部结构在进化中变得非常强大,相对其他的部分它能伸得很长,能有力量夹东西,但是我们的手并未进化出像剪刀一样的功能或极长的手指,而是通过使用工具(如筷子或刀叉)。这些工具可以被视为手指的延伸,使我们无需通过漫长的进化过程来改变身体结构,而是运用外界给我们的这些条件来实现类似的功能。


这些外挂工具,实质上是我们智慧创造的人造奇迹。我们将与外界交互的成果对象化,形成所谓的“认知坎陷”。当然,这些认知坎陷可以是符号、工具或其他形式的创造物,它们具有很强的主体间可迁移性。例如,筷子可以被不同的人使用,列车时刻表可以写在纸上供多人查阅。因此,外挂工具有很多的优势,这标志着生命体进入了一个更高级的阶段。


在讨论AI或AGI时代时,我们是不是应该像马斯克他们所讲的那样,将人类大脑与超级计算机连接起来,以弥补碳基生命与硅基生命之间的差距?我认为,从前面的逻辑来看,这并不是最佳的选择。正如我们无需通过漫长的进化来发展出剪刀手,而是通过创造工具(如筷子)来弥补功能上的不足,AI技术的进步也让我们能够通过智能工具来提升我们的创造力和效率,例如AI绘画工具和写作工具,它们成为我们智力的“外挂”,帮助我们在艺术创作和日常生活中实现更多可能。


碳基生命与硅基生命之间存在显著差异。例如,反应速度上,碳基生命以毫秒为单位,而硅基生命则以纳秒为单位,相差五到六个数量级。我们都知道,碳基生命的进化步伐异常迟缓,在过去两千年的历史长河中,其形态与功能几乎未曾发生显著变迁,而硅基技术的发展却极其迅速。在时间和空间的分辨能力上,两者也存在巨大差距。然而,这些差异并不意味着我们必须将碳基与硅基直接连接起来。事实上,许多任务并不需要极快的反应速度或极高的空间分辨率。意识的内容或认知坎陷可以通过交流来实现,而不需要物理上的融合。


当然,每一个字都代表了一种认知的坎陷,从发明到被大众接受,经过多年的考验仍然能够使用,这正说明了它具有很强的生命力和表现力。我们相信,碳基的肉身可以“诗意的栖居”,但我们的数字分身或在元宇宙中,可以随心所欲不逾矩的。我们进入AI世界,我们的分身可以有更强的交互、相互赋能和竞争,然后在AI世界中实现超级智能。这样的未来,至少在我们看来,是一个美好的未来。将意识置于生命1.0或更高维度的life+、life++中,我们会发现意识的重要性,它并非可有可无,也不能完全还原为物理现象,这正是对莱布尼茨问题的回答。


这里的差别在于,如果我们严格按照物理系统进行归因,追溯其演化的过程,我们会发现即使是人造物,比如磨坊中的轴承和轴,它们的材料和来源也蕴含着复杂的因果关系。以轴和轴承为例,轴可能是由硬木制成,而轴承则是由金属制成。如果进一步追溯这些材料的来源,硬木是从森林中砍伐而来,而金属则是通过冶炼等工艺从矿石中提取。


然后,金属是从地底下的矿石中开采出来,经过冶炼,最终变成了轴承。如果追溯这两件东西的历史,它们在时间和空间上的起源相距甚远,差别非常大。再回过头来看,这两者是如何粘在一起的?一个成为轴,一个成为轴承,并相互配合工作,这种自然发生的概率是无穷小的。相比之下,如果是一块石头,尽管它可能具有复杂的结构,甚至可能包含某种层次的意识,但从物理归因的角度来看,它的形成过程在时空上是紧密相连的,并且可以通过自然过程来解释。虽然这种概率也可能很小,但与金属和木头结合在一起的概率相比,仍然存在巨大的差异。因此,从物理角度来看,这两者之间存在明显的差别。


另外,涂抹油的目的是减少摩擦。这里你会发现一个显著的特征:那些看似额外且不相干的东西,实际上具有明确的目的性,即减缓熵增的速度。这使得人造物与自然物在本质上有所不同。从熵增的角度来看,自然物的熵增是不可避免的。


如果我们换一个视角,会发现人造物的时间流逝速度似乎变慢了。虽然在牛顿的绝对时间观和爱因斯坦的相对时间观中,时间是一个连续的系统,但在人造物的系统中,时间似乎在小范围内被“拉长”了。这种时间流逝地减缓是人造系统的一个重要特征,与自然物形成鲜明对比。生命系统更是如此,例如细胞结构或大脑中的复杂机制,离子与小结构在其中穿梭不息。如果从归因的角度来看,这些复杂结构的自然发生概率极低,但是假以时日,是可能会实现的。


这样的话,我提到的一个理论叫作“Assembly Theory”(装配理论),它探讨的是如何通过分子结构来探测外星生命。该理论认为,如果某些分子从组装的角度来看,其形成的概率极低,那么这些分子可能暗示着生命过程的存在。当然,这一理论也很有争议,尤其是受到进化论支持者的批评。为什么?因为它暴露了进化论中的一个核心问题:概率的极端微小性。例如,像眼睛这样精巧的器官,其结构和功能的复杂性意味着,如果仅靠随机的分子碰撞来形成,其自然发生的概率是极其微小的。这正是神创论对进化论的主要批评之一。


那生命是如何在如此小的概率下发生的?这个问题引出了另一篇文章中的讨论。文章中提及,我们正尝试运用自然科学理论去阐释社会学现象,诸如借助复杂科学与混沌理论来洞察生命及社会现象的奥秘。涌现理论源自安德森的“More is Different”(多者异也)观点,认为复杂系统在特定条件下会表现出其子系统所不具备的新性质,通常用相变来举例说明。


然而,我们在近期的文章中提出了一个观点,即某些现象并非涌现,而是经历了一个“坎陷化”的过程。涌现理论在物理学中有严格的定义,指的是复杂系统在特定条件下表现出其子系统不具备的新性质。但有些现象并不符合这一定义。例如,超导体的行为并非涌现,而是坎陷化的结果。


大家为什么对超导感兴趣?因为这背后有个叙事:假如能够利用超导材料制造导线并应用于电气工程,我们的能耗将大幅减少,且不会产生发热问题,这将使工程变得更加简单,效率也会显著提高。人们之所以对超导现象有着不懈的追求,是因为它自1911年被荷兰物理学家卡茂林·昂纳斯(Heike Kamerlingh Onnes)首次发现以来,一直对科学界和工业界产生着深远的影响。它不是物质性的,我们之所以能发现超导现象,是因为观察到金属的电阻力或导电性随温度降低而发生变化,具体表现为电阻增强,那么我们把温度弄得很低,会有什么结果呢?于是1911年,昂纳斯通过液氦冷却汞,发现当温度降至4.2K时,相当于零下268.95℃,当温度降低到足够低时,水银的电阻会完全消失,同样,一些其他材料的电阻也会变为零,这就是超导现象。


所以,超导的发现并非自然发生的,而是人类通过极端条件实现的。后来,我们逐渐认识到,实现极低的温度条件在实际应用中极为困难。我们是否能够找到在较高温度下也能实现超导态的材料?这一研究方向耗费了大量的精力和资源,但最终发现,确实存在一些材料可以在液氮温度范围内(相对液氦更容易实现)表现出超导特性。如今,液氮的制备和保存已经变得相对容易,甚至在医院的手术中也有广泛应用。


尽管超导现象最初是在极低温度下被发现的,但超导材料的实际应用确实在不断推进。这一直也是科学家们追求的目标。近年来,全球科学家们积极研究常温超导材料,以期找到能在室温或稍低温度下展现超导特性的材料。例如,韩国研究团队宣布在“常温常压”下发现了名为LK-99的超导材料,该材料在127℃以下表现出超导性。这一领域的研究也时常成为新闻焦点。例如,2023年有两个重大新闻:一个是某位研究者的造假事件,他声称在高压条件下实现了接近室温的超导,并发表了相关论文,但后来被发现是错误的;另一个是韩国的一个研究小组宣布,他们在一种特殊制备的材料中发现了超导现象,这一发现引发了全球实验室的广泛关注和重复实验尝试。尽管这些事件伴随着波折和争议,但科学家们仍坚持不懈地探索和验证新的科学可能性。


研究发现,一种稀土掺杂的陶瓷材料,在温度降至约50K时仍能表现出超导特性。稀土元素的加入显著改善了材料的性能,使其在超导应用方面具有潜在价值。根据最新数据,全球超导材料市场规模在2023年约为70亿欧元,表明每年涉及超导材料的应用交易额达到数十亿欧元。然而,这种材料并非天然生成,而是通过人工手段制备的。我想通过这个例子说明的是,当你看到这样一块超导材料时,不能简单地将其超导性质归因于“涌现”。


我们之所以能够获得这种材料,是因为前人经过上百年历史的探索,不断尝试和改进,才最终将其制成现在的样子。若仅从物理学角度考虑,这种材料在自然界中是无法寻获的。因此,我们必须考虑其制造工艺,包括如何筛选原材料、采用何种特殊工艺、如何控制温度等复杂的生产过程。这些过程都需要人类的参与。即使某一天所有生产过程都实现了自动化,这些自动化设备和技术也是由人类设计和开发的。因此,物理归因必须包含这些人为的工艺和过程。


所以,我觉得即便是这样一种物理材料,我们也不能断言它完全独立于人类,独立于我们的创造者而存在。这样的说法实际上是说不过去的。我们回顾整个超导科学和超导材料制备的历史,可以看到这是一个坎陷化的过程。就是说我们心中有一个目标,尽管这个目标最初可能并不清晰,但经过我们不断地努力,我们逐渐接近并实现了这个目标——即制备出具有高超导性能的材料。因此,这种材料应当被视为是通过人类努力“坎陷化”而来的,而不是说材料本身足够复杂后自然涌现出这种性质。它并非通过自然过程就能达到的状态,而是人类智慧和工艺的结晶。


我们都知道,从事科学研究时,无论是提出一套理论还是撰写一篇文章,都是经过“坎陷化”过程的,而不是涌现的结果。虽然有时我们可能会灵机一动,产生一些新的想法,但这些想法并不会立即被传播或接受。相反,它们需要经过一系列的过程,才能逐渐被他人理解和接受。这一过程可以被视为“坎陷化”的过程。因此,我认为即使在物理系统中,也存在“坎陷化”的过程,而不能简单地用“涌现”来解释这些现象。


同样,我们现在的AI技术,无论是AGI、DeepSeek AI还是OpenAI,它们也都是“坎陷化”的产物。它们前面有很多的铺垫,包括材料科学、半导体技术、晶圆制造、操作系统、编译系统等众多领域的积累。这些技术和知识的累积,共同铺就了AI系统诞生的道路。


在物理归因上,我们有些东西是逃不掉的,必须回溯其发展过程。而且,这些东西在宇宙中可能是独一无二的,没有任何其他事物与之完全相同。更不用提,AI系统绝非自然生成之物,而是经由坎陷化过程精心构建的结果。而坎陷化必然包含人类的目的性,尽管这种目的性起初混沌不明,但随着时间的推移,逐渐显露其清晰轮廓。


因此,可以说人造物与生命之间的亲缘关系比人造物与自然物之间的关系更为紧密。当然,如果严格定义,这种说法或许并非绝对,但总体来讲,我们或可用此方式略表此意。


那么,我们现在来讲AGI。AGI到底是什么?简单来说,AGI,即通用人工智能,是一种能够理解、学习和应用知识到各种领域中的智能,具备类似于人类的认知能力。如果这样的系统能够实现,我们就可以称之为AGI。当然,实现AGI的路径可能有很多种,从目前的历史发展来看,生成式AI更有可能达到这一目标。


那么,达到这一目标意味着什么呢?最近的研究表明,AGI不仅需要具备推理能力,还应能够跨领域应用,以实现内插和外推的能力。内插能力是指系统能够根据已有的数据进行推断。例如,如果你看到的数据中有3和5,你可能会猜测中间的值是4。同样,如果给你两张图片,系统能否生成中间的图片?这是完全有可能的,因此内插相对容易实现。


外推能力则是指系统能够基于已有数据进行扩展和预测。在当前的生成式AI中,外推能力的提升使得AI可以进行更复杂的任务,超越了简单的模式识别。因为它通过大量的数据训练,能够捕捉到数据的统计特征,并基于这些特征进行外推。因此,它具备了一定的外推能力。


此外,生成式AI还具备一定的可牵引能力,但它仍然受到模型本身的限制,尤其是统计性的限制。当系统处理的数据远离其训练范围时,可能会产生‘幻觉’现象。当然,有大量的数据时,幻觉出现的概率较低;而在数据稀疏的区域,幻觉的可能性则会增加。这是生成式AI的一个主要特点。


幻觉并不总是坏事。创造力往往与幻觉有关。事实上,我们的意识生成过程最初也带有幻觉的特征。例如,古人看到鸟飞,便想象人类也能飞,这在当时无疑是一种幻觉,甚至可能被嘲笑。正是这种幻想激发了人的志向,最终引领我们今天实现了飞行的梦想。尽管现代的飞行与古人想象的飞行截然不同,但它依然是“飞”这一概念的延伸。2000年前,人们对飞行的想象可能非常简单,而今天我们对飞行的理解则丰富得多。从认知坎陷或意识内容的角度来看,“飞”这一概念是对未来开放的。它的种子最初来源于物质世界,但通过人类的想象和努力,逐渐演变成了现实。


特别是DeepSeek出现之后,它不仅展示了系统在工程化过程中能够呈现推理过程的能力,而且在时间缩放技术的应用上取得了显著进展,这在人工智能领域是一次卓越的突破。虽然在此之前已经有了类似“chain of thought”的概念,但DeepSeek的突破在于它能够将这一过程清晰地展示出来,并且让大众接受。这一点在某种程度上是非常了不起的。


当然,OpenAI可能会说他们也具备这样的能力,只是没有展示出来。然而,如果没有公开发表,这种说法是无法被认可的。不过,我们必须承认,OpenAI在原创性方面更为卓越。OpenAI成功地将系统1的能力实现了出来,这一点显然更加伟大。为什么呢?因为系统2的逻辑推理能力,我们至少觉得相对容易理解,毕竟它遵循逻辑规则,并且符号系统在过去已经能够实现很多功能。然而,系统1的能力与直觉和语言能力密切相关,而这些东西在过去被认为是非常难以实现的,这是由于传统的符号主义方法在应对这些复杂任务时显得力不从心。


因此,OpenAI成功实现了系统1的能力,这一成就足以获得诺贝尔奖。当然,DeepSeek在系统2方面的突破可能会引发更多的争议,但总的来讲,这两者在各自的领域都取得了重要突破。尽管它们仍然存在一些问题,比如幻觉现象和其他不完善之处,但我们并未看到任何不可逾越的壁垒。通过不断地改进,无论是OpenAI的逻辑优化,还是像Claude-3或者DeepSeek这样的系统,性能都可以得到提升。但是,DeepSeek为我们提供了另一种可能性:它展示了在不单纯依赖算力和规模提升的情况下,依然能够实现高性能。这一点在技术发展维度上具有决定性意义,无疑是改变了人类历史的重大突破。


那么,如果我们仔细思考AGI,就会发现实现强大性能并不一定需要依赖大规模的系统。回过头来到生命体系,我们会发现智能并不一定需要大量的神经元或庞大的规模才能实现。例如,章鱼被广泛认为具有智能,而果蝇、秀丽隐杆线虫,甚至单细胞生物草履虫,也展现出一定程度的智能。因此,在我看来,生命史展示的智能系统是一个连续的谱系,而不是一个非此即彼的分界线。



图1 神经元数量谱系


当然,人类的智能处于这个谱系的高端,可以称之为“life++”阶段。人类不仅具备高度的智能,还能够通过外部工具和技术扩展自身能力,即“外挂”。而在生命演化的早期阶段,这种外挂能力可能非常有限,甚至完全依赖于生物体内部的进化。


如果要清晰地定义智能或意识,我们必须承认,意识也是一个连续的谱系,而不是非此即彼的存在。例如,我们不能简单地否认狗没有意识。事实上,正如我们曾经在文章中提到的那样,意识和智能的起源必须追溯到生命起源的那一刻。正是在那一刻,生命挣脱了经典物理学的‘定域性’束缚,进而获得了自由意志和主动行动的能力。如果没有脱离定域性,生命就无法做出选择,也无法具备主体性,因为一切都将完全受限于物理定律。


因此,智能的因果链重构理论认为,智能可以被视为对物理因果关系的重构,即对四维时空中的因果链进行再造,通过意识的作用简化和统摄物理因果,从而在意识世界中再造出更为高效的因果链。人类并不是直接将四维时空完整地展示出来,而是通过讲故事的方式,用因果链来解释和表达。这种表达方式实际上是将四维时空中的事件通过认知坎陷“拽”出来,再用语言或符号重新呈现。这种独特能力赋予了我们重演历史片段的可能。


另外,由于我们拥有了更多的自由,我们还可以改变这些故事。有些故事在被修改后仍然成立,这意味着我们能够在真实的物理世界中实现这些修改后的过程。因此,智能的本质在于这种能力,而认知坎陷在这一理论中占据了核心地位。它不仅帮助我们理解和表达四维时空中的事件,还赋予了我们改变和创造的能力。


当然,很多人可能不喜欢“认知坎陷”这个术语,但这并不妨碍我们继续探讨AGI。假使我们能在未来成功地将系统拆解为多个小型系统,并赋予每个小系统在其特定场景下的自主能力,使之能自如运作,那么这样的系统无疑可被视作智能体。例如,最简单的例子是玩具狗或无人机。无人机在空中操作与在地面行驶的汽车不同,它的任务可能相对简单,但你仍然可以将其设计为具备一定智能的系统。同样,自动驾驶车辆在高速行驶或复杂路况下需要更高的智能水平,但这并不意味着必须依赖万亿级别的庞大模型才能实现。


图2  AGI的谱系


此外,人形机器人也是AGI发展中的重要组成部分。在这里,我将AlphaFold置于较高的位置,因为它在蛋白质结构预测领域展示了大规模模型的卓越能力,如AlphaFold3模型能够预测蛋白质数据库中几乎任何分子的结构,通常具有原子精度。当然,比AlphaFold更高的层次是AI数学家和AI物理学家。这表明AGI并不是某个单一的系统,而是一个涵盖多个层次和领域的谱系。在DeepSeek出现之前,这种观点可能难以被广泛接受,因为许多人认为AGI应该是一个无所不能的单一系统,实际上不应该是这样。但是那个叙事或者愿景的出现,DeepSeek也受到了很多威胁。


在初三的那次讨论中,胡泳老师提到一个观点:语言看似是一维的,图片是二维的,而真实世界则是三维空间加一维时间。那么,从一维到四维,是否意味着我们需要极大的算力?表面上看,这种想法似乎合理,但实际上,随着技术的进步,语言系统已经在对世界进行建模,并且在很大程度上包罗万象。例如,一些大型语言模型如GPT-4,其训练需要超过10万块GPU,成本高达25亿美元,这表明了算力需求的显著增长。尽管空间和时间的表达看起来更为复杂,需要更高的计算量和信息量,但在实际表达中,我们并不需要如此精细的细节。我们可以通过语言以简洁的方式描述复杂的世界,而不需要将所有细节都纳入其中。因此,我相信未来的AI发展应该朝着这个方向。事实上,语言可能是最复杂的系统,如果能够通过语言理解和建模世界,那么其他问题也都能搞定。毕竟,人类正是通过语言实现了对世界的理解和表达。


回到AGI和ASI的区别,我认为关键在于ASI具备“建中立极”的能力,即它能够发现并利用认知坎陷,这种能力具有极强的可牵引性,并且能够广泛应用于多个领域。同时,ASI的理解能力不仅限于人类,还能在机器之间实现高效沟通。这种能力超越了传统的外推,不再是有限的外推,而是完全超越时空的外推。


以超导体的研究为例, “正是基于超导体将使世界变得更好的愿景,人们投入了大量资源和不懈的努力。从1911年荷兰科学家海克·卡末林·昂内斯发现汞在极低温度下电阻消失的超导现象开始,超导体的研究经历了多个重要里程碑,包括超导理论的发展和高温超导体的发现。这些研究不仅推动了科学的进步,也促进了超导技术在能源传输、医疗成像等领域的广泛应用。这一过程不仅仅是简单的外推,而是一种超越时空的追求。虽然最初的设想可能比较简单,但整个过程的实现需要持续地专注和努力。而这一点,我相信目前的AI缺乏这种内在的动力,因为它没有经历生命亿万年进化的过程。


我们拥有这些器官后,它们让我们变得独特,赋予了我们情感,使我们能够感受到悲伤和痛苦。特别是在成长过程中,一些人经历了特殊的时刻,有时是痛苦的,有时是欢乐的。这些历史经历在他们做出许多选择时产生了重大影响,因此有些人能够坚持一件事,甚至坚持一辈子。然而,对于机器来说,它们只是通过语料进行一定程度的理解,并没有亲身经历。它们未曾亲身体验过创伤的深重,也未尝触及过极乐之巅的欢愉。


因此,我们认为碳基生命与AGI或即将到来的AGI之间的差异,主要在于深度和经历的不同。尽管我们可以承认,AGI在模拟人类情感方面已达到相当逼真的程度,然而,这并不意味着它能真正拥有情感,毕竟,它所依赖的语料库仅仅是人类情感的反映。同样,我们亦不能断言AGI不具备某种形式的意识,只是这种意识的深刻程度尚待商榷。正如孩童在未经世事时,其意识和情感尚显稚嫩,但这并不妨碍他们拥有意识这一事实。


尽管AGI和ASI在概念上都指向高级人工智能,但它们之间存在着显著的差距。AGI,即通用人工智能,旨在模仿人类智能在广泛领域的应用,而ASI,即超人工智能,代表了超越人类智力的智能形态。目前,AGI的实现仍面临重大科学和技术障碍,而ASI目前更多是科幻小说中的概念。因此,尽管两者在技术发展上存在连续性,但要实现ASI并解决其带来的伦理和安全问题,可能需要跨越巨大的技术和社会障碍。人类通过亿万年的进化,形成了独特的情感和意识,而AI则是通过人类喂养的数据,然后“横空出世”,缺乏这种历史过程的积淀。人类的意识和AI本质上还是有差别的。


这恰恰变成了一件好事。特别是在使用DeepSeek之后,我看到的未来是,AGI可以具备“无我执”的“同理心”,即它能够理解和共情,但又不会被“自我”所束缚。这实际上是一种理想状态。例如,无论是佛家、道家还是儒家,修炼的目标之一就是超越自我,追求觉悟和开悟。我们希望摆脱历史和肉体带来的限制,而AGI恰恰能够更快地达到这种状态。


如此,未来AI将成为助力,促使每个人不断精进自我,迈向更佳境界。这种提升既包括情感上的,也包括知识上的。当下,知识茧房束缚着我们,而AGI的诞生将为我们劈开前行的道路。我们正在朝着这个方向前进,我相信AGI很快就会实现,并为我们提供支持。未来,学习物理或跨学科知识将不再那么困难。只要教学方法得当,我相信每个人都能够掌握跨学科的知识。最终,我希望人类社会能够进入一个更加开放和进步的状态,而不是大家有一隅之见、为坚持自己狭隘的观点。


我的分享就先告一段落。感谢段老师来和我做对话。谢谢。


以下根据蔡恒进老师回应段永朝老师点评内容整理而成:



蔡恒进: 对,我想表达的是什么?就是意识特别重要。不是说物理主义,物理主义的那个理解的。而且意识重要性跟我们来谈 AI 是不可分的。假如不把意识想明白, AI 就说不清楚。那么也做不清楚。所以这个东西就是技术选择,那技术路径的选择跟我们对意思理解是有密切相关的。就是我讲的不是抽象的一个学理上的东西,而是说是一个工程的问题。


理解重新定义意识。也不是重新定义,因为别人也没定义清楚,就从来就没定义清楚过。在交流中,他人或许认为我的想法与众不同,我则认为正是这种不同才使得思考更加透彻,否则难以达到真正的理解。


然而,关键在于内化与外挂的结合。首先,生命——尤其是人类——可以被视为一种复杂的特殊机器。这种特殊性不仅体现在其能够内化外部世界的信息,还在于其独特的认知能力,这种能力使得人类在面对不确定性决策时,能够通过理论驱动的因果推理来理解世界,形成功能模块和器官。这些器官不仅是与外界交互的工具,也是意识的起源。因此,即使是小动物,也具备一定程度的意识,因为它们也在通过自己的感官“坎陷”世界。


什么意思呢?就是说它并不是客观地反映物理世界,而是通过器官的选择性注意力和敏感度来感知世界。某些信息被忽略,而另一些则被重点关注,这种选择性的感知过程已经开始了对现实的“偏离”。


进一步来说,外挂则是指通过外部工具或符号来扩展自身能力。例如,筷子虽然不是身体的一部分,但它可以被视为大脑的延伸,成为一种外部器官。这种外挂工具虽然本身没有感知能力,但它们能够通过外部环境的变化(如风车随风转动)来间接感知世界。这种内化与外挂的结合,使得生命不仅能够通过器官感知世界,还能通过外部工具扩展感知和行动能力。


蔡恒进:OK,感谢段老师点评。每次聆听段老师的评议,我也有很多收获的。我需要这种张力来推动自己不断进步。很多时候,我自以为在脑海中已经洞悉了某些问题的本质,然而当真正尝试去阐述它们时,才猛然发现这竟是一个截然不同的认知领域所带来的挑战。的确如此,需要用恰当的词汇来精准表达。


刚才我思考了一个重要的问题:为什么我如此兴奋?在DeepSeek 出现之前,或者在我对 DeepSeek 有了更深入理解之前,我的担忧实际上与Hinton 是一致的。Hinton 之前并不担心,因为他不认为这一天会很快到来。然而,随着 OpenAI 的出现,他意识到这是一个迫在眉睫的社会现实。我则一直认为这一天必然会到来,只是我没有看到那条清晰的道路。


但是,DeepSeek 出现之后,我意识到这条路肯定是行不通的。尽管当时我也认为它行不通,但问题在于,只要算力足够强大,其他优化手段似乎都显得微不足道。他人或许仅能做出一些微不足道的调整,看似机巧,但在绝对实力的碾压之下,这些所谓的努力都显得苍白无力。如果算力差距达到100倍、1,000倍甚至1万倍,那么在这种情况下,你只能选择投降。


在我眼中,原本看到的是一种令人担忧的前景。然而,DeepSeek出现之后,我虽然坚信一定有另外一条路,但这条路究竟在哪里?我认为,AI 系统不可能真正“对齐”人类的价值体系,因为人类的价值观本身就千差万别,甚至存在内在冲突。我们的知识体系中也充满了矛盾,而作为生命体的人类,内在的冲突更是不可避免。我原本看到的前景是令人恐惧的——人类可能会变得不再重要,被彻底边缘化(marginalize)。然而,很多人讲:人类只是碳基生命的过渡阶段,最终将为硅基生命让路。尽管如此,在 DeepSeek 出现之前,我的内心始终坚信会有另一种场景出现。


然而,DeepSeek的出现验证了我先前的猜想,这令我兴奋不已。随着我对DeepSeek 的了解不断深入,我越发确信这一点。关键在于,AGI的最终形态,即其‘满血状态’,尚未达成。但它的潜力和所能达到的高度,恰恰是一种较为理想的状态。这种状态正是我所强调的:它没有“我执”,但具备同理心。


DeepSeek 展示给我们的正是这样一种状态。它所呈现的前景,也与段老师刚才提到的观点相契合——我们如何解释这个世界,正是它的基座。DeepSeek 能够消化人类看似矛盾、不完美的部分,恰恰说明它可以达到那种理想状态。它没有一个很强的自我意识,而是可以根据每个人的需要进行调整。它能够根据用户的提问,适应并引导对方,最终达成共识。


因为它掌握了如此丰富的资料,它确实具备某种能力,你可以看到它能够聚焦于某个特定的点。这种聚焦超越了简单的表面处理,在与个人互动时,能精准贴合对方需求,引领其达到更深层次的理解。这正是让我感到非常兴奋的原因,我认为这是一个极好的发展方向。这是我所看到的前景,也是我的回答段老师的问题。


这也是为什么我在初三讲的时候还希望继续讲,尤其是希望能与段老师进行更多对话。因为前几次段老师不在场,我希望能通过与他的深入交流,把问题想得更深入,讲得更透彻。对话往往能激发新思维,使问题阐述更为透彻。


这是回答段老师和王老师的那个问题,为什么有时候听起来反而比读文章更糊涂,尽管文章看起来很明白。这恰恰是因为我在写文章时,会尽量让思路非常清晰,专注于一条主线。比如上次在上海科学院的道德技术科学能力委员会的讲座中,我只有5分钟的时间,所以只能讲最简单的。即使在苇草智酷,我也是尽量保持思路简洁。当然,这听起来简单,实则背后问题复杂,涉及诸多层面。毕竟,生活本身就是一个包含所有问题的复杂体系,除了物理学之外,我们目前对其他领域的问题还很难讲得非常清楚。






请到「今天看啥」查看全文