圣杯战争：具身通用人工智能的困境与可能出路

哲学园 · 公众号 · 哲学 · 2024-12-21 00:00

正文

点击蓝字

，关注我们

当前AI界普遍认为，生成式AI（Generative AI，GAI）是最有希望实现AGI的正途，并以 “All in AI”的信念全力投入具身智能体（embodied AI agent）的研发，竞相探求跨越AGI圣杯“最后一公里”的超级赛道。由大模型引发的一系列激烈争论，以及AGI圣杯之战所呈现的三大执念与技术路线实施中的潜在冲突业已表明，只有对各类以“通用人工智能”为名的技术幻象祛魅和理性反思，才能使AI走向健康发展的轨道。据此，基于具身-生成认知观念，我们倡导一种生态场域通用的“动缘-生成式AI”作为人工智能未来可达的新目标。

一、通用人工智能的三大执念

生成式AI不仅追求与物理规律对齐，甚至着力于情感、意识和价值对齐，对齐的要求可谓越来越强。然而仅仅借助生成式AI多模态技术融合就希望能实现情感、意识和价值全面对齐人类，这种做法无异于天方夜谭，这种愿景可具象化为三大执念：

A． 全面对齐人类 早期研究者乐观地认为，AI可以达到与人类同等的思维、感知和行动能力，甚至相信通过破解人类通用语法和模式识别机制能够把握人类智能本质。这一执念的主要障碍在于，AI难以捕捉到人类语言应用的多样性和复杂性，人类思维和感知、行动的能力更是难以表征和计算。

B． 真实理解世界 一些学者认为，如果要实现AGI，我们应该首先构建一个具备广泛知识迁移能力、能进行因果推理、包含世界模型的智能体。但关键问题在于：广泛的知识迁移和复杂任务处理需要大量数据支持，而这些数据或者是稀缺的，或者无法以文本语言的方式体现。此外，即使获得了足够的数据，如何确保智能体能够理解这些数据中蕴含的深层次因果关系，而不仅仅是表面的关联性，仍然是一个巨大挑战。

C． 统一具身通用 目前学界的一大新的趋向是极力追求建造能与环境进行深度交互的具身智能体。但具身性与广泛的通用性的融合难以真正落地，这种互为矛盾的要求将会导致“具身-通用悖谬”。这不仅是对当前AI技术的挑战，更是对我们对智能本质理解的挑战。

二、电子游戏AGI

在这场AIGC的社会大实验中，AGI看似遥不可及，但多年以来研究者一直致力将电子游戏作为一种世界模拟器铸造AI的“虚拟圣杯”。首先，相对于现实世界的不可预知性，电子游戏的虚拟环境更易于模型调整和优化，并提供了无限的场景和情境供AI模型学习；其次，失败并不意味着损失无可挽回，玩家在游戏中的行动随时可以重新开始，电子游戏以这样的独特功能为AI研究带来了快速迭代的机遇；并且，电子游戏环境中，精致的多个可能世界具有特定的世界观和事件因果的发生逻辑，更有助于AI利用试错学习掌握和构建自身的内部世界模型。因此，也有学者认为，如果要实现AGI，必须首先要实现“通用电子游戏人工智能（General Video Game Artificial Intelligence, GVGAI）”。

人们期待，在电子游戏中构建一个强大稳定的AI模型，再将模型迁移到真实世界，就有可能实现某种意义上的AGI，而抢眼的电竞比赛也为研究人员提供了理想的测试平台和算法优化平台。实际上，电子游戏AGI的研究分为三大方向：广泛任务涵盖、深度复杂任务挑战和游戏控制模拟。

第一个方向是用单一模型来处理多个不同任务，展现智能体在多游戏环境中的适应性。

第二个方向是利用单一模型深入探索具有特定复杂性的游戏。如果在虚拟世界中训练智能体成功完成各种复杂任务，将会有大大有助于智能体解决现实问题。

第三个方向则更加注重于人机对齐的目标，例如训练游戏AI像人一样通过观看屏幕、通过键盘和鼠标来完成复杂游戏任务，而不依赖于内部API获取输入和输出的预定动作。

而实现电子游戏AGI，实际上就是训练AI在世界模拟器中理解和预测外部世界的机制，从而掌握世界模型，促进智能体落地物理世界。然而，由于还存在一些更大的理论和技术挑战，这一难题仍未解决，因此，AI从电子游戏虚拟环境到落地真实物理世界，进而实现AGI，也绝非易事。

三、具身-通用悖谬

实际上，戈策尔等人（2014）很早就已经提过了“具身通用人工智能（Embodied AGI）”概念，并认为对于AGI而言，具身性必不可少。目前在大模型的加持下，这个概念在学界极受追捧。然而学者们所描绘的宏伟蓝图似乎忽视了底层概念之间的一个悖谬之处：具身性和通用性似乎不可兼得。

（一）数字性通用与生态性通用

具身认知理论认为，人类认知是通过身体感知经验与环境互动的过程，而不仅仅是大脑内部的抽象符号处理过程；而通用（General）一词意味着AI系统具有高效学习和知识迁移泛化能力，可在多元场景完成各种复杂任务等近乎于全能的状态。由此可见，这两个术语的意义本身就分布于光谱的两端，如果只凭一腔热情将二者强行缝合搭建实现AGI的必经之路，将面临一个复杂的挑战：如何构建一个既具身又通用的智能体？

首先，就需要我们将目前AGI的通用性进行区分。特别是对于具身AGI，其通用性可以进一步细分为数字性通用和生态性通用两个维度，用以厘清目前关于AGI术语的语义混淆状况。

数字性通用（digital generality）指的是AGI在处理信息、解决问题和学习新技能方面的能力。这种能力不受具体任务内容、环境或领域限制，意味着AGI能够跨领域进行知识的转移和应用。

生态性通用（ecological generality）指的是AGI在特定物理环境中的适应性和灵活性。这不仅包括能够在多样化的物理环境中有效地操作，还要求AGI能够理解和预测这些环境中发生的自然和社会现象。

如果将数字通用和生态通用两种能力结合在一个AGI系统中，尽管我们可以想象出一种理论上的可能性，在具体实现中却存在着一系列不可调和的激烈矛盾。在一个有限的资源约束下，如何平衡对感知-行动循环（生态性通用性要求）和高级认知处理（数字性通用性要求）的投入是一个关键问题。然而，我们能否真正跨越目前研究中存在的局限性，开发能够整合和优化这两种通用性的方法和技术。这不仅是技术工程实践的挑战，也是对当前认知科学哲学理论深刻挑战。

（二）具身-通用何以悖谬

如果要实现具身通用人工智能智能体（embodied AGI agent），需要引入“数字性通用”和“生态性通用”的区分。如果智能体是具身的，就意味着依赖于特定身体的物理形态与世界交互，但这无疑限制了广泛的通用性。当然也会有人反驳认为，人类本身就是“通用智能体”，可以依据自己的具身能力完成各种任务；如果我们设计制造一个类人-具身智能体，也就意味着我们制造出了“具身AGI”。

然而，这种乐观立场忽略了重要的事实，即人类的生理和认知能力经过长时间演化史并受环境塑造，也只能感知物理世界的一小部分，例如无法看到紫外线听不到超声波。虽然人类具备一定的适应性，但其所谓的“通用性”受限于演化条件和生存环境因素。因此，人类拥有的也不过是一种相对的“通用性”强大的多模态大模型嵌入智能体，实际上也无法满足既有具身性又能展现完备、统一、全能意义的数字通用性。具身交互与通用智能无法兼得的先天悖谬之处，我们将其称作“具身-通用悖谬”，他意味着在设计和开发通用人工智能（AGI）系统时，在实现广泛的认知能力和具体物理环境的适应性之间存在着潜在矛盾。

果真要设想存在某种具身AGI，我们猜想应该是类似于科幻电影中的模块化微型智能体集群，或者是事实变换身体形态的智能体，可一根据具体动机和需求做出对环境的响应做出相应行动，而且有可能具备人类或超人级别的感知、理解和认知能力。动物认知基于特定的演化压力而形成，但AGI则无此生命演化的历史背景。期望AGI既具备物理界面与环境互动的能力，又不受任何物理形态的限制，这两者在本质上是冲突的。因此，避免“具身-通用悖谬”，这样才能创造出真正既有物理形态又有独特功能的专项领域通用智能体，它也许是AI未来发展的重要目标。

四、一种新方案：动缘-生成AI

在“具身图灵测试”和“具身AGI”这些概念被明确提出之前，实际上已有学者在具身认知方向上探索已久并形成了生成认知学派。生成认知主义提倡以一种生态场域（ecological niche）的视野来看待意识的产生与认知形成，而生态心理学先驱詹姆斯·吉布森（J. Gibson）提出的“动缘（affordance）”概念正是其生成主义的理论内核。

为此，我们提出一个新的理念“动缘-生成AI（affordance-enactive AI, AEAI）”。这种AI的发展目标重点在于在多样化的动缘分布特定场景中，即“生态场域（ecological niche）中的行动”。智能体可以在其中自主建构局域世界模型（local world model）和主动探寻环境适切的通用行动模式，这可以称作“场域通用性（niche generality）”。这意味着，智能体需要根据其具备的局域世界模型直接获取实时环境信息，理解这些信息如何提供行动的可能性。感知不仅基于物理感官的感知，也包括对相应数据模式、社会互动乃至文化语境的认知。

心智的预测加工理论、自由能原理和主动推理在动缘-生成AI框架中相互关联，共同构成了智能体理解和适应其生态场域的理论基础。这种综合性的理论框架不仅促进了对智能体行为和认知过程的深入理解，还为设计能够在复杂、多变环境中自主适应和行动的AI系统提供了新的路径。这种研究范式可以为AI注入更为精准和适应小生境的“身体”向度。而这里的身体，不仅仅局限于传统意义上的机器人形体，也包括AI智能体行动所依赖的开放知识系统、软件计算界面、以及与其他系统交互生成的整个行动者网络。如此看来，这样的AEAI无异于依赖小数据的大模型。

因此，未来的研究路线不应该去追求一个能够处理所有任务的超级智能，而是研发一系列能够高效适应和入世特定场域的智能体，依据特定的动缘和环境内具有因果结构信息的世界模型做出精准决策采取行动，并以此方式实现具备世界模型的生成性人工智能（enactive AI）。如果进一步探索，我们可以设想建立一系列具有不同能力和特性的动缘-生成智能体，可以在多个生态场域中协同工作，形成一个联合的、多层级的智能行动者网络系统。或许，这个群体的整体智能在某种程度上具有所谓的“通用智能”的能力。当然，从本文一以贯之倡导的对通用执念祛魅的初衷来看，我们的AEAI构想希冀AI能够最终理解物理世界，具备真正的世界模型，而这又何尝不是另一个新的圣杯呢？！

END

本文选自《自然辩证法通讯》2024年第46卷第12期

编辑 / 刘宇轩
审核 / 王惠敏

欢迎关注我们

自然辩证法通讯