专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
布说天下  ·  衷心建议:长沙学位房只买第一梯队! ·  2 天前  
布说天下  ·  衷心建议:长沙学位房只买第一梯队! ·  2 天前  
中国教育报  ·  解码《纲要》⑨ | ... ·  3 天前  
海峡都市报闽南新闻  ·  36个教学班!新增学位1800个!泉州九中城 ... ·  3 天前  
海峡都市报闽南新闻  ·  36个教学班!新增学位1800个!泉州九中城 ... ·  3 天前  
教育之江  ·  图说 | ... ·  3 天前  
教育之江  ·  图说 | ... ·  3 天前  
微行动联盟  ·  关于中考计分科目的调整通知! ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

一次对具身智能的呼唤

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-03-14 05:40

正文

24年2月华为法国诺亚实验室的论文“A call for embodied AI”。

具身人工智能(E-AI) 作为追求人工通用智能(AGI)的下一个有趣的步骤,将其与当前的人工智能进步,特别是大语言模型(LLM)并列。遍历不同领域(哲学、心理学、神经科学和机器人学)具身概念的演变,强调E-AI如何与静态学习的经典范式区分开来。通过扩大E-AI的范围,引入一个基于认知架构的理论,强调感知、行动、记忆和学习是具身智体的基本组成部分。该框架符合Friston的主动推理原则,为E-AI开发提供了一种全面的方法。尽管在人工智能领域取得了进展,但诸如新的人工智能学习理论的制定和先进硬件的创新等次要挑战仍然存在。创建能够在真实世界环境中与人类和其他智能体无缝通信、协作和共存的E-AI重要性,旨在引导人工智能社区应对多方面的挑战,并抓住在寻求AGI过程中面临的机遇。


E-AI是人工智能的子领域,专注于与物理环境交互的智体,强调感觉运动耦合和情境智能。与单纯的被动观察不同,E-AI智体作用于其环境并从反应中学习。E-AI深深植根于 具身认知 (Shapiro,2011;McNearney,2011),这是哲学和认知科学的一个视角,假设大脑和身体之间存在深刻的耦合。这一观点挑战了笛卡尔的二元论——其在理论上占主导地位的观点,将心灵与身体区分开来(Descartes,2012)——出现于20世纪初。Lakoff&Johnson(Lakoff&Johnson,1979;1999)等先驱对这一范式做出了重大贡献,他们提出理性不是基于抽象定律,而是基于身体经验。具身认知是 4E认知科学框架 (Varela 1991;Clark,1997;Clark&Chalmers,1998)的关键部分,涵盖了认知的具身、实施、嵌入和扩展方面。在E-AI中,重点主要是实现“具身 ”和“实施”方面,而“嵌入”和“扩展”组件更适合将人工智能置于社会背景中,并作为人类(个人或集体)认知的增强。

赫尔德和海因(Held&Hein,1963)的《小猫旋转木马实验》(carousel Experiment)证明了具身在认知发展中的重要性。在这项研究中,一只小猫可以主动地与旋转木马互动并控制它,而另一只只能被动地观察它。尽管两只小猫都接收到相同的视觉输入,但与被动观察的猫不同,参与主动交互的猫表现出正常的视觉发展。这一开创性的实验强调了具身交互在塑造认知能力中的重要作用(Shenavarmasouleh,2022)。它还强化了这样一种观察,即所有已知的智能形式,包括人类智能,都是具身的(Smith&Gasser,2005),这表明具身是认知学习和发展的坚实基础。当前的人工智能学习方式与人类非常不同。人类通过观察、移动、与世界互动和与他人交谈来学习。还通过收集连续的经验来学习,而不是通过被动观察那些打乱次序和随机的数据,即使它们是仔细选择的(Smith&Gasser,2005;Westho,2020)。提倡一种方法,即认知科学和发展心理学的见解为人工智能系统的设计提供信息。这样的系统应该被设计为通过与周围环境的积极互动来学习,反映出对人类认知基本的具身学习过程。

即使是静态学习的倡导者也承认, 多模态学习 是AGI的下一个里程碑(Fei,2022;Parcalabescu,2021)。在I-AI中,需要煞费苦心地收集和连接多模态数据。相反,当配备多模态传感器时,E-AI智体将通过简单的共现来固有地收集和关联多模态数据。例如,机器人将同时看到(CV)、交流(NLP)、推理(一般智能)、导航和与环境交互(规划和RL)(Shenavarmasouleh,2022)。智能路由器将观察请求和交通(感知),与其他路由器、人类工程师进行通信,吸收关于其周围环境的新闻(NLP)、推理(通用智能),并控制交通(控制和RL)。尽管在这些领域取得了令人瞩目的进展,但它在很高程度上依赖于外部收集和管理用于算法训练的大量数据集。

这种方法有很大的缺点:i)收集和准备数据需要大量投资;ii)该数据可能包含难以检测和纠正的偏差(Li&Deng,2020;Balayn,2021;Verma,2021.)。偏见问题在关于人工智能对齐的讨论中特别相关(Shen,2023;Ji,2023.)。通过基于规则和程序的方法,如 RLHF (Lambert,2022)调整人工智能的努力通常很困难,产生的系统感觉是机械的和“愚蠢的”,而不是根据与人类社会兼容的价值观无缝行动的智体。

一个旨在与环境交互并从环境中学习的具身智体从根本上改变了人工智能开发中数据收集和管理的传统方法。通过与物理和社会环境固有地集成,这样的智体绕过了以前需要的劳动密集型过程。这种转变不仅简化了将人工智能与人类价值相结合的挑战,而且还通过利用其环境的独特特征来提高智体的学习效率。因此,人工智能开发的重点 从数据转向模拟 。这些模拟具有双重用途:它们既是E-AI的训练基地,也是测试和改进概念和算法的平台(Duan,2022)。此外,将这些智体与 人类价值 相结合的过程变得更加直观,因为它涉及定义反映这些价值的目标。这种方法并不声称完全解决对齐挑战,因为E-AI系统仍然需要监督和指导来避免不必要的行为。然而, 对齐过程 在本质上变得更加自然。与广泛编辑和管理数据相比,调整和定义目标是一项更直接的任务。无论是指导自身的行动、养育孩子还是训练宠物,这种方法论都利用了固有的、非命题的理解和关于调整具身智能的本能。

E-AI的另一个重要特征,源于智体与其环境之间的耦合,是智体持续进化和适应的能力。这种适应性对于任何注定要在永久变化世界中导航的智体都是至关重要的。它强调了 持续学习 的重要性:在吸收新经验的同时保留以前获得知识的过程(Wang,2023a)。

此外,Ishiguro&Kawakatsu(2004)通过机器人学的理论和实际应用表明,控制机制与身体动力学的紧密有效集成显著提高了能效。 耦合系统 还导致出现有趣的行为,这些行为可能很难明确编程或从无具身数据集学习(Rosas,2020),这是一个符合 Extended Technology Acceptance Model (TAME) 框架原则的观察结果。

具身也是学习 affordance 的先决条件(Gibson,1979)。根据Vervaeke(2012)的观点学习,学习或更准确地实现affordance是AGI的基本能力,因为affordance“使世界充满意义”(Roli,2022),因此对于赋予自己世界意义的智体来说是必要的。affordance来自智体的感知、目标、能力和环境中目标和上下文特征之间的动态交互;例如,椅子可以让人坐下,杯子可以喝,手可以抓东西。Roli(2022)认为,理解、利用和受环境affordance影响的能力,将生物智能与当前的人工系统区分开来。除了affordance外,E-AI对于研究可感受特性(Locke,1847;Korth,2022)、意识(Solms,2019)以及创造力、移情(Perez,2023)和伦理理解(Lake,2017;Russell,2021)等涌现现象也是不可或缺的。

最后,还有一个重要的问题,即为什么智能体首先会做任何事情(Pfeifer&Iida,2004)。是什么驱使它在没有外部提示的情况下参与和获取新知识?在良好建模的小世界中,如国际象棋游戏,智体的目的很简单:决定下一步行动。然而,在导航这种大型开放世界时,指导智体决策的动机变得越来越模糊。主动推理和自由能量原理的概念(Friston,2010;Friston,2023)为理解智体的行为提供了一个引人注目的框架。这一原则假设,最小化 不确定性 是智体的核心目标。用内部模型来预测结果,基于感官输入不断更新这些模型,并主动修改环境,可更好地匹配期望。


借鉴认知科学家设计的认知架构概念,其旨在模拟人类思维(Thagard,2012)。尽管这些架构有助于增强现代机器学习方法,但这方面的进展明显有限(Kotseruba&Tsotsos,2020)。进展缓慢在很大程度上是由于认知架构是神经科学家和认知科学家的领域,机器学习社区中只有少数几个人开发AGI潜力。在E-AI范式中结合认知架构和机器学习的协同策略,并将其作为实现AGI的可行途径。基于智体的







请到「今天看啥」查看全文