人机智能融合--人工智能的未来发展方向

人工智能学家 · 公众号 · AI · 2017-10-18 17:47

正文

请到「今天看啥」查看全文

来源：科学网

概要：在经历了三次起伏（即上世纪70年代后期对数学定理证明非万能的清醒、90年代后期对专家系统与五代机的失望、2006年深度学习掀起了新一轮的浪潮），人们狂热的希望逐渐踏实了很多，目光和注意力也慢慢地从痴迷科幻转移到了一个崭新而又富有活力的领域：人机融合智能领域。

《三国演义》第一回:“话说天下大势,分久必合,合久必分”。自然科学中的诸多学科之大势也莫不如此，当人类经历了数百年的学科精分细化之后，目前随着人工智能的快速发展，许多学科正在慢慢交叉融合起来。在经历了三次起伏（即上世纪70年代后期对数学定理证明非万能的清醒、90年代后期对专家系统与五代机的失望、2006年深度学习掀起了新一轮的浪潮），人们狂热的希望逐渐踏实了很多，目光和注意力也慢慢地从痴迷科幻转移到了一个崭新而又富有活力的领域：人机融合智能领域。

一、现有人工智能的不足

从历史上看，人工智能大概分三大门派，一是以模仿大脑皮层神经网络及神经网络间的连接机制与学习算法的联结主义(Connectionism)，主要表现为深度学习方法，即用多隐层的处理结构处理各种大数据；二是以模仿人或生物个体、群体控制行为功能及感知-动作型控制系统的行为主义(Actionism)，主要表现为具有奖惩控制机制的强化学习方法，即通过行为增强或减弱的反馈来实现输出规划的表征。三是以物理符号系统(即符号操作系统)具有产生智能行为的充分必要条件假设（Newell and Simon,1976）和有限理性原理为代表的符号主义(Symbolicism)，主要表现为知识图谱应用体系，即用模拟大脑的逻辑结构来加工处理各种信息和知识。

正是由于这三种人工智能派别的取长补短，再结合蒙特卡洛算法（两种随机算法中的一种，如果问题要求在有限采样内，必须给出一个解，但不要求是最优解，那就要用蒙特卡罗算法。反之，如果问题要求必须给出最优解，但对采样没有限制，那就要用拉斯维加斯算法。）使得特定领域的人工智能系统超过人类的智能成为了可能，如IBM的Waston问答系统和Google Deepmind的AlphaGo围棋系统等。尽管这些人工智能系统取得了骄人的绩效，但仍有不少缺陷和不足之处，而且还有可能产生很大的隐患和危险。

首先先分析一下让人工智能在当下火热烫手的联结主义。当前的人工智能之所以高烧不退，其主要的力量源泉是2006年Hinton提出的深度学习方法大大提高了图像识别、语音识别等方面的效率，并在无人驾驶、“智慧+”某些产业中切实体现出助力作用。然而，任何一种算法都有其不完备性，深度学习算法也不例外。该方法的局限性和不足是最好使用在具有可微分（函数连续）、强监督（样本数据标定很好、样本类别/属性/评价目标恒定）学习、封闭静态系统（干扰少、鲁棒性好、不复杂）任务下，而对于不可微分、弱监督学习（样本分布偏移大、新类别多、属性退化严重、目标多样）、开放动态环境下该方法效果较差，计算收敛性不好。另外，相对于其他机器学习方法，使用深度学习生成的模型非常难以解释。这些模型可能有许多层和上千个节点；单独解释每一个是不可能的。数据科学家通过度量它们的预测结果来评估深度学习模型，但模型架构本身是个“黑盒”。它有可能会让你在不知不觉间，失去“发现错误”的机会。再者，如今的深度学习技术还有另一个问题，它需要大量的数据作为训练基础，而训练所得的结果却难以应用到其他问题上。如何在各种现实情境任务中恰如其分地解决这些问题，就需要结合其他的方法取长补短、协调配合。

其次，对于行为主义中的增强学习，它的优点是能够根据交互作用中的得失进行学习绩效的累积，与人类真实的学习机制相似。该方法最主要的缺点是把人的行为过程看的太过简单，实验中往往只是测量简单的奖惩反馈过程，有些结论不能迁移到现实生活中，所以往往外部效度不高。还有，行为主义锐意研究可以观察的行为,但是由于它的主张过于极端,不研究心理的内部结构和过程,否定意识的重要性,进而将意识与行为对立起来，进而限制了人工智能的纵深发展。

最后是符号主义及其知识图谱，符号主义属于现代人工智能范畴，基于逻辑推理的智能模拟方法模拟人的智能行为。该方法的实质就是模拟人的大脑抽象逻辑思维，通过研究人类认知系统的功能机理，用某种符号来描述人类的认知过程，并把这种符号输入到能处理符号的计算机中，就可以模拟人类的认知过程，从而实现人工智能。可以把符号主义的思想简单的归结为“认知即计算”。从符号主义的观点来看，知识是信息的一种形式,是构成智能的基础，知识表示、知识推理、知识运用是人工智能的核心，知识可用符号表示,认知就是符号的处理过程，推理就是采用启发式知识及启发式搜索对问题求解的过程，而推理过程又可以用某种形式化的语言来描述，因而有可能建立起基于知识的人类智能和机器智能的同一理论体系。

目前知识图谱领域面临的主要挑战问题包括：1.知识的自动获取；2.多源知识的自动融合；3.面向知识的表示学习；4.知识推理与应用。符号主义主张用逻辑方法来建立人工智能的统一理论体系，但却遇到了“常识”问题的障碍，以及不确知事物的知识表示和问题求解等难题，因此，受到其他学派的批评与否定。

从上述人工智能三大流派的特点及缺点分析，我们不难看出：人的思维很难在人工智能现有的理论框架中得到解释。那该如何做才有可能寻找到一条通往智能科学研究光明前程之道呢？下面我们将针对这个问题展开最底层的思考和讨论。

二、约束智能科学发展的瓶颈是什么

人工智能之父图灵的朋友和老师维特根斯坦在他著名的《逻辑哲学论》第一句就写道：“世界是事实的总和而非事物的总和”，其中的事实指的是事物之间的关涉联系---关系，而事物是指包含的各种属性，从目前人工智能技术的发展态势而言，绝大多数都是在做识别事物属性方面的工作，如语音、图像、位置、速度等等，而涉及到事物之间的各种关系层面的工作还很少，但是已经开始做了，如大数据挖掘等。在这眼花缭乱的人工智能技术中，人们常常思考着这样一个问题：什么是智能？智能的定义究竟是什么呢？

关于智能的定义，有人说是非存在的有，有人说是得意忘形，有人说是随机应变，有人说是鲁棒适应，有人说……,可能有一百个专家，就有一百种说法。实际上现在要形成一个大家都能接受的定义是不太可能的。但是这并不影响大家对智能研究中的一些难点、热点达成一致看法或共识。比如信息表征、逻辑推理和自主决策等方面。

一般而言，任何智能都是从数据输入开始的，对人而言数据就是各种刺激（眼耳鼻舌身），对机器而言数据就是各种传感器采集到的各种数据，数据是相对客观的，而从中提炼出有价值的数据—信息就是相对主观的，信息已经开始带有人的价值观、偏好倾向和风俗习惯。人机处理数据最大的差异在于形成信息的表征，机器中的数据常常是结构化归一量化后的“标准数据”，数据表征的符号就是0、1或其他进制的数字；人采集到的数据则是各种非结构化、非一致性不同量纲种类的刺激输入，其表征方式是极其灵活多变的，对一朵花、一棵树甚至可以有无限多种表征，正可谓是“一花一世界、一树一菩提”，而且表征出的信息符号是由“能指”和“所指”构成的，“能指”指具体的物理刺激形象，“所指”指信息所反映的事物的概念及拓扑关系。比如，对于一杯水，机器可能表征它为高度、宽度、密度、颜色等客观数值参数，而人除此之外，还可以把它表征为热情、友谊、问候、送客等方面的多维内涵外延拓展，这种千差万别的混合指向变化，机器无论如何是表征不出的、处理不了的……所以，从智能的源头就可以找到人工智能与人类智能的根本区别之所在。

数据的变化与动态映射是感知的瓶颈，人会期望性的补偿或回望性的修正，而机器就是把过去性（数据）当成当下来处理，若数据处于过程中不敏感还好些，若是临界性数据，就常常会差之毫厘谬以千里了…数据、信息、知识、逻辑本质上就是事物之间不同程度的关系表征，这种表征可以体现在人的记忆和直觉之间，也可以显示于机器的存储与计算之中。只不过机器数据的单一表征从一开始就异于人的多种刺激融合，这也是机器不能产生类人意向性的主要原因：缺乏灵活的一多分有(内涵外延伸张弥聚有度自如)的表征机制。

有人认为符号化和对象化可能是两个不同的步骤。一个对象可以没有符号名字，也可以有多个符号名字，一个符号可以表示多个不同对象。智能的理解要做到符号到对象的指向性，没有做到指向性，只是符号间关系的处理，不能算理解。实际上对人而言感与知往往是同步的，在形成习惯风俗后，对象与符号应该也是融合的。

有了数据和信息之后，智能的信息处理架构就格外的重要，到目前为止，有不少大家提出了一些经典的理论或模型，例如在视觉领域，David Marr的三层结构至今仍未许多智能科技工作者所追捧。作为视觉计算理论的创始人Marr认为：神经系统所作的信息处理与机器相似。视觉是一种复杂的信息处理任务，目的是要把握对我们有用的外部世界的各种情况，并把它们表达出来。这种任务必须在三个不同的水平上来理解，这就是:a.计算理论 b.算法 c.机制(见下表)。

表 David Marr计算视觉的三层结构

计算理论

算法

机制

信息处理问题的定义，它的解就是计算的目标。这种计算的抽象性质的特征。在可见世界内找出这些性质，构成这个问题的约束条件

为完成期望进行的

计算所采用的算法

的研究。

完成算法的物理实

体，它由给定的硬

件系统构成.机器

硬件的构架。

Marr早先提出的一些基本概念在计算理论这一级水平上已经成为一种几乎是尽善尽美的理论。这一理论的特征就是它力图使人的视觉信息处理研究变得越来越严密，从而使它成为一门真正的科学。

当前，在解释人类认知过程工作机理的理论中，由卡耐基梅隆大学教授John Robert Anderson提出的ACT-R（Adaptive Control of Thought–Rational ，ACT-R）模型被认为是非常具有前途的一个理论。该理论模型认为人类的认知过程需要四种不同的模块参与，即目标模块、视觉模块、动作模块和描述性知识模块。每一个模块各自独立工作，并且由一个中央产生系统协调。ACT-R的核心是描述性知识模块和中央产生系统。描述性知识模块存储了个体所积累的长期不变的认识，包括基本的事实（例如“西雅图是美国的一座城市”）、专业知识（例如“高速铁路交通信号控制方案的设计方法”）等。中央产生式系统存储了个体的程序性知识，这些知识以条件-动作（产生式）规则的形式呈现，当满足一定条件时，相应的动作将被对应的模块执行，产生式规则的不断触发能够保证各个模块相互配合，模拟个体做出的连续认知过程。ACT-R是一种认知架构，用以仿真并理解人的认知的理论。ACT-R试图理解人类如何组织知识和产生智能行为。ACT-R的目标是使系统能够执行人类的各种认知任务，如捕获人的感知、思想和行为。

无论是David Marr的三层结构计算视觉理论，还是John Robert Anderson提出的ACT-R理论模型，以及许多解释和模拟人类认知过程的模型都存在一个共同的缺点和不足，即不能把人的主观参数和机器/环境中的客观参数有机地统一起来，模型的弹性不足，很难主动地产生鲁棒性的适应性，更不要说产生情感、意识等更高层次的表征和演化。当前的人工智能与人相比除了在输入表征和融合处理方面的局限外，在更基本的哲学层面就存在这先天不足，即回答不了休谟问题。

休谟问题是指英国哲学家大卫.休谟（David Hume）1711年在《人性论》的第一卷和《人类理智研究》里面提出来的。首先提出的，是个未能很好解决的哲学问题，主要是指因果问题和归纳问题，即所谓从“是”（being）能否推出“应该”（should），也即“事实”命题能否推导出“价值”命题。休谟指出，由因果推理获得的知识，构成了人类生活所依赖的绝大部分知识。这个由休谟对因果关系的普遍、必然性进行反思所提出的问题被康德称为“休谟问题”。休谟问题表面上是一个著名的哲学难题，实际上更是一个人工智能的瓶颈和难点，当把数据表征为信息时，能指就是相对客观表示being，而所指就是主观表达should。

从认识论角度，“应该”就是从描述事物状态与特征的参量（或变量）的众多数值中取其最大值或极大值，“是”就是从描述事物状态与特征的参量（或变量）的众多数值中取其任意值。从价值论角度，“应该”就是从描述事物的价值状态与价值特征的众多参量（或变量）中取其最大值或极大值，“是”就是从描述事物价值是状态与价值特征的参量（或变量）的众多数值中取去其任意值。

由于受偏好习惯风俗等因素的影响，即使是人类的认识论和价值论也经常出现非因果归纳和演绎（比如严格意义上而言，从“天行健”这个事实（being）命题是不能推出“君子必自强不息”这个价值观（should）命题的，但是随着时间的延续，这个类比习惯渐渐变成了有些因果的意味。）。人工智能的优势不仅在于存储量大计算速度快，更重要的是它还可以从源头没有偏见的头脑和认知封闭，但是要处理类似虽是由人类提出的但仍远远不能完美回答的休谟问题恐怕还是强机所难吧！人工智能如果有一定的智能，恐怕更多的应是数字逻辑语言智能，在特定场景既定规则和统计又既定输出的任务下可以极大提升工作效率，但在有情感、有意向性的复杂情境下仍难以无中生有、随机应变。未来智能科学的发展趋势必将会是人机智能的不断融合促进。

三、未来是人机智能的融合

人机融合智能，简单地说就是充分利用人和机器的长处形成一种新的智能形式。

英国首相丘吉尔曾经说过：“你能看到多远的过去,你就能看到多远的未来”，所以我们有必要看看人机智能融合的过去。任何新的事物都有其产生的源泉，人机融合智能也不例外，人机融合智能主要起源于人机交互和智能科学这两个领域，而这两个领域起源都与英国剑桥大学有着密切的关系：1940年夏，当德国轰炸机飞向伦敦之际，人机交互与智能科学的研究序幕就被徐徐拉开了…英国人为了抵御德国人的进攻，开始了雷达、飞机、密码破译方面的科技应用工作，当时在剑桥大学圣约翰学院建立了第一个研究人机交互问题的飞机座舱（即著名的Cambridge Cockpit）以解决飞行员们执行飞行任务时出现的一些错误和失误，另外剑桥国王学院的毕业生图灵领导了对德军“恩尼格玛”密电文的破译…事实上，早在19世纪，剑桥大学的查尔斯.巴贝奇和阿达.奥古斯塔（剑桥大学毕业生、诗人拜伦的女儿，世界第一位程序员）就开始合作机械计算机软硬件的研制，20世纪之后，数学家罗素、逻辑学家维特根斯坦（图灵的老师和朋友）都对智能科学的起源和发展做出了重大的贡献。当前人机智能融合领域比较火的两位深度学习之父辛顿曾是剑桥大学心理系的学生、阿尔法狗之父哈撒比斯本科是剑桥计算机系毕业的……

在人机智能融合时，有一件事非常重要，就是这个人要能够理解机器如何看待世界，并在机器的限制内有效地进行决策。反之，机器也应对配合的人比较“熟悉”，就像一些体育活动中的双打队友一样，如果彼此间没有默契，想产生化学变化般的合适融合、精确协同就是天方夜谭。有效地人机智能融合常常意味着将人的思想带给机器，这也就意味着: 人将开始有意识地思考他通常无意识地执行的任务；机器将开始处理合作者个性化的习惯和偏好；两者都还必须随时随地地随环境的变化而变化……高山流水，电脑与心灵相互感应，充分发挥两者的优点和长处，如人类可以打破逻辑运用直觉思维进行决策、机器能够检测人类感觉无法检测到的信号能力等等。人类所理解的每一个命题，都必定是全然是由我们所获知的各种成分所组成的。意识是一种对隐显关系的梳理，有时表现为直觉。

人的直觉是同化、顺应之间的自由转换，能够灵活自如地进行不完全归纳和弹性演绎，更重要的是:这一切都是由内而外的自主行为。直觉经验本质上是一种感性，一种自动意识性关联和得意忘形。直觉是把存在性、可能性、意向性、潜在性勾兑显化的一种方式，也是把零碎、散化的数据信息知识非常逻辑表征，其中的粘合剂就是情感（机器所不具备的能力）-一种独特的智能--情智，直觉本质上就是通情达理，能够隐约看见许多通过理性逻辑看不到的关系、联系，从而把许多平时风马牛不相及的属性、成分（包括主观臆想客观存在）关联在一起形成某种意向性的可能存在。而机器更适合于分类聚类，利用人类部分可以描述化、程序化的形式语言实现强监督学习、构建认知模型、辅助决策等方面。当前，人机之间的理解都是单向性的，之间的学习也是，只不过逐渐开始出现了双向性的苗头，人机之间开始理解一些以前认为不含理解成分的对象和事物，慢慢把人的主动性与机的被动性有效地混合起来。人处理其擅长的包含“应该”（should）等价值取向的主观信息，机器则计算其拿手的涉及“是”（being）等规则概率统计的客观数据，进而把休谟之问变成了一个可执行可操作的程序性问题，也是把客观数据与主观信息统一起来的新机制，即需要意向性价值的时候由人来处理，需要形式化（数字化）的事实时候由机器来分担，从而产生了一种人+机大于人、人+机大于机的效果。

人机智能融合中深度态势感知是一个重要隘口，深度态势感知含义是“对态势感知的感知，是一种人机智慧，既包括了人的智慧，也融合了机器的智能（人工智能）”, 是能指+所指，既涉及事物的属性（能指、感觉）又关联它们之间的关系（所指、知觉），既能够理解事物原本之意，也能够明白弦外之音。它是在以Endsley为主体的态势感知（包括信息输入、处理、输出环节）基础上，加上人、机（物）、环境（自然、社会）及其相互关系的整体系统趋势分析，具有“软/硬”两种调节反馈机制；既包括自组织、自适应，也包括他组织、互适应；既包括局部的定量计算预测，也包括全局的定性算计评估，是一种具有自主、自动弥聚效应的信息修正、补偿的期望-选择-预测-控制体系。

相比起人工智能来，我们更愿意谈人机融合智能，也许人工智能更偏应用和技术，谈人机融合智能则可以更基础一些。另外，需要注意的是，人机融合智能本身不仅仅是科学问题，还涉及到其他学科，如人文艺术、哲学，甚至还有宗教神学。还有，智能不是人类独有的能力，还关涉其他生命体，比如动物、植物等，那么究竟什么是智能呢？美国第一届心理学会主席威廉.詹姆斯说的一句话或许可见一斑：“智慧是一种忽略的艺术。”

单纯的计算应该是没有大的突破，认知+计算可能是未来。如果把认知看成美女，计算视作野兽，未来的智能科学就是美女与野兽，而数据则是美女牵着野兽的缰绳。要把这样的机遇变成现实，就需要与目前AI研究方向不同的新的研究课题，比如需要探索认知科学对于人类与动物如何学习与推理的研究，将其与计算科学结合，整合成最终能以人类的方式工作的系统。Being与should的狭义结合就是数据与知识、结构与功能、感知与推理、直觉与逻辑、联接与符号、属性与关系的结合，也是未来智能体系的发展趋势…其广义结合是意向性与形式化、美女与野兽的结合。人工智能的美女派主要抓关系产生的关系，野兽派主要抓属性产生的关系。

临界，这是一种介于有序和无序之间的状态，是工作效率最大化的一种表现形式。人机融合智能就是要寻找到这种平衡状态，让人的无序与机的有序、人的有序与机的无序相得益彰，达到安全、高效、敏捷的结果。

既然我们很多时候无从得知因果之间的关系，只能得知某些事物总是会连结在一起。那么我们有什么理由从对个别事例的观察中引出普遍性的结论呢？想象力、创造力是感性与理性的界面，也许人机智能的融合可以实现一定程度上主客观、感性与理性的相互适应性融合吧！