回头看,深度学习也不是非常完美的。很多人以为用深度学习去做产业或者应用是不会有问题的,但是这里要强调,深度学习有大量的隐患,这些隐患在很多应用场合下是绝对不允许的。首先,它需要大量的样本,有些问题很难获取很多样本,比如特殊疾病,罕见疾病,根本没有那么多样本。当然推广能力差已经说过了。给它什么(数据训练),它就只能学到这个,最重要的是,不可理解性,现在看到深度学习建立的系统,实际上跟人的思路很不一样。
因此,这句话说它(机器)的识别能力超过了人,这只是在非常特定的环境下这么说,其实很多方面它不如人。比如它识别率比人高,只是说它区别马和牛能力比人高,就是在一定的数据库下它识别能力比人高,但是它根本上不认识马和牛,所以这个不理解性问题很大。将来如果做一个人机系统,决策系统的话,机器做出来的决策人都不知道它怎么做出来的,那怎么用呢?
我们看一下为什么机器学习的效率这么低,还要使用那么多样本,比如用这张图告诉(机器)说这里有一只猫,这个猫在这里面信息流占了多少比重呢?我们有计算过是1.1%,也就是说提供的这个样本只有1%左右有用,99%没有用,因为提供这个照片告诉它这里是一只猫,计算机根本不知道猫在哪儿,所以这就迫使人们必须用大量的样本,告诉它这是猫,在草地的猫,在另外的背景里猫会变成这样,要用各式各样的样本在不同背景下的猫去训练它,它才能认识,只有跟它相近的背景、相近的角度拍下的猫它才认识,如果背景变了,猫拍摄的角度变了它也不认识了,所以这是它的一个根本性的问题,它不理解,但人是看了这个猫就理解这个猫。
第二,鲁棒性差,左边这个图这个猫是熊猫,中间这个图我们加了一点线可它还是熊猫啊,可是计算机把它判断成长臂猿了,这就叫鲁棒性,很容易错,因为它本质上不认识猫。虽然做出来的表面上看起来性能跟人一样,实质上跟人是非常不一样的,所以我们说的能超过人都是在特定意义上说的。
机器把这个环境的猫都学了,我们来了一个新样本也是猫,环境跟它完全不一样,它不认识了,这就叫推广能力,它无法举一反三,至于刚开始说的无人车问题,训练的时候可以这样过马路,换成另外一种形式过马路,你没教它它就不知道怎么弄了。比如说,对人来讲马上能区分出来,一个男的一个女的肯定不是一个人,但是机器里绝对把他看成一个人,因为从各种特征来看很多是一样的,因为它不认识什么是男什么是女,所以,机器做的事和人是不一样的。
所以,现在实际要解决的问题就是人和机器能够合作的问题。大家都在强调,今后的方向肯定是人和机器合作,要各发挥所长,这里面有一个问题就是机器如何理解人,人如何理解机器。过去的重点是放在机器如何理解人上面,比如说人类的语音命令,用自然语言发的命令它能够听懂,这是所谓自然语言对话。
其实忽视了一个非常重要的另外一个点就是人如何理解机器,这是由深度学习引起的,因为深度学习出来以后,它做出来的事情人非常不理解,这就给人机共同合作带来了巨大的困难,所以现在很多的重点除了做自然语言理解,理解用户的意图等等这些工作外,还要集中在人如何理解机器的方面。
为什么会发生这种情况,为什么机器的思路跟人不一样,因为机器处理的方式要用专业的语言。机器怎么识别猫呢?它只是从一些局部的特征,局部的纹理来识别它,它根本不是从猫的整体,因为机器要取得整体的特性是非常困难的,它只取得局部的特性,所以它都是在利用局部特性,在一个特征空间里去认识猫,跟人认识猫的角度完全不一样,人认识猫是从所谓语意空间里,是通过它的各种各样的属性来识别它,比如猫有四条腿,猫有尾巴,猫有长胡子等等,机器不是这么认识它的。
总结一下,人工智能做了两件事,一件是属于文本处理。早期的,以知识为基础,在一个称为语意的符号空间。也就是说文本在机器里用符号来表示,而且这个文本就是用原来自然语言表示。但是做起来有两个难点,一个难点就是要从文本符号、符号序列中挖掘出它的知识很困难,而且符号的处理非常低效能。所以早期的人工智能没有得到很大的发展。
往后进入深度学习时代,深度学习时代依靠的是数据,它是在向量空间里来处理的,因为向量对计算机来讲非常好处理。深度学习为什么那么有效,重要的原因是用想象来处理的。缺点是做出来的东西是不可理解的,跟人的做法完全不同。将来怎么利用它呢,所以无法利用。现在大量的研究工作是集中在寻找中间量,称之为语意的想象空间,右边取一个词“语意”,左边取一个词“向量”,所以任务就变成了两个,如何把文本符号的东西变成向量。至于如何将数据空间把它提升到语意中来,也是不久前Google发表的文章提出了一个方向。另外,如何从数据中间提取知识,人们常说的数据挖掘。这些领域进展都非常快,一旦这些问题突破了,人工智能不论是技术,还是产业都会得到进一步的飞速发展。
目前,这些研究不仅只是大学或者科研机构的事情了,企业也都在纷纷参与。我有个团队也是围绕上面的问题,重点是如何突破将来人工智能要解决的基础和关键问题,而不仅只是低头跟随性的应用深度学习,只有从这点上着手,我们才有可能实现(在人工智能领域)追赶、超过或引领的目标。
更多精彩内容,请关注「AI早餐汇」(AImorningshow)
获取转载授权、爆料、供稿、采访、约稿、合作等事宜请联系:
邮箱:[email protected]
微信:Jack_JiangNB