Pedro Domingos是华盛顿大学计算机科学与工程学教授,也是国际机器学习协会的联合创始人之一。本文是Pedro Domingos在Google所作的机器学习演讲内容整理。
让我们首先从一个简单的问题开始,知识到底是从哪里来的?以前已知的三个来源有:
1. 进化——来自于你的DNA
2. 经验——来自于你的神经
3.文化——这些知识来自于与他人交流,读书学习等
我们日常生活中几乎每件事都是来自于这三个方面的知识,最近出现了第四个来源,那就是计算机。现在有越来越多的知识是来自于计算机(这些知识也是被计算机发现的)。
计算机来源的出现对于前三个来说是非常大的改变,进化天然就存在于地球上。经验是将我们与动物以及虫类分类开的原因,文化则是使得我们之所以为人的根本。
这四种中每一种与前者的差别都是数量级的差异,后者也能发现更多的知识。计算机比之前三种要快几个数量级,且能与其他几种实现共存。
Yann Lecun——Facebook AI研究组主任
未来世界上大多数知识都将被机器提取,且将留存在机器中。
所以,机器学习不但对于计算机科学家来说是一个大的改变,对于普通人来说也是他们需要理解的一件事。
那么计算机到底是如何发现新的知识的呢?
1. 填补现有知识的空白
和科学家工作的方式很像,观察——做出假设——通过理论来进行解释——成功(或失败,尝试新的)等
2.大脑仿真
世界上最伟大的学习机器就是人的大脑,因此让我们对它进行逆向工程。
3.模拟进化过程
进化过程,从某种角度来说甚至比人类的大脑更伟大(因为它造就了你的大脑,你的躯体,还有其他地球上的一切生命),所以来说这个过程值得好好弄清楚并且使用计算机来进行运算。
4.系统地减少不确定性
你学到的知识不一定正确,当从数据中获得什么东西时,你对它却不能完全确定。所以使用概率来量化这个不确定性,当你看到更多的证据时,不同的假设的概率能够进一步完善。还可以使用贝叶斯理论来进行这个工作。
5.注意新旧知识之间的相似性
通过类比来进行推理,在心理学上有证据说人类经常这样做。当你面临一个情境时,你在以往的经验中寻找相似的情境,然后将这两者连接起来。
机器学习五大流派(主要算法)
符号主义——逻辑学、哲学——逆向演绎
相信填补现有知识的空白的
联结主义——神经科学——反向传播
希望从大脑运行方式得到启发
进化主义——进化生物学——遗传编码
遗传算法
贝叶斯派——统计学——概率推理
行为类推主义——心理学——机器内核(支持向量机)
符号主义代表人物:
Tom Mitchell、Steve Muggleton、Ross Quinlan
逆向演绎
Tom Mitchell、Steve Muggleton、Ross Quinlan等认为学习是一个逆向演绎的过程,推理是从通用规则推导至特定事实,归纳刚好相反,从特定事实总结出通用准则。我们可以由减法和加法的相反关系来推倒出推理的原理。
逆向演理示例:
苏格拉底是人类+人类是凡人= 苏格拉底是凡人
(但是计算机现在还不能理解自然语言)
找出图中的生物学家
其实是那台机器,图中的机器是一名完整的、自动的生物学家,它也是从分子生物学中的DNA、蛋白质、RNA开始学习的。使用逆向演绎来进行假设,设计实验来测试这些假设是否成立(在没有人类的帮助下)。然后它给出结果,提炼假设(或者提出新的假设)。
联结主义代表人物有:
Geoff Hinton、Yann Lecun、Yoshua Bengio
单一神经元
神经元是一种非常有趣的细胞,看起来像树一样。神经元是具有长突触(轴突)的细胞,它由细胞体和细胞突起构成。在长的轴突上套有一层鞘,组成神经纤维,它的末端的细小分支叫做神经末梢。细胞突起是由细胞体延伸出来的细长部分,又可分为树突和轴突。每个神经元可以有一或多个树突,可以接受刺激并将兴奋传入细胞体。每个神经元只有一个轴突,可以把兴奋从胞体传送到另一个神经元或其他组织,如肌肉或腺体。神经元之间是互相连接的,这样形成了一个大的神经网络。人类所学会的知识几乎都存在神经元之间的突触中,整个学习过程基本上是出现在一个神经元帮助另一个神经元发射信号的过程。
人工神经元模型
人工神经元的工作过程:将输入加权组合,
例如:每个输入都是像素,每个都进行加权组合,当其超过阈值时会得到输出为1的结果,否则得到的就是0的结果。
再如输入是猫,当所有的加权组合起来超过了阈值,神经元就能识别出来:这是只猫。
反向传播
问题一:你如何训练这些神经元的网络?
神经网络拥有一大堆神经元,需要通过一层一层计算才能得到输出。
问题二:如果运算中出现错误了怎么办?如何在整个大型、紊乱的神经网络中进行调整,来得出正确的答案?
当出现错误,神经元本应该发射信号时,实际上却不会。出现问题的神经元可能是整个网络中的任一一个,但是想要找出它来却十分困难。这就是反向传播能解决的问题,当人们在20世纪60年代设想出神经网络时,他们并没有想到这个反向传播的方法,它最终是在19世纪80年代由David Rumelhart等人提出的。
反向传播的基本理念是十分直观的,举例来说,理想输出应该是1,但是实际输出确是0.2,需要将其增大。
问题三:怎样调整权重才能让其增大?
通过后续的神经元向前序神经元进行反馈,一层一层向后直到得到的值接近真实值,这就是反向传播算法(也是深度学习的核心所在)。
近期以来深度学习被用于各种领域中,证券市场预测、搜索、广告、视频识别、语义识别等。不过对于大众来说,最有名的应该是Google推出的能识别猫的神经网络——在当时,它是有史以来最大型的神经网络(可能超过10亿参数)。
进化主义代表人物:John Holland、John Koza、Hop Lipson
进化理论认为反向传播只是在模型中调整权重而已,而没有整个弄明白大脑的真正来源是什么。所以要搞清楚整个进化过程是如何进行的,然后在计算机上模拟同样的过程。