读书学习笔记:《智能革命:迎接人工智能时代的社会、经济与文化变革》李彦宏等/著
“我们希望更多人是默默学习派。”在李彦宏等所著的《智能革命》中,看到这句对于当下的人工智能热潮的期待,立刻觉得很有意思。
因为围棋的人机大战、无人驾驶汽车、电视节目里的人机对话机器人等现象,人工智能(AI)或机器智能成为大众关注的焦点。
但是,很长时间以来,吸引人们注意力的是“机器能思考吗?”或“机器要超越人类”这样的话题,偶尔无人驾驶汽车等探索未来应用场景的也备受关注。百度在2013年1月就成立了“深度学习研究院”,它的确很像机器智能方面的“默默学习派”。但总的来说,来自“默默学习派”的声音似乎并不多。
人工智能「四派」:预测未来的最好办法,就是把它创造出来
现在,以某种简单粗暴的方式分,对人工智能或机器智能的关注大体上有四类:
大众派
第一种就是大众派,试图让大众理解,或分析机器智能对未来的影响,或引发大众对人工智能的恐惧。好莱坞电影和科幻作家也常在这一派里面插一脚。
未来派
第二种是未来派,它们着眼于长远的应用场景。未来派当下最热门的是无人驾驶汽车。
前些年很受关注的人工智能代理人(agent)也可以说是这一派,其实现在亚马逊的Echo智能音响可看成一个初级的购物代理人。
特斯拉创始人马斯克现在想做的让人类和电脑“脑机合一”,则几乎是着眼于科幻般的未来了。
学术派
第三种是学术派,这一派其实一直非常活跃,是人工智能的主流力量。
从1956年达特茅斯会议上提出“人工智能”这个词,人工智能已经历几轮起起落落,现在被广泛应用的如机器学习、知识图谱、深度学习、人工神经网络以及背后的芯片技术都有着学术界多年的研究作为基础。
由于这一波的机器智能需要数据和计算能力,学术界和产业界的人才双向流动在加速,当然当前看,似乎从学术往产业的流动更多一些。
现在,很多人尤其是技术背景的人都在恶补人工智能、机器学习等新技术知识,学术派的成果因而很受关注,吴恩达、李飞飞等人工智能学者也享受明星般的待遇。
“默默学习派”
第四种以前不知道怎么说合适,因为似乎学术界、新创公司、大公司都在做:有探索人工智能基础设施的,有在互联网产品上做如推荐、安全等在后台的应用的,有在金融等领域、安防等垂直领域做应用的等。过去一两年,新创公司或大公司的人工智能项目大爆发。
看到开头那句话后,我觉得,用“默默学习派”指代这些公司、这群人可能很贴切。
当然这么说也是因为有趣,因为“学习”这个词现在成为热词,字面意思和实际意思其实并不完全一致,比如深度学习、机器学习、强化学习等等。
如果回顾互联网产业发展的这些年,我们会发现,我们现在所在的未来,很大程度上是在这第四类里面的人创造出来的。
从搜索引擎、电商、社交、大数据、云计算到现在的人工智能,不管基础性的还是实用性的,都是互联网人最相信的那句话的产物:
“预测未来的最好办法就是把它创造出来。”
近年来,我们逐渐看到,中国互联网公司在技术上已经追赶到与国际巨头齐头并进,商业模式的“拷贝到中国”(Copy to China)很多程度上也已成为过去。
在人工智能成为关注焦点之后,我们又发现这是一个中国与美国几乎同步发展的新技术领域。比如,在机器智能的基础技术设施、在无人驾驶汽车等方面投入最多的和领先的,是全球两家搜索引擎公司:百度和谷歌。
因而我们都非常关注,百度这样已经在机器学习领域做了很深入的研究和应用的公司,它是怎么看人工智能与机器智能的?
人工智能的飞轮与产品
2016年中,吴军所著的《智能时代》中对基本常识做了非常好的澄清,有助于大众了解机器智能这件事。比如吴军很通俗地解释了,现在人工智能的做法并不是外行所想象让机器像人一样思考,而是把智能问题变成大数据与算法的问题。
《智能革命》更进一步地强调了数据对于现在的机器智能的价值,其中有个比喻把数据视为“燃料”:
“人类的行为一旦被互联网以数据的形式记录下来,就成为滋养人工智能在各行各业齐头并进的燃料。……有了数据燃料,人工智能的发动机就可以运转起来了”。
为什么人工智能这个其实并不新的技术现在再次爆发和真正爆发,很大程度上是因为,互联网和人工智能结合起来了,互联网给机器智能带来的是大量的数据,同时在运行的过程中又产生大量的数据。搜索引擎又是互联网里面掌握数据最多的公司类型之一。
在《智能革命》中,作者把互联网之前的人工智能技术比作“早产的心脏”,有两个先天不足,一是数据不足带来的“供血不足”,二是计算能力不足带来的“心力不足”。
过去这十几年在深度学习等算法上也有很大的突破,比如Hinton提出的增加神经网络层数、也就是增加神经网络“深度”的深度学习算法,但的确最主要的突破还是在数据和计算能力上。
回顾互联网的发展,如果从尼葛诺庞帝把“数字化生存”这个观念深嵌我们每个人的基本观念说起,可以说是三大阶段:
数据化的前提是数字化,智能化的前提是数据化。
在《智能革命》中,作者从搜索引擎角度提出的两点可能对广大的企业都有启发。
第一是“数据-知识-用户体验-新的数据”的人工智能创新飞轮。
我理解,这个飞轮所说的是,通过机器学习的方法,我们把数据转化成知识(通常就是算法),然后通过好的用户体验变成产品,在产品的运转过程中又搜集数据,持续地往复循环、不断加强。
比如说,我们对搜索引擎结果的每一次点击或不点击,实际上都产生了新的数据,这些数据又会被用于训练算法,提供更好的搜索结果。
类似地,这样的循环其实也出现在电商中的商品推荐、新闻资讯APP的阅读、社交应用中的信息流等互联网产品中。
当我们试图抓住人工智能的机会时,这个飞轮告诉我们产品背后的逻辑应该是什么样的。
第二是人工智能产品开发流程。
第二, 作者认为搜索引擎的开发流程和技术核心跟人工智能系统的开发是非常吻合的,基因是一致的。两者都是
“以数据为主,通过抽取其中的特征、模式,然后用这个模式给用户带来价值。”
对百度这样的搜索引擎,它的开发流程这样的四步:
现在,众多公司都在考虑进行人工智能系统的开发,但是,除了机器翻译、语音识别、图像识别等少数领域之外,我们可找到的参照物有限。而如果具体地把人工智能系统和搜索引擎对照起来看,有了一个已经存在的、大家都比较熟悉的参照物,我们就可以更形象、更清晰地地思考。
另外,我们也可以看到,百度地图、导航这样的网络地图服务,其实也有着相似的逻辑。
过去,人们研究的专家系统,是人工输入规则,现在的人工智能系统、现在大家说的机器学习,它们的基本思路都是让机器在数据中寻找相关性、发现模式、形成算法,然后变成服务于人的产品。
《智能革命》这本书甚至认为,这种模式可能就是一直以来“人类进步”的方式。书中说,这种模式包括三个关键步骤:
第一,人类捕捉宇宙中的各种现象,特别是通过有意识地观察获得经验;
第二,通过计算,将信息有效地组织、处理、提炼,使得人类对某个现象进行更深入和抽象的理解,形成知识;
第三,人类利用产生的知识认知来采取行动,与现象交互,最终实现我们预期的结果。
简单地说,这三步就是:
观察现象,发现规律,应用知识。
人工智能还是沿着这样的模式前进,但又跨越了一大步。过去这每个过程,都需要人类的参与;现在,我们可以让机器自己去“学习”了。
并且,机器所能从大量的混沌数据中进行的学习,实际上已经远远超出了人的能力范围。机器能“学习”,这可能是现在在发生的变化可以称之为新的技术革命的原因。
说明:这篇读人工智能图书的读书笔记发在《上海证券报》。我本来写的题是《智能革命:来自默默学习派的经验》,最近在“学习”机器智能,读了一些书,也看了一些基础性的算法书,对于人工神经网络和深度学习,还在“学习”:
几周前写的一篇面向大众普及的文章:
德州扑克人机大战,为什么关注度降低?
当时写了这么一句:对它过度乐观的预期,或者过度悲观的认知,都会妨碍我们更好地理解它,回归平淡,可能是理解的开始。