先设想这样一个场景,平静的水面上漂着一片树叶,一个小孩往水里扔了一个石子,激起的涟漪一圈一圈地散开,最后都聚集到叶子的周围,因为水波的能量被阻断而无处扩散。
水面的各个部分是相互连接的,就像一个图谱,叶子就是其中的一个异常点。当图谱中发生一个事件时,能量或破坏力一定会体现在异样的地方。这种破坏力,可能发生在近邻,也可能发生在远邻,甚至可能是发生在千里之外的蝴蝶效应,因为世界是相互连接的,而图谱能够描述和表示这种世界的抽象和连接。
AlphaGo在围棋比赛中完胜人类,颠覆了人类对围棋的认识,实际上是颠覆了人类对自己思维方式的认识。由于大脑的容量和计算能力是有限的,人类的思维受深度和广度的限制,所以,只好用一些定式来减少思考的深度和广度。
比如,看到某个定式时,人类对于这一着棋就不用再往下想了。因为按照定式、按照经验、按照棋手们的共识,大家应该这么走。同时,对于某些可能的广度搜索,有些棋子,至少对当前的棋局影响不大,至少对于人类棋手能预料的短期来看影响不大,所以也不用浪费带宽思考。而电脑,也就是AlphaGo,只要有计算能力和计算时间,完全可以大幅度地摆脱这种限制,能有更深的深度和更广的广度。
更甚的是,AlphaGo可以在人类休息时,通过自己和自己对弈,提前探索更多的搜索空间,这也就是现在很火的强化学习。那么,在天生不平衡的情况下,如何能扩大人类的联想?知识图谱就能完成这一使命。先看看Google的PageRank模型。
由于网页是相互链接的,一个高能量的网页会将能量顺着链接,传播到其他的网页,最后,能量会聚集到真正有价值的页面上。这也是图谱的一种表现形式,只是在这里,节点是一个个的网页,边是网页之间的链接。别小看这些链接,它们是人类智慧的结晶。只有当人觉得这两个网页相关或重要时,它们才会给出一个链接。
PageRank正是挖掘了人类智慧,通过随机行走模型和算法,让所有的网页有了自己的重要性指标,让它们有序。有序之后,很多任务就好办多了。比如,抓取网页知道先抓谁,索引时知道谁先处理,搜索结果排序时知道谁在前,等等。之后,Google进一步将PageRank算法进化成BrainRank,考虑了更多的特征和关系。有了图谱,加上先进的算法,将知识图谱中的节点和关系有序化,人类能够做很多的事情。
简单来讲,知识图谱,就是一张由知识点相互连接而成的语义网络。它是一种人工智能技术,是基于现有数据的再加工、结构化,再通过各种数据挖掘、信息抽取和知识融合技术形成一个统一的、逻辑上全局的知识库。一个知识图谱描述了世界里概念和概念之间的关系。
一般图谱中有实体、事件和关系。这些因素都有很多属性。实体一般是“物”,在语言中一般以名词形式出现,比如人、车、地点等。事件一般是在某个时间发生的行动,在语言中一般体现为动词,比如招聘、收购、发财报等。属性一般包括名字、标签、重量、高度、价格、时间、地点等,能以数字或具体值标识。关系表示了实体和实体、实体和事件之间的联系。
来看一个具体的例子:“2016年6月22日,腾讯86亿美元收购芬兰手游公司Supercell。”
实体:腾讯公司(名字:腾讯;营业地点:中国;主营业务:娱乐),Supercell公司(名字:Supercell;营业地点:芬兰;主营业务:手游)。事件:公司收购(名字:腾讯收购Supercell;收购时间:2016年6月22日;收购价格:86亿美元)。关系:(A)收购了(B),(B)被(A)收购了。属性:名字(标签)。收购时间,收购价格,主营业务,营业地点。
对于投资,各个股票、公司、事件等之间是相互连接和影响的。一个事件的发生会影响与它直接相关或间接相关的方面。比如,一款新电池进入市场,会影响它的上游,比如原材料、原材料厂商;也会影响它的下游,使用电池的商家,比如电动汽车、手机。而且还会影响与它相关的间接行业,比如通信、运营商,甚至电商、内容提供商等。