内容来源:2017年5月28日,清华大学TEDxTHU 2017 春季大会,高庆一博士进行“以人民的名义审视社交网络——AI复杂网络理论带来的生活启示”主题演讲,笔记侠作为合作方,经讲者审阅授权发布。
今日笔记侠客 | 邓丽君 责编 | 清野
第1526篇深度好文:4226字 | 6分钟阅读
笔记君说——
侠客们,晚上好!新商业路上,笔记侠虽不能与你并肩作战,但可以一起相互守望。
昨晚的推文是不是很精彩?为了传播的准确性,再为大家奉送一版进阶版。
人的社交网络如此复杂,如何评价一个人在社交网络中的重要程度?
高庆一博士从《人民的名义》电视剧切入,探讨社交网络的重要性,并提出通过复杂网络理论分析人际网络的可能性。
关于复杂网络,我认为它是人工智能领域皇冠上的钻石。
今天我将尝试用最近非常火爆的反腐题材电视连续剧《人民的名义》,给大家揭开一点点复杂网络这门学科的面纱。尝试使大家换一个角度来重新思考一下自己的社交行为以及如何评价自己在社交网络中的重要程度,以期能够给大家带来些许的生活启示。
2016年3月,AlphaGo(阿尔法围棋)打败了当时的围棋世界冠军李世石,就在前两天又打败了围棋九段棋手柯洁。从2016年3月开始,大量跟深度学习、数据挖掘、人工智能相关的词汇在我们生活中出现。
人工智能、复杂网络是一种什么样的逻辑框架?深度学习、数据挖掘、监督学习、非监督学习以及相关关键词在人工智能领域处于一个什么样的位置?今天主题所讲的复杂网络又在人工智能这个领域里面处于一个什么样的阶段?
我将从下图开始展开。
人工智能分为强人工智能和弱人工智能。
强人工智能需要机器具有推理能力、解决问题的能力,还需要机器具有自我意识,但是对于弱人工智能,不强调机器具有自我意志。
人工智能有一系列的相关技术和理论,同时还包括一个非常重要的部分叫做复杂系统,也叫复杂网络。
在已经结束了的工业革命时代,机器替代了人类的体力;在正在进行的弱人工智能革命时代,机器正在替代人类的脑力;在未来我认为必然到来的强人工智能时代,也许机器替代的是人类本身。
那么复杂网络又是一个什么样的概念呢?何为复杂?什么是网络?
我们定义节点数量达到10的12次方规模体量以上,我们可以称为复杂;由节点和边的关系所组成的结构叫做网络。因此当我们讨论在10的12次方以上的规模体量及由节点和边的关系组成结构的时候,我们就在讨论复杂网络。
根据节点和边的关系不同,可以得到不同类型的复杂网络。
如果每一个节点是一个作者,作者与作者之间至少合作发过一篇论文,就得到一个 Collaboration Network(合作网络);每一个节点是一篇论文,论文与人之间至少拥有一个共同的作者,就有了一个 Coauthor Network(合著网络)。这两种类型的网络都属于 Bibliographic Network(文档网络)。
人与人之间通过各种关系相连接,比如电话联络、微信好友、Facebook、推特的相互关注、父子关系、亲朋关系,各种各样的人际之间可以建立的关系,把人们连接在一起,就有了一个社交网络。
如果节点是地铁站,地铁站之间有列车通过,就得到一个 Tube Network(地铁网络);如果节点是机场,机场之间每一次航线连接,就得到一个航线网络。
如果节点是生物,生物之间具有捕食与被捕食关系,就得到一个捕食者网络。
以上是人工智能、复杂网络等相关词汇的逻辑概念的简单介绍。
根据节点和边的关系不同,我们定义了不同类型的复杂网络。那么复杂网络的研究和发展始于什么时候呢?
1736年,在俄罗斯有一个小镇叫做哥尼斯堡,有两条河穿过整个小镇,河上有两个小岛,有七座桥将两个岛与河岸联系起来。那么,一个邮差如何在不走回头路的情况下不重复、不遗漏地一次走完七座桥,最后回到出发点?
这就是复杂网络以及图论的研究的始点问题——哥尼斯堡七桥问题。
著名数学家欧拉,证明哥尼斯堡七桥问题是不存在解的。
那么在这几百年的研究历程里面复杂网络的高潮问题是什么?
可能大家都知道,叫做小世界实验,又叫做六度分割实验:
在1967年耶鲁大学学者 Stanley Milgram 设计了一个连锁信件实验。
他将一系列连锁信件随机发送给居住在内布拉斯加州奥马哈的160个人,信中放了一个波士顿股票经纪人的名字,信中要求每个收信人将这套信寄给自己认为比较接近那个股票经纪人的朋友。最终只有20%的信件到达了收件人手中,但其中有超过80%的信件都在六个步骤以内送达了。这就是著名的六度分割实验。
如果你的微信的联系人有一百个人(102)的话,那算及你朋友的朋友,你能触及到多少人?
我们的前提假设是,你的熟人与熟人之间没有交集,10的四次方也就是1万,那么在六度以内能够触及到多少人?102的6次方是1012即1万亿人,远远超过我们地球已有的人口数量。
我们生活在一个移动互联网的时代,实际上这个是1967年的研究结果。最新的研究结果证明人与人在移动互联网时代的距离只有3.7步。
刚才介绍了人工智能复杂网络以及各种类型的复杂网络,包括哥尼斯堡七桥问题以及六度分割实验。人是最复杂的动物,由人与人之间错综复杂的结构所构成的网络,叫做社交网络。
社交网络是非常典型的一种复杂网络。接下来我想通过《人民的名义》这部充满了人与人之间复杂关系情感的电视连续剧来讨论:
如何评价一个人在社交网络中的重要程度?
我们用 HITS Centrality、Degree Centrality、Eigenvector Centrality、PageRank Centrality 四个维度来衡量评价。
HITS,即 Hubs and Authorities(权威和枢纽)。
笔记侠注:PageRank (网页级别)是 Google 算法的重要内容,取自 Google 的创始人 LarryPage。它是 Google 排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是 Google 用来衡量一个网站的好坏的唯一标准。
在揉合了诸如 Title 标识和 Keywords 标识等所有其它因素之后,Google 通过 PageRank 来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。
举个例子,在网络中有两种类型的节点:
一种叫做 Hubs(枢纽)。Hub 在网络中指向了很多节点,出度非常高,换句话说,Hub 们在网络中认识很多人,但是他本身的重要程度也许并不高。
另一种人,我们叫做 Authorities(权威),在网上很多节点倾向于向他连接,入度非常高。
后面三种方法也都是评价一个节点的重要程度的方法。
Degree centrality(度中心度):是指一个节点,在网络上程度是看有多少节点与我所要研究的节点相连接,以量来取胜。
Eigenvector centrality(特征向量中心度):不仅从量来评价,还需探究之间的节点本身的重要程度,从质上去考量。
PageRank centrality(PageRank 中心度):需要衡量这个节点之间的关系强弱,即它对你有多强的忠诚度。
提起忠诚度,我想用这个例子来说明。
如果一个网红在社交媒体上说我和王思聪恋爱了,大家的反应是:可以,你与网络中一个比较重要的节点建立了连接,你的 Eigenvector Centrality 不低。
清华大学著名校友章泽天跟刘强东结婚了。她与网络中非常重要的一个人相连接了,在 Eigenvector Centrality 这个层面上也很不错。
但是 PageRank Centrality 呢?铁打的思聪,流水的网红,江山代有网红出,各领风骚数百天;而泽天妹妹的 PageRank Centrality 呢?对于强东而言,人间纵有百媚千红,他只爱泽天妹妹这一种。由此,一段时间过去后,网红还是网红,而泽天妹妹已经是国际名媛。
接下来,我将用一个更合适的例子来说明。
人民的名义里有个陈岩石,他曾经是汉中省检察院常务副检察长,从大风厂最早期改革就一直在里边工作,并且后面一直在协助大风厂来进行推广各项问题的解决落实。
在后期大风厂遇到股权、拆迁等问题时,陈老一直站在员工的角度去思考问题以及支持大部分的员工进行利益的诉求,所以大风厂的员工都是支持陈老的,他的Degree Centrality 非常高,但是为什么大风厂问题拖了好多年一直解决不了?
其主要问题就是虽然在网络中支持你的人数量很多,但是它的重要程度并不足以推进这件事情往前发展。
情况在什么时候发生变化?
在沙瑞金来到汉中升任省委书记的时候,情况发生了变化。因为沙瑞金和陈岩石曾经是养父子的关系,同时沙来到汉中又是为了反腐和推进改革的,所以他需要解决大工厂的员工的股权安全问题。
这时在网络中支持你的人情况变化了,你的 Eigenvector Centrality 升高了,所以后续陈老推动这些事情的发展的步伐加快。
我想用这样一张雷达图来给大家换一个角度,用 HITS、Degree、Eigenvector、PageRank 四个维度进行讲解。
首先我们可以看到沙瑞金记被中央派到汉中执行反腐是深得民心,所以老百姓非常支持沙书记,书记的 Degree Centrality 是满分。
因为中央完全支持沙书记去清查汉中省赵立春这个派系的所有问题,所以他的 Eigenvector Centrality 也是满分。
此外,中央在汉中没有第二个声音,只有沙瑞金,他的 PageRank Centrality 也是满分。
因此沙瑞金三项都是满分。
那么此处的沙书记一定是 Authorities(权威),而不是 Hubs(枢纽)。我们再看两个不那么完美的人。
第一个是汉中大学政法系教授高育良书记,他被赵立春从汉中大学政法系提拔到了省委,然后一步一步升迁,最终任省委副书记、省政法委书记。
赵立春离开汉中省之后还推荐他成为汉中省委书记,但他的 Degree Centrality 并不是满分,因为在美食城以及大风厂的问题上高书记有私心,他并没有得到全部人民群众的支持。
但是他的 Eigenvector Centrality 在沙瑞金进来之前是满分。因为赵立春完全支持他,甚至最后还要推荐他来接替自己成为汉中省委书记。
那么高育良的 PageRank Centrality 为什么不是满分?因为赵立春在汉中省除了高育良以外还有其他人选。比如赵立春原来的秘书汉中油汽集团的总裁刘新建,另外还有达康书记,所以他的背后靠山是需要与人分享的,他的关系忠诚度并不高。
再看看汉东省公安厅厅长祁同伟,一直想当副省长,最后也没当上。祁厅长的夫人有一句非常著名的话:祁同伟,你是不是想把你们村里的野狗都安排到公安局来当警犬,也吃上一份皇粮?
对于祁同伟来讲,他的主要的诉求是攀上:就是攀附一切能够让他提拔为副省长的人,不去管基层百姓的疾苦,但是为什么他的 Degree Centrality 竟不是0?是因为还有他们村的人和狗支持他。
在赵立春调走之前或者说高育良还没有出事之前,其 Eigenvector Centrality 是满分,因为高书记完全支持他,想让他继任政法委书记。
祁同伟的 PageRank Centrality 为什么也是满分?
因为实际上在这个情势下,高育良在副省长以及未来的政法委书记这两个位置上没有其他的选择,只能支持他,所以他的强弱程度中心度也是满分,但是所有这些情况都是会发生变化的。
当沙瑞金来了之后,高育良的 Eigenvector Centrality 立马归零,因为赵立春倒台了,他背后的大树失去了。
剧中后期赵立春家族对高育良寄托了很大希望,因为此时达康书记已经不属于同一派,而刘新建已被抓,此时高育良没有别人来分享赵立春的支持,但是因为赵倒台,其 PageRank Centrality 也归零了。
而祁厅长在沙书记到来之后,因为高育良的位置变化,其 Eigenvector Centrality 和 PageRank Centrality 也归零了。
以上采用《人民的名义》讲述了如何评价一个节点在网络中的重要程度。也就是用了四个维度方式来评价一个节点的重要程度。
我想给从下面几方面给大家一点启发。
首先,社交关系的数量并不起决定作用。我们绝大多数的时间都是无效社交,应该把主要时间放在有效社交上面。
第二,背靠大树固然好,但是风险同样存在。若大树倒了,也许被庇护的人并不仅仅是失去了庇护,还有可能会被砸死。
第三,与重量级人物建立了关系只是第一步,能够加深关系,提升他对你的关注度才是关键。
第四,做 Hub(枢纽)永远没有做 Authority(权威)稳妥,打铁还需自身硬。
Hub的问题是能不能成为 Authority。 Authority的问题是愿不愿意成为 Hub 。
今天和大家分享的关于复杂网络的一些基本概念,以及如何评价一个人在社交网络中的重要程度的方法,并不是想让大家在术的层面提升,去想尽办法与强势节点建立链接,如何去使自己的 PageRank Centrality(pagerank 中心度)变高,增加强势节点对自己的忠诚度。
而是希望大家能够在道的层面精进,增强自己的内在能力,把自己做大做强。最后,我想以清华大学的校训结束我的演讲:天行健,君子以自强不息;地势坤,君子以厚德载物!
主办方介绍——
TEDxTHU 是清华大学 TED 爱好者举办的 TED 活动,由 TED 总部授权,力图提供类似 TED 的思想交流平台。
高庆一,工学博士,拥有北京航空航天大学博士后研究经历,是国内第一批进行复杂网络研究的学者。
君杰资本,专注单笔在50万~500万之间的种子期、天使期、Pre-A及A轮项目投资。曾参与投资多家公司,其中数家成功在创业板及新三板上市,同时参与泛娱乐类及共享经济知名项目投资。