专栏名称: 开智部落
「开智部落」是基于认知学徒制设计的学习共同体。
目录
相关文章推荐
FM93交通之声  ·  热搜第一!王宝强被举报!网友们吵翻了... ·  昨天  
钱江晚报  ·  从雅加达到努山塔拉,印尼为何要迁都? ·  2 天前  
FM93交通之声  ·  刚刚确认:今晚不调! ·  2 天前  
FM93交通之声  ·  “死亡数据仍在上升”!警方介入 ·  2 天前  
FM93交通之声  ·  黄晓明再发声:觉得自己很傻! ·  3 天前  
51好读  ›  专栏  ›  开智部落

零基础带你叩开网络数据分析大门

开智部落  · 公众号  ·  · 2017-05-11 23:55

正文

— Note170511—

十三维按:2012年,《Nature Physies》的第一期再次聚焦复杂性。美国NEU 大学复杂网络中心主任 Albert-Laszlo-Barabasi 在题为「网络取而代之(The network takeover)」的评论中再次摩利地指出:
「还原论」作为一种范式已是寿终正寝,而复杂性作为一个领域也已疲意不堪。基于数据的复杂系统的数学模型正以一种全新的视角快速发展为一个新学科:「网络科学」。这是我们今天的主角,对网络科学进行数据分析的工具:Gephi ——以下全文约 2800 字,阅读时间约 5 分钟。

讲师介绍

刘勇,Gephi 官方认证讲师,数据可视化实践者,《网络数据可视化与分析利器:Gephi 中文教程》作者。

什么是网络数据

我们先来了解一下研究网络的学科——网络科学是什么。美国国家科研委员会(National Research Council)将网络科学定义为「研究物理,生物,和社会现象的网络化表达,建立针对这些象限具有预测效果的模型」的学科。

网络数据则是对网络进行一种数字化的记录。网络科学的研究是以图论 (数学的分支)为基础,在数据的记录上,也是以图论中图的数字化记录方式记录的。顶点和边是图论中最重要的两种元素,顶点的集合称作点集,边的集合称作边集,我们可以用点集和边集对图进行数字化记录。讲座介绍的Gephi也是基于这种方式,用节点表和边表来记录网络数据。

Gephi 的基本介绍及基本操作

Gephi 是一款由法国工程师开发,跨平台的开源免费复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。可用于:探索性数据分析,链接分析,社交网络分析,生物网络分析等。

打开Gephi,界面上会出现三个图窗来供我们选择。最常用的两个图窗是概览和数据资料,概览是Gephi数据可视化处理的主要环境,中间的图窗是是数据可视化的图形显示区域,左侧是用来改变图形的工具;数据资料图窗是用来查看、编辑和修改网络数据,该窗口与Excel类似。网络图可视化完成后,可以切换到预览图窗来导出图形文件。

案例:「16国32媒」数据操作

该案例以16国的32家日报(每个国家选两家最重要的日报)为节点,以一家日报在五年时间内对两家日报的引用次数为有向边的权值,来生成一个网络。数据导入后,Gephi的界面中间会出现一个难以辨析的初始网络图。接下来可以调整网络图的布局和外观,得到一个清晰以观察的网络图,也可以对数据进行统计计算。

调整后便可得到一个清晰的网络图,可以看到最重要的节点是纽约时报、华盛顿邮报、卫报和泰晤士报,它们恰好也是全球最重要的四家日报。

此外,我们还可以想到这些问题:引用关系究竟表明了什么含义,是贬义的还是褒义的?是正向的还是负向的影响?以及,这些媒体是不是有足够的代表性?

这些问题,大家有兴趣都可以自己去思考。如果有困惑,可以提出来,或者参考拙作《网络数据可视化与分析利器:Gephi 中文教程》一书。

互动问答

Q1:网络数据分析在我们日常生活中有哪些应用?

我们可以用 Gephi 来分析 Twitter 中好友和粉丝间的关系,看看哪些人是自己和一些朋友的共同好友,哪些人是自己的粉丝。

Q2:Gephi处理的最大数据量是多少,数据较多时有没有可视化的技巧?

Gephi 最大的数据处理量跟边的数量有很大的关系,官方公布的数据是 100,000 个节点和 1,000,000 条边。当数据较多时,可以用 Gephi 中的聚类算法将功能相近的节点聚合,这样网络图就会变得清晰一些。

(整理:半山古刹  编辑:十三维)

- The End -

↓↓↓戳原文,预约开智部落2.0版本!