我 相 信 这 么 优秀 的 你
已 经 置 顶 了 我
翻译|杨振涛 选文|小象
转载请联系后台
我们调查了优秀数据可视化的一些基本原则,包括一些不同的案例、人类认知准则、关键变量聚焦、变化和趋势,以及废弃图表垃圾等等。
数据可视化已经成为数千本书籍、课程和博客的典型话题。我的数据挖掘课程就包含有一个课时的数据可视化内容。但是对于我的读者,比如你,并不一定有一个小时来阅读全文,所以这里有一个KDnuggets大小的概要,介绍了什么才是数据科学家眼中的优秀数据可视化。
法国工程师Charles Minard的这张优秀的图形,有效地讲述了拿破仑军队1812年在俄国前进与灾难性撤退的故事。
Fig. 1: Napoleon campaign into Russia in 1812, Charles Minard map
图形展示了几个关键变量:拿破仑军队的大小(条带宽度——1mm表示1万人),地图上的位置;温度(第二坐标)、行进方向和时间。
数据科学家不局限于构建预测模型——还需要解释模型,并使用它们来帮助人们理解数据和做出决策。数据可视化是有力地呈现数据时必不可少的一部分。
有很多关于优秀数据可视化以及如何更好理解信息的研究——参见Stephen Few等人的工作。
提升人们观点的准则包括:
在通用比例下定位数据
条形图比圆形或方形在沟通大小上更高效
在散点图中颜色比形状更易识别
避免饼图除非用来展示面积
避免3D图形并减少无用图表
旭日图比分层图更加高效
少用关联(尽管动物图标看起来很酷,但它对于理解数据变化帮助甚微)
参考39 studies about human perception,通过华盛顿邮局的图形编辑了解更多详情。
从数据可视化的视角来看,决定可视化重要性的是高亮数据的关键特征——最重要的变量是什么、相关重要性是什么,以及变化和趋势是什么。
无用图表数据可视化应当,如下图所示。
Edward Tufte教授的优秀图形3原则(参看see The Visual Display of Quantitative Information)指出:
给出视角
最多的想法
在最短时间内
在最小的空间里使用最少的笔墨
有很多误导人的数据可视化案例,再比如这个,还有这个。
常见的一个错误(或误导手段)是改变坐标轴来增大影响程度。
Fig. 2: 误导性可视化:相同的数据,不同的坐标轴。
好,上面我们提到了如何制作一个糟糕的可视化。
如何来制作一个优秀的数据可视化呢?
为此需要为你的数据选择正确的图标类型:
折线图用于跟踪随着时间的变化或趋势,并展示两个或多个变量间的关系。
柱形图用于比较不同类目的数量。
散点图展示两组数据项的关联变化。
饼图用于比较一个整体的不同部分——
在2D图形中使用颜色、形状和大小来展示附加变量。
通过交互式面来对关键变量做试验。
有很多高级方法用于高维数据可视化,比如平行坐标、脸谱图,或者简笔画,但它们还没有非常流行,因为对于非专业人士来说太难解读了。
但是,你可以超越2维,通过使用颜色、标签以及大小来有效地呈现附加维度。
这里是1976年美国总统大选的实验示例(根据这个数据)。
下图是一个如何不展示这些数据的案例。
Fig. 3: 美国总统大选,1976-2016,槽糕可视化案例
槽糕在这几个方面:
首先,受欢迎选票的百分比并不是最重要的变量,因为美国选举由选举人票数决定,并非受欢迎选票数。更好的图表应当能同时展示受欢迎投票和选举人投票。
其次,比例尺很武断地从40%开始,不公平地放大了差异。
第三,在一些选举中(1980、1992、1996、2000)曾有第三个党派参选,这势必分流了大量的选票。更好地展示竞选激烈程度的方式是,对比获胜者和第二名的选举人票数和受欢迎票数的差异。
最后,不同柱形的颜色使用非常干扰用户,没有带来任何有用信息。把颜色用于不同党派更好,比如,民主党使用蓝色,共和党使用红色(就像现在按惯例使用)。
这里的一个改进的可视化方案,展示了获胜者和第二名(y轴)之间在选举人票数方面的差异、二者在受欢迎票数百分比上的差异(x轴)、受欢迎票数(圆型面积)、获胜党派(颜色),以及获胜者名称和年份(标签)。
Fig. 4: 美国总统大选,1976-2016,优化后的可视化案例
有时候你想讲述的故事可能需要一个非典型的可视化,甚至需要一些手动编辑。
优秀的数据可视化在社交媒体上有很大的影响力。
我在Linkedin上最成功的一篇文章获得了23,000次浏览,大部分。。,使用。。来展示年度之间的成长显著的公司。颜色用来表示正向发展(绿色)和负向发展(红色)。新公司使用绿圈表示,下降的公司则用红色X标记。
Fig. 5: 数据科学平台比较的Gartner Maggic Quadrants,2017 vs 2016。
总之,你同时看到了MQ当前位置和清晰变化。
那么,你认为什么是才优秀的数据可视化呢?
杨振涛
搜索引擎架构师,聚焦实时搜索,搜索广告,以及大数据的存储、索引、搜索和可视化。