专栏名称: Python新手营

数据，算法，人工智能

数据科学家眼中的优秀数据可视化

Python新手营 · 公众号 · AI · 2017-04-21 20:02

正文

请到「今天看啥」查看全文

我相信这么优秀的你

已经置顶了我

翻译|杨振涛选文|小象

转载请联系后台

我们调查了优秀数据可视化的一些基本原则，包括一些不同的案例、人类认知准则、关键变量聚焦、变化和趋势，以及废弃图表垃圾等等。

数据可视化已经成为数千本书籍、课程和博客的典型话题。我的数据挖掘课程就包含有一个课时的数据可视化内容。但是对于我的读者，比如你，并不一定有一个小时来阅读全文，所以这里有一个KDnuggets大小的概要，介绍了什么才是数据科学家眼中的优秀数据可视化。

法国工程师 Charles Minard 的这张优秀的图形，有效地讲述了拿破仑军队1812年在俄国前进与灾难性撤退的故事。

Fig. 1: Napoleon campaign into Russia in 1812, Charles Minard map

图形展示了几个关键变量：拿破仑军队的大小（条带宽度——1mm表示1万人），地图上的位置；温度（第二坐标）、行进方向和时间。

数据科学家不局限于构建预测模型——还需要解释模型，并使用它们来帮助人们理解数据和做出决策。数据可视化是有力地呈现数据时必不可少的一部分。

有很多关于优秀数据可视化以及如何更好理解信息的研究——参见 Stephen Few 等人的工作。

提升人们观点的准则包括：

在通用比例下定位数据

条形图比圆形或方形在沟通大小上更高效

在散点图中颜色比形状更易识别避免饼图除非用来展示面积

避免3D图形并减少无用图表

旭日图比分层图更加高效

少用关联（尽管动物图标看起来很酷，但它对于理解数据变化帮助甚微）

参考 39 studies about human perception ，通过华盛顿邮局的图形编辑了解更多详情。

从数据可视化的视角来看，决定可视化重要性的是高亮数据的关键特征——最重要的变量是什么、相关重要性是什么，以及变化和趋势是什么。

无用图表数据可视化应当，如下图所示。

Edward Tufte教授的优秀图形3原则（参看see The Visual Display of Quantitative Information ）指出：

给出视角

最多的想法

在最短时间内

在最小的空间里使用最少的笔墨

有很多误导人的数据可视化案例，再比如这个，还有这个。

常见的一个错误（或误导手段）是改变坐标轴来增大影响程度。

Fig. 2: 误导性可视化：相同的数据，不同的坐标轴。

好，上面我们提到了如何制作一个糟糕的可视化。

如何来制作一个优秀的数据可视化呢？

为此需要为你的数据选择正确的图标类型：

折线图用于跟踪随着时间的变化或趋势，并展示两个或多个变量间的关系。

柱形图用于比较不同类目的数量。散点图展示两组数据项的关联变化。

饼图用于比较一个整体的不同部分——

在2D图形中使用颜色、形状和大小来展示附加变量。

通过交互式面来对关键变量做试验。

有很多高级方法用于高维数据可视化，比如平行坐标、脸谱图，或者简笔画，但它们还没有非常流行，因为对于非专业人士来说太难解读了。

但是，你可以超越2维，通过使用颜色、标签以及大小来有效地呈现附加维度。

这里是1976年美国总统大选的实验示例（根据这个数据）。

下图是一个如何不展示这些数据的案例。

Fig. 3: 美国总统大选，1976-2016，槽糕可视化案例

槽糕在这几个方面：

首先，受欢迎选票的百分比并不是最重要的变量，因为美国选举由选举人票数决定，并非受欢迎选票数。更好的图表应当能同时展示受欢迎投票和选举人投票。

其次，比例尺很武断地从40%开始，不公平地放大了差异。

第三，在一些选举中（1980、1992、1996、2000）曾有第三个党派参选，这势必分流了大量的选票。更好地展示竞选激烈程度的方式是，对比获胜者和第二名的选举人票数和受欢迎票数的差异。最后，不同柱形的颜色使用非常干扰用户，没有带来任何有用信息。把颜色用于不同党派更好，比如，民主党使用蓝色，共和党使用红色（就像现在按惯例使用）。

这里的一个改进的可视化方案，展示了获胜者和第二名（y轴）之间在选举人票数方面的差异、二者在受欢迎票数百分比上的差异（x轴）、受欢迎票数（圆型面积）、获胜党派（颜色），以及获胜者名称和年份（标签）。

Fig. 4: 美国总统大选，1976-2016，优化后的可视化案例

有时候你想讲述的故事可能需要一个非典型的可视化，甚至需要一些手动编辑。

优秀的数据可视化在社交媒体上有很大的影响力。

我在Linkedin上最成功的一篇文章获得了23,000次浏览，大部分。。，使用。。来展示年度之间的成长显著的公司。颜色用来表示正向发展（绿色）和负向发展（红色）。新公司使用绿圈表示，下降的公司则用红色X标记。

Fig. 5: 数据科学平台比较的Gartner Maggic Quadrants，2017 vs 2016。

总之，你同时看到了MQ当前位置和清晰变化。

那么，你认为什么是才优秀的数据可视化呢？

译者介绍

杨振涛

搜索引擎架构师，聚焦实时搜索，搜索广告，以及大数据的存储、索引、搜索和可视化。