专栏名称: Python新手营
数据,算法,人工智能
目录
相关文章推荐
新智元  ·  超强o1模型智商已超120!1小时写出NAS ... ·  3 天前  
黄建同学  ·  #openai发布最强模型o1##程序员# ... ·  3 天前  
宝玉xp  ·  去年 Jim Fan 有一个对传闻中 Q* ... ·  3 天前  
爱可可-爱生活  ·  欢迎收听「爱可可AI前沿快报」,用最通俗的语 ... ·  5 天前  
宝玉xp  ·  这是一个 OpenAI 的 o1 ... ·  6 天前  
51好读  ›  专栏  ›  Python新手营

数据科学家眼中的优秀数据可视化

Python新手营  · 公众号  · AI  · 2017-04-21 20:02

正文

我  相  信  这  么  优秀  的  你 

 已  经  置 顶  了  我

翻译|杨振涛 选文|小象  

转载请联系后台


我们调查了优秀数据可视化的一些基本原则,包括一些不同的案例、人类认知准则、关键变量聚焦、变化和趋势,以及废弃图表垃圾等等。


数据可视化已经成为数千本书籍、课程和博客的典型话题。我的数据挖掘课程就包含有一个课时的数据可视化内容。但是对于我的读者,比如你,并不一定有一个小时来阅读全文,所以这里有一个KDnuggets大小的概要,介绍了什么才是数据科学家眼中的优秀数据可视化。


法国工程师Charles Minard的这张优秀的图形,有效地讲述了拿破仑军队1812年在俄国前进与灾难性撤退的故事。


 Fig. 1: Napoleon campaign into Russia in 1812, Charles Minard map


图形展示了几个关键变量:拿破仑军队的大小(条带宽度——1mm表示1万人),地图上的位置;温度(第二坐标)、行进方向和时间。


数据科学家不局限于构建预测模型——还需要解释模型,并使用它们来帮助人们理解数据和做出决策。数据可视化是有力地呈现数据时必不可少的一部分。


有很多关于优秀数据可视化以及如何更好理解信息的研究——参见Stephen Few等人的工作。


提升人们观点的准则包括:


在通用比例下定位数据 

条形图比圆形或方形在沟通大小上更高效 

在散点图中颜色比形状更易识别 避免饼图除非用来展示面积 

避免3D图形并减少无用图表 

旭日图比分层图更加高效 

少用关联(尽管动物图标看起来很酷,但它对于理解数据变化帮助甚微)


参考39 studies about human perception,通过华盛顿邮局的图形编辑了解更多详情。


从数据可视化的视角来看,决定可视化重要性的是高亮数据的关键特征——最重要的变量是什么、相关重要性是什么,以及变化和趋势是什么。


无用图表数据可视化应当,如下图所示。


Edward Tufte教授的优秀图形3原则(参看see The Visual Display of Quantitative Information)指出:


给出视角


最多的想法 

在最短时间内 

在最小的空间里使用最少的笔墨


有很多误导人的数据可视化案例,再比如这个,还有这个

常见的一个错误(或误导手段)是改变坐标轴来增大影响程度。


 Fig. 2: 误导性可视化:相同的数据,不同的坐标轴。


好,上面我们提到了如何制作一个糟糕的可视化。


如何来制作一个优秀的数据可视化呢?


为此需要为你的数据选择正确的图标类型:


折线图用于跟踪随着时间的变化或趋势,并展示两个或多个变量间的关系。

柱形图用于比较不同类目的数量。 散点图展示两组数据项的关联变化。 

饼图用于比较一个整体的不同部分—— 

在2D图形中使用颜色、形状和大小来展示附加变量。 

通过交互式面来对关键变量做试验。


有很多高级方法用于高维数据可视化,比如平行坐标脸谱图,或者简笔画,但它们还没有非常流行,因为对于非专业人士来说太难解读了。


但是,你可以超越2维,通过使用颜色、标签以及大小来有效地呈现附加维度。

这里是1976年美国总统大选的实验示例(根据这个数据)。


下图是一个如何不展示这些数据的案例。


 Fig. 3: 美国总统大选,1976-2016,槽糕可视化案例


槽糕在这几个方面:


首先,受欢迎选票的百分比并不是最重要的变量,因为美国选举由选举人票数决定,并非受欢迎选票数。更好的图表应当能同时展示受欢迎投票和选举人投票。


其次,比例尺很武断地从40%开始,不公平地放大了差异。 


第三,在一些选举中(1980、1992、1996、2000)曾有第三个党派参选,这势必分流了大量的选票。更好地展示竞选激烈程度的方式是,对比获胜者和第二名的选举人票数和受欢迎票数的差异。 最后,不同柱形的颜色使用非常干扰用户,没有带来任何有用信息。把颜色用于不同党派更好,比如,民主党使用蓝色,共和党使用红色(就像现在按惯例使用)。


这里的一个改进的可视化方案,展示了获胜者和第二名(y轴)之间在选举人票数方面的差异、二者在受欢迎票数百分比上的差异(x轴)、受欢迎票数(圆型面积)、获胜党派(颜色),以及获胜者名称和年份(标签)。


 
Fig. 4: 美国总统大选,1976-2016,优化后的可视化案例


有时候你想讲述的故事可能需要一个非典型的可视化,甚至需要一些手动编辑。

优秀的数据可视化在社交媒体上有很大的影响力。


我在Linkedin上最成功的一篇文章获得了23,000次浏览,大部分。。,使用。。来展示年度之间的成长显著的公司。颜色用来表示正向发展(绿色)和负向发展(红色)。新公司使用绿圈表示,下降的公司则用红色X标记。


 Fig. 5: 数据科学平台比较的Gartner Maggic Quadrants,2017 vs 2016。


总之,你同时看到了MQ当前位置和清晰变化。


那么,你认为什么是才优秀的数据可视化呢?



译者介绍

杨振涛


搜索引擎架构师,聚焦实时搜索,搜索广告,以及大数据的存储、索引、搜索和可视化。