夏天还未到,瓜田里已是一片丰收的景象。
先是某从事“高危职业”的明星爆出
日薪208万
,随后又看到北京人社局副处长亲自体验外卖小哥生活,送单15小时只赚得
41元
。震撼之下,心态还真的有点崩……
不过毕竟从事过十年科研工作,“数据分析要要客观,放下主观好恶”这种道理我还是懂的。所以平静心情后,我第一个念头就是:如何才能把
41元与2080000元
这两个差别巨大的工资数字,放到
同一个图表中
呢?
先试试直接绘制,于是打开Excel生成一个柱形图,结果就是——小哥的工资干脆
看不见了
。
也许41元的收入实在太低了?于是为了真实体现收入分布,我找到了全国收入最高的地区之一——
上海市
的2019年城镇单位就业人员
平均工资
:
按照每月22个工作日计算,上海人均日薪为
435元
,是41元的10倍以上。把这个数字也放到图里,多少应该能看见一点了吧?然而……
…… 贫穷还是限制了我们的想象力。40元也好,400元也罢,在208万面前都只是空气。
事实上,这种
“极大跨度数据”
的展现难题,相信大家在工作中也会遇到不少。所以今天就与大家分析一下解决这类问题的常见思路,具体来说,由浅入深可以分为
4种方法
:
1、截断示意
2、双轴并立
3、对数坐标
4、提升维度
截断法的核心就是
“放弃数学关系”
,不告诉你“差距有多大”,只告诉你“差距很大就是了”:
具体做法也很简单:
① 先把数据改成几个相差不大的数据,比如把2080000
改成
1000,生成一个普通条形图后,再
删除
图表中的纵向坐标轴和横向对齐线;
②分别插入一个平行四边形和两个线段,把它们一起放到最长的那个柱形上:
③在每个线条上方插入
文本框
,写入真实数据:
这种图在企业工作中很常用,尤其适合需要硬着头皮汇报差距的朋友。毕竟它一方面通过数字标注表现出了真实差距,但在直观感受上,又不会对观众脆弱的心理造成巨大的冲击……
只不过有时候,我们还是想看清楚事实的真相。于是就有了下面几种方法。
学习更多有趣又实用的数据分析方法!
课程页面还能领
30元优惠券
哦
👇扫描二维码
,免费试学
👇
我们可以先把上述日薪分为2组:上海市平均工资435元与外卖工资41元划入
1-1000元组
,208万元工资划入
0-300万元组
。
既然是两个组别,就可以使用两个不同的单位进行标识。比如一组用人民币
“元”
作为计量单位(外卖日薪41元),而另一组则用新货币单位
“爽”
进行计量(1爽=1.6亿元)。
不过在同一个图表里使用不同单位,理解起来很容易发生混乱。因此更好的办法是:统一
都使用元
作为单位,但在左右分别
放置两个坐标轴
,也就是下面的样子:
这个图在Excel里也很容易做:
(1)修改原表并
新增一列
,将需要使用第二坐标轴(“次坐标轴”)的明星工资
移到
新列中。同时为了区分,给两个列分别命名为“普通人日薪”与“明星日薪”:
(2)根据新表格插入图表,但是选择“全部图表”中的
“组合图表”
,并且对“明星日薪”这一列选中
“次坐标轴”
:
然后点击确定,就可以得到最终效果。
虽然双轴的方法可以实现同框,但数据间的对比也被弱化了,这时候,数学里的一些概念如
“对数”
就可以派上用场。
可能很多同学对对数的概念已有些模糊。我们可以先考虑最简单的一种方式:
开平方根。
1、10、100、1000这四个数字各自相差
10倍
,前后(从1到1000)总计相差了
1000倍
,画成图形肯定相差悬殊。但如果分别对它们开平方根,那么就是1、3.16、10、31.6,各自只相差
3倍
左右,前后总计相差也只有
30倍
。
对数也是这个道理,而且通过设置不同的底数,它的
“数据缩放能力”
可以远远超出平方根。所以在工程和科研领域,经常使用对数坐标系来表现大范围的数据。
对于我们这个日薪工资柱形图,大家只要单击
选中纵轴
,然后在
右键
菜单中选择
“设置坐标轴格式”
,就可以在选项窗口中看到
“对数刻度”
:
选中“对数刻度”后,图表就会自动变成对数坐标,也就是下面的样子:
仔细观察纵轴的刻度,就可以看到对数坐标最显著的特点:
在对数坐标中,刻度之间体现的是倍数而不是差值!
因此在这个图里,在这个图里,一个刻度代表的就是
十倍之别
!
看上去明星工资(208万)与外卖小哥(41元)两个柱形只相差
5个刻度
,但5个刻度代表的就是
十倍
的
十倍
的
十倍
的
十倍
的
十倍
,也就是
十万倍
左右。
对数方法虽然即巧妙又科学,但这种“刻度不均匀”的坐标轴还是让会很多读者不适应,那么有没有办法既能准确表现比例关系、又保持传统均匀的坐标轴呢?答案就是——
升维
。
没错,Excel里的
气泡图、树形图
等等都是这个思路 —— 用
二维面积
来展现数据。
不过到底气泡图效果怎样呢?这里杨老师用
Python
里的matplotlib库绘制了一下,这个方式,我们将在
《全民一起玩Python 实战篇 数据分析专题》
中深入介绍和讲解。