专栏名称: 数据化管理
零售业数据分析及研究者,【数据化管理】咨询顾问、培训师,自由职业。
目录
相关文章推荐
笔吧评测室  ·  笔吧评测室祝大家新年快乐! ·  2 天前  
笔吧评测室  ·  映泰推出 MS-N97 无风扇工业电脑:双 ... ·  4 天前  
笔吧评测室  ·  全汉推出 S140 / S190 ... ·  4 天前  
笔吧评测室  ·  “老兵”逐渐远去:英伟达将停止更新 ... ·  4 天前  
笔吧评测室  ·  聊一款能有效防治“熊孩子”的笔记本 ·  4 天前  
51好读  ›  专栏  ›  数据化管理

什么工作最是“钱多事少离家近”?

数据化管理  · 公众号  ·  · 2018-05-01 20:10

正文

来源:城市数据团(metrodatateam)


前几天学姐来找我:“小团啊,我想换一个工作。你用数据帮我看看什么行业好?”


我说:“好呀。学姐你对工作有什么要求呢?”


学姐说:“钱多事少离家近。”


虽然我不相信有这样好的工作,但看看总没有坏处嘛。于是我打开电脑,开始对行业一项一项进行筛选。


第一项,钱多。这个容易。根据《上海统计年鉴2017》,各行业平均年收入如下图所示:



根据上图,可将20个行业大项分为四类:

1、收入超高(20万以上):金融业;

2、收入较高(10-20万):水电气生产供应业、采矿业、信息服务业、卫生和社会工作产业、公共管理业、科研服务业;

3、收入中等(5-10万):交运仓储业、文化体育娱乐业、商务服务业、批发零售业、公共设施管理业、房地产业、制造业;

4、收入较低(5万以下):建筑业、住宿餐饮业、农林牧渔业、教育业。


显然,在“钱多”的标准下,金融、水电气生产供应、采矿、信息服务等都是不错的选择。


第二项,事少。数据论证有点麻烦,姑且跳过吧。


第三项,离家近。由于学姐不肯透露她住在哪里,我只好假设学姐住在上海各地的概率与上海人口总体分布概率相同。然后,我以人口密度最高处(市中心)为原点,绘制出各个行业企业的密度衰减曲线。



上图中,离市中心距离为0处的企业密度越高,说明该行业在市中心的密集度越高。假如学姐从事了该行业的工作,那么工作地点离学姐家近的概率也越高。(学姐明确表示:一些行业她没有进入渠道(如水电气生产和供应),另一些行业她没有能力从事(如农业、卫生),因此,图中只保留了像学姐这样的大多数普通人有一定选择空间的10个行业大类;其中,信息服务业和科研服务业进行了合并。)


根据上图,从行业密集(离家近概率)的角度,我们再次将行业分为四类:

1、行业聚集度极高(离家近概率很大):金融业、住宿餐饮业;

2、行业聚集度较高(离家近概率较大):商务服务业、房地产业、文化体育娱乐业;

3、行业聚集度一般(离家近概率一般):批发零售业、信息服务业、交运仓储业;

4、行业聚集度较低(离家近概率较低):制造业、建筑业。


我指着图说:“学姐,同时符合钱多和离家两个要求的只有金融了。次优的选择是信息科技服务业,钱多,但离市中心不算近;商务服务、文化娱乐的距离比较适中,但收入就不算太高了。


学姐皱眉思考了片刻:“金融虽然很好,但据说加班很厉害。我可不想把美好的青春年华都奉献给工作。你再帮我看看哪些行业不加班吧。”


我叹了口气,看来“事少”的研究是逃不掉了。


怎么衡量“事少”呢?从常识来看,事少的行业应该符合以下表现中的至少一个:上班晚、下班早、工作时间短。而为了找到大家都在什么时候上下班,我不得不搬出了前几天 延华智能 提供的建筑用电量数据。


(说明:这是一张“城市呼吸”图。图中白金色线条代表道路和来往人流,柱子代表建筑,红色柱子为我们的样本建筑。用电量越大的时刻,红色越深。每一天随着时间的变化,人来人往,灯亮灯灭。)


我们的建筑样本全部位于上海市黄浦区。用电数据为2017年全年、每隔15分钟记录一次的用电量。其中,我们用于研究的是办公建筑(写字楼),样本数量约100个(注:由于样本数量、抽样规则和推算方法的不完善,我们的结论与实际情况将存在一定偏差。不过,依然不失为一次有趣的尝试)。


从时间上看,写字楼用电具有明显的周期性规律:



可以看到,写字楼的三个周期规律为:

1、季节周期:用电量与气温高度相关。4-6月和9-11月的用电量相对稳定,在最热的7-8月和最冷的12-1月,用电量有显著增加。

2、节假日周期:以年为周期,春节、国庆等法定节日用电量减少;以星期为周期,周末用电量为工作日的1/2-2/3。

3、周期:每天的零点到6点用电量处于低谷,从7点开始用电量飙升,于10点达到最高峰,其后缓慢下降,下午5点开始剧烈下降。


根据上述规律,我们制定如下研究思路:

1、基于写字楼用电量设计工作状态指标;

2、通过地址匹配找到入驻各幢写字楼的企业,并进一步计算行业结构;

3、用回归模型对各行业的工作状态进行模拟。


由于时间序列上的用电量绝对值不仅仅由工作用电决定,还受到基础用电、气温等多重因素的影响(本文最后的彩蛋有更为具体的解释),为了减少这些干扰,我们将用电量处理为相对值,并由此引申出上班时间、下班时间、工作时长的概念:



上图中:

1、相对用电量 = (当前时间分段用电量-当日分段用电量最小值) / (当日分段用电量最大值-当日分段用电量最小值)

2、上班时间为相对用电量第一次达到最高峰值70%的时刻,下班时间为相对用电量最后一次达到最高峰值70%的时刻,工作时长为下班时间与上班时间之差。

3、每幢写字楼的上下班时间和工作时长各不相同。总体水平为8:30上班,6:00下班,工作时长9.5小时(含午休)。


接下来,我们要找到每幢写字楼里都有哪些企业。我们以 启信宝 提供的企业经营地址,与写字楼地址进行了匹配,从而获得了写字楼中企业的规模和行业信息。



现在,我们可以展开回归分析了。以行业结构(某行业占该写字楼中所有企业的比例)为自变量,以工作时长、上班时间、下班时间为因变量,标准化处理后进行三次回归分析,模型的平均误差在5%左右,R2介于0.7-0.8。


根据回归系数的大小,我们对各行业的工作状况进行了推算:


(注:回归系数反映的是各行业对 工作时长/上下班时间 的贡献大小和方向。本图是根据系数大小的推算结果,不能等同于 工作时长/上下班时间 的排名。)


根据上图,从“事少”的角度,我们再次将行业分类:

1、早起早归型:批发零售业、信息技术服务业、交运仓储业

2、晚起晚归型:建筑业

3、起早贪黑型:商务服务业、住宿餐饮业、房地产业

4、正常型:金融业、制造业、文化体育娱乐业


至此,我们可以从“钱多事少离家近”三个角度给出十大行业的综合排名了:

1、金融:收入超高-离家近概率很大-工作状态普通;

2、信息科技服务业:收入较高-离家近概率一般-早起早归;

3、文化体育娱乐业:收入中等-离家近概率较大-工作状态普通;

4、商务服务业:收入中等-离家近概率较大-起早贪黑;

5、房地产业:收入中等-离家近概率较大-起早贪黑;

6、交运仓储业:收入中等-离家近概率一般-早起早归;

7、批发零售业:收入中等-离家近概率一般-早起早归;

8、制造业:收入中等-离家近概率较低-工作状态普通

9、住宿餐饮业:收入较低-离家近概率很大-起早贪黑。

10、建筑业:收入较低-离家近概率较低-晚起晚归。


看着这个榜单,我恍然大悟:“居然真的有钱多事少离家近的工作呀!……唉,学姐你去哪?”


“买两本CFA教程。”




彩蛋:一年之中,何时加班最疯狂?



学姐走后,我觉得这个小研究做得还不过瘾。不妨顺便用这组数据再看一看,大家都在什么时候加班多,什么时候休假多?


个人的加班或休假行为很难在用电数据层面体现。但群体的加班或休假将使得用电发生相应变化:

1、大量员工休假→在岗员工数量减少→工作用电量减少

2、大量员工加班→夜间用电比例增加→工作用电量增加


由此可以推知,工作用电量是衡量员工工作状态的重要指标。然而,工作用电只是建筑用电的一部分。因此,需要从建筑用电量中剥离出工作用电量,再判断其数值是否处于合理区间。


一般来说,办公建筑用电可以粗略分为三个部分:基础用电、空调用电和工作用电。


  • 基础用电。办公楼正常运转的基础消耗,如通风用电、电梯用电、走廊灯光用电等。

  • 假设每日基础耗电量是一个常数,以β表示。


  • 空调暖气用电。温度偏离适宜温度越远,空调需求量越大。

  • 空调暖气用电量与气温(t)有显著相关性,空调积温指数(T)是一种常见的测算方法,T=max(thigh-27,0)+max(10-tavg,0)。该部分用电量与空调积温指数呈线性相关,假设其形式为α1T。(参考文献:chenqin《上海用电量一年降了30多亿度,其实原因很简单》。)


  • 理想状态下的工作用电。假设一年中员工数量没有大规模变动,则工作日的正常工作时间内(8-18点)、正常工作强度下为一个常数,表示为α2。

  • 设定一个虚拟变量W,工作日W=1,节假日W=0,则每日的常规工作耗电量为α2W。


由此可以构建回归方程:

e = β + α1T + α2W + ε


上式中,e表示每日总用电量,β表示基础用电,α1T表示空调用电,α2W表示理想状态下的工作用电;ε表示回归模型的残差,也就是预测用电量与实际用电量的差值,(α2W+ ε)近似代表实际的工作用电量。


若实际用电量小于预测用电量(ε<0),很可能意味着在岗员工数量较少、大量员工处于休假状态;若实际用电量大于预测用电量(ε>0),则有着员工数量增加、工作时间延长、工作强度增大等多种可能,需要进一步验证。


接下来,我们采用线性回归,求出β、 α1、α2三个参数的值(模型的平均误差为9.5%,R2为84.4%)。将参数值代入到方程中,将可以分别模拟得到每日的各项用电量及总用电量,并从而得到预测用电量与实际用电量的残差ε。如下图所示:



上图中,黑色实线表示实际用电总量,深蓝色区域表示预测基础用电量、天蓝色区域表示预测空调用电量,浅蓝色区域表示理想工作用电量,绿色区域表示超额工作用电量(实际值高于预测值,ε>0),橙色区域表示不足工作用电量(实际值低于预测值,ε<0)。(注:图中橙色和绿色区域为选择性展示,实质为A与B的交集。A:实际用电量与预测用电量的差值大于平均误差水平的日期。B:使用随机森林模型进行每天每小时用电量预测,其中全天用电量偏低(橙)/或夜间用电量比例偏高(绿)的日期;该部分方法本文中不再展开。)


由图可知,用电超额的时段(绿色),也就是大家最可能在疯狂加班的时段,可以分为两类:

1、第一类零星分布在3月、5月、6月、9月的许多周末。

2、第二类集中分布在6月中下旬、8月到9月中旬。


而用电不足的时段(橙色),则可以分为三类:

1、第一类为春节前两周、春节后一周,此类用电不足主要是因为员工数量不足;这反映出春节前提前休假、春节后推后上班,是较为普遍的做法。

2、第二类用电不足时段分布在清明节-劳动节、以及国庆节后;这两个时段是一年中不需要开空调、气候最为适宜的时节,也是旅游度假的最好时机。

3、第三类则零散分布在某些工作日的周四、周五,原因嘛,大家都懂的……


钱多事少离家近的工作不好找,但是去美国学习零售经验的机会还是很容易的。伴随着不同时代人们消费习惯的变化和科学技术的发展,美国零售行业的业态也在不断演变。在我看来,新需求是驱动零售业态改变的根本,而科技是推动行业前进的重要工具。2016年底美国电商巨头亚马逊推出线下实体店AmazonGo,主打“JustWalkOut(拿了就走)”,顾客购物的全过程方便、快捷,不需要工作人员参与、不必排队结账,成为零售业态的一项重要创新。我认为,AmazonGo的设计理念就是“新零售”模式的一种体现。为了更加直观的了解美国的零售企业,这里有一个游学项目,可以帮到你对零售做一次更深层次的挖掘。


详情点击:游学美国九家顶尖企业,参加新零售朝圣之旅