作者: louwill 公众号:数据科学家养成记(louwill12)
在这个数据和信息爆炸的时代,依靠一手漂亮的数据分析能力找到一份令人艳羡的数据科学相关的工作早已不是什么稀罕事。坊间早有传言说数据科学家是21世纪最性感的职业,与数据相关的岗位像数据分析、数据挖掘等工作已是众多年轻人追求的目标。这么多人将找工作的目光聚集在数据相关岗位上,这些岗位机会除了能使得你走在时代和技术发展的最前沿,更重要的是会给你提供远高于平均水平的高额薪资。
那么,数据科学相关工作的平均薪资水平由哪些因素决定的呢?在这个行业企业是更看重你的学历还是经验?在国内从事数据科学相关工作我们应该去哪些城市呢?学历较高但刚刚毕业的小张和学历不高但已是八年数据职场老手的老王,平均薪资会相差多少?本案例收集了国内主要城市数据科学相关工作岗位的招聘数据,尝试建立回归模型探究影响平均薪资的主要因素,并对具备不同职业特征的人群进行薪资预测。
本案例所使用的数据来自某招聘网站发布的数据岗位招聘信息,总共包含1604条记录。为平均薪资水平为案例所要研究的因变量,岗位相关信息和公司相关信息等作为自变量。其中因变量为连续值,取值范围为3-60千元,自变量按照变量类型分为4类12个变量,均为多分类变量。
描述性分析
针对平均薪资水平与岗位所在城市、岗位类型、学历要求、经验要求、公司所属行业和发展阶段作分组箱线图的描述性统计。
根据上述的分组描述箱线图统计,本案例认为影响数据科学平均薪资水平的可能因素包括岗位类别、所在城市、学历要求、经验要求、公司所属行业和发展阶段等6个因素。
回归分析
本例中因变量为连续值,采用线性回归即可建立预测模型。根据放入模型的不同变量得到的回归系数显著与否,本例最终回归模型包括岗位类别、所在城市、学历要求和经验要求等4个自变量。回归结果如下表所示。
可以看到,在控制其他因素不变的情况下:
-
对于职位类型这一变量,以数据运营为基准组,数据挖掘岗位平均薪资要比数据运营岗位高3610元。
-
对于所在城市这一变量,以北京为基准组,杭州的平均薪资要比北京低3595.5元。
-
对于学历这一变量,以本科为基准组,硕士的平均薪资要比本科高1218.4元。
-
对于经验这一变量,以1年以下经验为基准组,经验1-3年的平均薪资要比1年以下高4736元。
模型预测
在本案例中,回归模型以及预测效果一般。模型中现有的影响因素只能解释平均薪资50.4%的方差。这可能是模型缺少一些重要的自变量导致的,比如说在职位描述和要求中有着一些像岗位所需掌握的软件与编程技能这样的变量并未放入模型中,这也与大量的文本挖掘较为困难有关。
线上学习课程推荐:
(博主推荐,充分利用碎片时间学习,以下课程
手机APP随时学习,
不限次数)
课程名称:
《
让你的表格会说话 -表格可视化大全
》
讲师:
刘万祥ExcelPro(Excel图表界的大神)
课程简介:
介绍了一套易于上手、效果专业的做法,即把常见的数据表格可视化为 Dashboard
仪表板
报告
,即使领导想法多变,也可以方便快速地调整图表。
本课程介绍了超过
30种表格可视化的方法
,其中很多为独家原创
首次披露
。综合运用这些可视化方法,让你的表格
迅速变为
图文并茂高大上的 Dashboard
仪表板
报告。
报名方式:
长按并识别以下的二维码,可直达课程页面,注册或登陆加入学习即可。
近期优质文章推荐:
培训:突破销售领导力 | 打造超强战斗力的完备销售团队
数据告诉你,网络游戏IP是如何炼成的?
伦敦开了个可以用个人数据购买商品的店铺,这个脑洞有点大
数据告诉你,是谁准备买iPhone?
动态仪表板,Excel也能玩