原作者 Eduardo Ariño de la Rubia
编译 CDA 编译团队
本文为 CDA 数据分析师原创作品,转载需授权
前言
在 Quora 上有人提问,“在招聘初级数据科学家时你最看重什么?拥有数据科学的硕士学位或参加过科学训练营是否能加分?” 来自 Domino 数据实验室的首席数据科学家 Eduardo Arino de la Rubia 给出了他的回答。
事实上,在招聘时任何一个求职者都足以让我看他们的简历,但是可以肯定的是,他们都不足以促使我做出聘用的决定。我认为人们对于招聘经理在招聘初级数据科学家时看重什么存在一定的误解,与此同时文凭至上的风气对于想转行从事数据科学的人来说是很不利的。对我而言,在招募初级数据科学家时,我希望在他们身上发现这些特质:
1. 拥有自主学习的动力和决心;
2. 掌握“足够的”编程基本原理;
3. 当目标和指标不明确或有时间限制时,知道如何去分析数据。
一定程度的培训是必不可少的。除此之外,你还需要对数学和统计学有足够的知识储备,从而在出现问题时能及时发现;你还需要有一定数据管理实践,从而知道如何访问数据;并且还需要对机器学习有足够的认识,从而在一系列的模型开发和验证中做出恰当的权衡。看起来似乎很难,但是掌握了以上三种能力足以让你在其他候选者中脱颖而出。
1. 自主学习的动力和决心
在课堂上学习要比自己独立学习容易的多。课堂上,会聘请教授根据一定的教材、按照教学大纲制定课表进行教学,并对此进行评估。拥有出色的学术成绩,证明你在传统教学方面成绩出众,但是这还不够。
在招聘时,我希望看到在传统教学之外你所掌握的技能。如果你之前参加过的统计项目,我希望你有一些非统计学的尝试。如果你有些运筹学的教育背景,我希望你已经完成了一些利用 NLP 的项目。
我完全相信,在数据科学中,成功的关键之一是在于能够明确何时需要提高自己的能力。没有人会提醒你,例如在六个月之后需要掌握如何不使 GBM 过拟合,你必须通过自己的直觉和意念来理解。
我不看重你是否获得过有一流的奖学金,但是需要你明白,你接受的教育是任意选择的课程,课程之外你所掌握的技能才是真正重要的。
2. “足够”的编程基础
我很幸运能够多次成为 CS 实验室助理,教授编程的基础知识。同时我也通过教授 MOOC 课程,指导学生编程。我持有一个不太主流的观点:并非每个人都能聚集一定的时间、精力、兴趣、运气以及容忍度来学习编程。在这我并不是对智力和能力进行辩驳,我想说的只是,学习编程是一段艰辛的旅程。很遗憾的是很多人都在编程的旅程中半途而废了。
初级数据科学家正是处于这个特殊技能的危险区域。很少有学术课程或训练营在课程上将足够的时间、精力投入到编写代码中。虽然数据科学家不需要能够构建完美的系统,但是在最近一次学术会议上数据科学家小组一致认为,他们需要写出“大约 500 行相干代码”。这一重要的数量,远高于许多初级数据科学家的水平。
有时仅仅是一个优秀的 GitHub 项目就可以证明你掌握了“足够的”编程技能。一份包含许多阶段性项目的简历——一些示意图,一些完整项目,立即能让你的简历在其他初级数据科学家中脱颖而出。同时需要明确的是,并不要求所有的项目都要是有开创性,但是需要证明这名初级数据科学家有能力把想法付之于成品。
另一个则是在 GitHub 上的合作项目经验。如果初级数据科学家为开源项目提交 bug,这证明他们了解合作模式的价值。向开源项目维护人员提交问题,附上可重复的示例,并且运气好的情况下还能 pull request。这就说明作为一名初级数据科学家已经掌握足够的编程知识,并且能够运用于实践。
3. 当目标和指标不明确且时间受限时分析数据。
最后,一名出色的初级数据科学家需要能够独立完成分析,创建高质量工件并提出令人信服的见解。数据科学存在着模糊性。数据科学家常常需要处理复杂的数据源,伴随着模糊的目标和反馈环路这会导致错误的结论。
能够通过公开数据集并以非直观的方式来阐明一些之前模糊的见解,对于数据科学家来说是很可贵的。在招聘时,我希望发现那些具有好奇心、愿意利用数据集来花时间进行分析,清理数据,查找功能,训练模型, 并得出独到见解的人。
这当中例子就有数据科学家 David Robinson(尽管他水平远不止是初级数据科学家) 对特朗普用不同 Android 手机 和 iPhone 发上的推文进行分析。(详见文章:你以为川普的推特都是他自己写的?数据可不这么认为!)
作为一名初级数据科学家,能够有人指导你当然是做好不过了,但是你若能够独立完成这些数据分析无疑能够在应聘中为你加分。
结论
在招聘初级数据科学家时,我更希望看到:在传统教育之外你所具备的能力;当没有人指导下,你能够通过具备独到的洞察力独立编写代码。你的学历或接受过的培训都是我将考虑的因素,但都不是决定性的。
对我来说,是你简历之外的内容决定我是否要聘用你。
推荐阅读
听说你最擅长“拖”,你“拖”得过Excel吗?
数据科学优质课程推荐#2:统计入门课程篇
歌手外科和猴姑,大数据告诉你白百何出轨后谁最惨
想学习数据科学?我们整理了一份优质编程入门课程清单
数据科学家在美国仍然是最热门工作的3大原因
一个优秀数据分析师的准则
Python 实现一个火车票查询的工具
干货 | 携程实时用户行为系统实践
数据分析证明最靠谱的电影评分网站不是 IMDB, 也不是烂番茄,而是...
那些年,写 Python 犯过的错误
我用6.5万条公开数据分析了一下人民眼中的人民的名义
如何获得你的第一份数据科学领域的工作?
北京空气质量数据可视化
几个提高工作效率的Python内置小工具
Python 自然语言处理《釜山行》人物关系
函数 | 这8组Excel函数,帮您解决工作中80%的难题
国外公司是如何挖掘社交媒体数据的?
大数据舆情情感分析,如何提取情感并使用什么样的工具?(贴情感标签)
【干货】Pandas速查手册中文
四步搭建企业服务数据分析体系
【干货】找不到适合自己的编程书?我自己动手写了一个热门编程书搜索网站(附PDF书单)