简历上写了一堆成功的项目,在面试官那儿真的管用吗?过来人表示:未必。近日,Towards Data Science 项目主管和 Recurly 数据科学家 Haebichan Jung 发文介绍了他的经历。他表示,项目做得多、做得好可能在简历筛选阶段比较有用,但面试官可能根本不关心你的项目,而是通过「智力测验」决定你的去留。
选自towardsdatascience,
作者:Haebichan Jung,参与:Panda W、张倩。
这里所说的「项目」是指某种放在 Jupyter Notebook 上的最新机器学习或深度学习算法,而且会被上传到 GitHub。你可能希望借此得到面试官的好评。
项目心态:(名词)心里想着做的机器学习项目越多,简历里的项目越丰富,获得高薪数据科学职位的可能就越大;但实际上,这不会让很多人觉得你很厉害。
PS:请记住,我只申请了加州旧金山的数据科学家岗位。因此我的意见可能与你的地理位置或所申请的岗位并不相符。而且这也只是我一个人的意见(实际上是两个人,后面会说到)。但这个故事里面有些东西是普适的,因为我看到世界上很多人都被「项目」所带来的(错误的)吸引力和潜力所折服。
我花了整整两周时间来阅读有关这一主题的学术论文,现在回过头看,我大概懂了其中 30%。但在那 30% 中,有些东西真的让人很困扰。我觉得某些研究 AI 生成曲调的研究者并没有对音乐的基础知识有深度的了解。你可以看出来这一点,因为他们使用了非常复杂的神经网络架构来创造新声音,但这些架构并不能反映真正的音乐家作曲的方式。
Pop Music Maker 以音乐数据为输入,分解出其中的音符,然后寻找这些音符之间的统计学关系,最后基于这些统计情况重新创建一首全新的流行音乐曲。
随着我的项目越来越为人所知,每天都有数百人通过我建的一个 flask 网站使用我的算法。这导致我的网站不断崩溃,因为我部署代码所用的 AWS EC2 实例太小了,不足以处理这么大的流量。网上有些人开始指责我是骗子,因为他们想试试我的算法,却发现网站根本打不开。
不久之后,这些批评很快就在许多社交媒体上发展成了火力全开的争论。某些拥有博士学位的研究者愤怒地指出我使用的基于贝叶斯的方法完全就是错的。另一些人则为我辩解,为我的工作做辩护(包括 Ben Lorica)。简单来说,我在互联网的某些地方重新点燃了「贝叶斯派 vs 频率统计学派」的圣战。
更重要的是,招聘委员会的成员并不会在这些项目上对我进行测试。因为招聘流程不是看你做过了多少项目。但我看到很多数据科学工作的应聘者却会这么想。
「在大多数数据科学家身上,我见过的最大缺点是将机器学习模型与商业效果联系起来。所以,很多非常非常聪明的人会打造出这种非常复杂的五层神经网络。它能做出很好的预测,分数也非常高。但当我们深究这个特定模型的商业效果时,他们通常又难以作答。」
之前,在我看来,这样的说法非常具有压迫性,而且很空洞。但是,在长时间思考了科技界所用的「智力」一词之后,我开始理解其实际的含义了。了解了它的含义之后,我发现这根本就与「生理」无关——也就是说任何人都可以通过充分的准备来提升。更重要的是,我发现了顺利通过数据科学面试的秘诀。
-
分析思维
-
变量提取
-
边缘案例检测
-
流程优化
衡量这部分智力的方式要么是通过实际的编码难题,要么是通过理论上的业务/产品问题。面试官会向你展示一个乍看之下感觉很开放的问题。这是故意的,因为这个问题的答案并不是测试的目的。所以你的解决方案是否真的有效其实无关紧要。这个问题的重点是评估你协调多步计划来解决复杂问题的能力。
对于想要提升这项技能的应聘者而言,可以去解决尽可能多的 Leetcode 问题。也要读读数据科学产品的问题。下面是一个产品问题示例:
一家外卖公司正在发布一款有新 UI 的新应用。其目标是通过增加外卖员的里程数来提升他们的收入。请给出一种测试策略,以便了解这款新应用是否比旧应用更好。
变量提取
这类思想实验通常是由不太了解数据科学的产品/非数据人员提出,他们想要借此了解你的「智力」。这里的智力是指你是否有能力构想出解决这个问题的变量(能不能想到面试官自己所想到的那些)。
1. 时间(高峰时间是否影响电梯的快慢?)
2. 位置(也许某些楼层使用电梯的人比其它楼层多?)
3. 技术(也许电梯存在一个技术问题,这在人的内在感知之外。)
4. 用户统计(建筑物中有什么人?访客会使用一个电梯而工作者则使用另一个电梯吗?)
你可以通过研究尽可能多的不同数据来提升在这方面的智力,像是时序数据、地理位置数据等等。只要能拓展你对不同知识领域数据的了解,都值得一试。