作者 |
Will Koehrsen
翻译 | Lemon
出品 | Python数据之道 (ID:PyDataRoad)
如何正确的获得数据?
用一个案例来说明:数据科学中最重要的技能可能不是技术性的。
虽然数据科学的技术技能 - 比如使用梯度增强机器进行建模 - 获得大部分关注,但其他同样重要的通用解决问题的能力可能会被忽略。
熟练地提出正确的问题,坚持不懈,并利用多种资源对于数据科学项目的成功至关重要。但当人们询问成为数据科学家需要什么时,往往这些通用能力会居于编程能力之后。
最近,我想起了这些非技术技能在为良好项目开展数据科学工作时的重要性。 该项目目前在Kaggle上进行,涉及识别纽约市的学校,这些学校最有利于鼓励弱势学生参加专业高中入学考试(SHSAT)的项目。 此任务附带一个小数据集,包括2016年的测试结果,但组织者鼓励使用任何公开数据。
图2: 数据科学不仅仅是让人们点击广告
由于数据科学项目的成功与数据的质量和数量成正比,我开始寻找更新的测试结果。 毫不奇怪,在获取大量触手可及的资源的情况下,我最终获得了成功,并且在此过程中我学到了一些关于数据科学所需的“其他”熟练技能,我已在下面列出。
Step 1: 提出正确的问题 / 设定正确的目标
资源的广泛可用既是一种值得高兴的事情,也是一种令人烦恼的事情:有这么多的选择,有时很难找到一个起点(当人们想要学习数据科学时,这种现象经常出现)。 正确的问题或目标可以帮助您缩小选项范围。
如果我问“我可以使用纽约市的数据吗?”我会对这些可能性感到不知所措,就像那些“想要学习Python”的人面临着令人眼花缭乱的资源(更好的目标是“因为 XXX ,我想学习 Python “,因为它会限制选择)。
如果您没有在初始目标中取得成功,您可以随时投入到更广泛的范围或更改问题/目标。 此外,有时您可以使用与您的想法不同的数据集来回答您的初始问题,或者您可能会发现有一个更好的问题要问。 记住这一点,我用一个问题开始我的搜索:我能找到 SHSAT 的最新结果吗?
Step 2: 探索资源
在我的单一焦点问题中,最好的起点是纽约市开放数据门户。 与许多大城市一样,纽约市拥有大量的数据,可以在您的项目中免费下载和使用。 开放数据门户是探索问题和利用数据科学产生影响的好地方。
不幸的是,虽然纽约市的数据非常广泛,但没有一个涉及SHSAT。 所以我扩大了我的搜索范围 - 这意味着我进一步深入谷歌搜索结果列表 - 并且发现纽约时报的一篇文章正确地分析了我想要的数据(并且带有一些很棒的信息图表)!