用Python开启你的数据科学事业大门

36大数据 · 公众号 · 大数据 · 2017-08-10 07:50

正文

如果你对精彩的数据科学世界感兴趣，但不知道如何开始，那就让数据学校来帮助你吧。如果你对精彩的数据科学世界感兴趣，但不知道如何开始，那就从这篇文章开始吧。

步骤0：找出你需要学习的内容；

步骤1：熟悉Python；

步骤2：学习用pandas库进行数据分析、数据处理和可视化；

步骤3：用scikit-learn进行机器学习；

步骤4：深度理解机器学习；

步骤5：保持学习和练习；

福利：免费加入数据学校

本文由36大数据（dashuju36）独家翻译，译者潇潇。未经许可，禁止转载。

由于原文中有大量的超级链接，而微信公众号不予支持，我们强烈建议你点击右下角 “阅读原文” 去查看细节内容。

步骤 0 ：找出你需要学习的内容

数据科学是一个势不可挡的领域。 很多人会告诉你，你要掌握以下内容才能成为一名数据科学家 ：统计、线性代数、微积分、编程、数据库、分布式计算、机器学习、可视化、实验设计、聚类、深度学习、自然语言处理等等。 这根本不是事实 。

那么，究竟什么是数据科学呢 ？它是一个先提出有趣问题，然后用数据回答这些问题的过程。一般来说，数据科学工作流程如下所示：

提出一个问题
收集有助于解决这个问题的数据
清理数据
探索、分析，并可视化数据
构建机器学习模型，并评价该模型
说明结果

这个流程不一定需要高级数学、精通深度学习，或上面列出的许多其他技能。但它确实要求 编程语言知识 和 运用编程语言处理数据的能力 。此外，虽然真正擅长数据科学需要精通数学，但你只需 对数学有基本了解 就可以开始了。

诚然，上面列出的其他专业技能可能在某一天帮你解决数据科学问题，然而，你 不需要 掌握所有这些技能才开始你的数据科学生涯。 你今天就可以开始 了，有我在这里帮你！

步骤 1 ：熟悉 Python

对数据科学，Python和R都是不错的编程语言选择。R在学术界往往更受欢迎，而Python更受行业欢迎，两种语言都有丰富的包支持数据科学工作流。我用两种语言教过数据科学，通常更喜欢Python。

作为初学者，你不需要同时学习Python和R。相反，你应该集中精力学习一种语言及其用于 数据科学的包体系 。如果你选择了Python（个人建议Python），建议安装 Anaconda ，它简化了Windows、OSX和Linux上各种包的安装和管理。

你也不需要在成为一个Python专家后才开始步骤2。你该重点掌握以下内容：类型、数据结构、导入、函数、条件语句、比较、循环和推导式。至于其他的一切内容可以等到以后再说！

如果你不确定你是否已经“足够”了解Python，可以浏览我的 Python速查手册。如果你对大部分内容都已经熟悉，那么你可以开始步骤2了！

如果你希望能有帮助你学习Python的课程，下面是我推荐的一些内容：

通过10个应用快速开始Python 是由Michael Kennedy（“与我聊Python”的播客主持人）讲授的一个很好的视频课程。
DataCamp 和 Dataquest 都提供简短的Python入门互动课程。
Python入门 是一门更充实的入门课程，它像一个交互式的教科书。
谷歌的Python课堂 是对有编程经验的人最好教程，包括讲座视频和可下载的练习。

步骤2：学习用pandas库进行数据分析、数据处理和可视化

如果你要用Python处理数据，你应该学习如何使用 pandas库。

pandas提供了一个高性能的数据结构（叫做 “DataFrame”），适用于有不同类型列的表格数据，类似于Excel表格或SQL表。它包含读写数据、处理缺失数据、过滤数据、清理混乱数据、合并数据集、可视化数据等工具。简而言之， 学习pandas将大大提高你处理数据的工作效率 。

然而，pandas包含了大量的函数，（可以说）提供了太多的方式来完成相同的任务。这使得学习pandas、寻找pandas的最佳实践具有挑战性。

这就是为什么我创建了一个pandas系列视频（30个视频，6小时）从头讲解pandas库。每个视频通过一个真实的发布在网上的数据集回答一个问题，这样你就可以在家跟着学。（同时我也创建了包含所有视频代码的 Jupyter notebook 。）

如果你更喜欢学习pandas的非视频类资源，这里是我推荐的内容。

步骤3：用scikit-learn进行机器学习

如果你希望用Python进行机器学习，应该学习使用 scikit-learn库。

构建“机器学习模型”来预测未来或者自动从数据中提取信息，是数据科学最性感的部分。scikit-learn是Python中最受欢迎的机器学习库，有以下优点：

它对大量不同模型提供了一个干净且一致的接口。
它为每一个模式提供了许多调节参数，但同时设置了合理的默认值。
它的文档超出寻常的好，它不仅帮助你理解模型，还提供正确的使用方法。

然而，机器学习仍然是一个高度复杂且快速发展的领域，scikit-learn库的学习曲线非常陡峭。这就是为什么我创建了一个 scikit-learn系列视频（9个视频，4小时），帮助你彻底掌握 机器学习原理 和 scikit-learn工作流 。这个系列没有假定你熟悉机器学习或高等数学。(你可以在 GitHub 上找到所有的代码)。

如果你更想要scikit-learn的非视频类资源，我推荐用Python机器学习（ Amazon / GitHub ）或者用Python机器学习导论（ Amazon / GitHub ）。