专栏名称: 36大数据
关注大数据和互联网趋势,最大,最权威,最干货的大数据微信号(dashuju36)。大数据第一科技媒体。不发软文,只做知识分享。
目录
相关文章推荐
数据派THU  ·  基于LLM Graph ... ·  昨天  
大数据文摘  ·  具身大模型,国内最大融资诞生 ·  6 天前  
软件定义世界(SDX)  ·  信创觉醒!央国企信创数字化转型是国家信息安全 ... ·  1 周前  
51好读  ›  专栏  ›  36大数据

用Python开启你的数据科学事业大门

36大数据  · 公众号  · 大数据  · 2017-08-10 07:50

正文

如果你对精彩的数据科学世界感兴趣,但不知道如何开始,那就让数据学校来帮助你吧。如果你对精彩的数据科学世界感兴趣,但不知道如何开始,那就从这篇文章开始吧。


步骤0:找出你需要学习的内容;


步骤1:熟悉Python;


步骤2:学习用pandas库进行数据分析、数据处理和可视化;


步骤3:用scikit-learn进行机器学习;


步骤4:深度理解机器学习;


步骤5:保持学习和练习;


福利:免费加入数据学校


本文由36大数据(dashuju36)独家翻译,译者潇潇。未经许可,禁止转载。


由于原文中有大量的超级链接,而微信公众号不予支持,我们强烈建议你点击右下角“阅读原文”去查看细节内容。


步骤0:找出你需要学习的内容


数据科学是一个势不可挡的领域。很多人会告诉你,你要掌握以下内容才能成为一名数据科学家:统计、线性代数、微积分、编程、数据库、分布式计算、机器学习、可视化、实验设计、聚类、深度学习、自然语言处理等等。这根本不是事实


那么,究竟什么是数据科学呢?它是一个先提出有趣问题,然后用数据回答这些问题的过程。一般来说,数据科学工作流程如下所示:


  • 提出一个问题

  • 收集有助于解决这个问题的数据

  • 清理数据

  • 探索、分析,并可视化数据

  • 构建机器学习模型,并评价该模型

  • 说明结果


这个流程不一定需要高级数学、精通深度学习,或上面列出的许多其他技能。但它确实要求编程语言知识运用编程语言处理数据的能力。此外,虽然真正擅长数据科学需要精通数学,但你只需对数学有基本了解就可以开始了。


诚然,上面列出的其他专业技能可能在某一天帮你解决数据科学问题,然而,你不需要掌握所有这些技能才开始你的数据科学生涯。你今天就可以开始了,有我在这里帮你!


步骤1:熟悉Python


对数据科学,Python和R都是不错的编程语言选择。R在学术界往往更受欢迎,而Python更受行业欢迎,两种语言都有丰富的包支持数据科学工作流。我用两种语言教过数据科学,通常更喜欢Python。


作为初学者,你不需要同时学习Python和R。相反,你应该集中精力学习一种语言及其用于数据科学的包体系。如果你选择了Python(个人建议Python),建议安装Anaconda,它简化了Windows、OSX和Linux上各种包的安装和管理。


你也不需要在成为一个Python专家后才开始步骤2。你该重点掌握以下内容:类型、数据结构、导入、函数、条件语句、比较、循环和推导式。至于其他的一切内容可以等到以后再说!


如果你不确定你是否已经“足够”了解Python,可以浏览我的Python速查手册。如果你对大部分内容都已经熟悉,那么你可以开始步骤2了!


如果你希望能有帮助你学习Python的课程,下面是我推荐的一些内容:


  • 通过10个应用快速开始Python是由Michael Kennedy(“与我聊Python”的播客主持人)讲授的一个很好的视频课程。


  • DataCampDataquest都提供简短的Python入门互动课程。


  • Python入门是一门更充实的入门课程,它像一个交互式的教科书。


  • 谷歌的Python课堂是对有编程经验的人最好教程,包括讲座视频和可下载的练习。


步骤2:学习用pandas库进行数据分析、数据处理和可视化


如果你要用Python处理数据,你应该学习如何使用pandas库


pandas提供了一个高性能的数据结构(叫做 “DataFrame”),适用于有不同类型列的表格数据,类似于Excel表格或SQL表。它包含读写数据、处理缺失数据、过滤数据、清理混乱数据、合并数据集、可视化数据等工具。简而言之,学习pandas将大大提高你处理数据的工作效率


然而,pandas包含了大量的函数,(可以说)提供了太多的方式来完成相同的任务。这使得学习pandas、寻找pandas的最佳实践具有挑战性。


这就是为什么我创建了一个pandas系列视频(30个视频,6小时)从头讲解pandas库。每个视频通过一个真实的发布在网上的数据集回答一个问题,这样你就可以在家跟着学。(同时我也创建了包含所有视频代码的Jupyter notebook。)


如果你更喜欢学习pandas的非视频类资源,这里是我推荐的内容


步骤3:用scikit-learn进行机器学习


如果你希望用Python进行机器学习,应该学习使用scikit-learn库


构建“机器学习模型”来预测未来或者自动从数据中提取信息,是数据科学最性感的部分。scikit-learn是Python中最受欢迎的机器学习库,有以下优点:


  • 它对大量不同模型提供了一个干净且一致的接口。  

     

  • 它为每一个模式提供了许多调节参数,但同时设置了合理的默认值。

      

  • 它的文档超出寻常的好,它不仅帮助你理解模型,还提供正确的使用方法。


然而,机器学习仍然是一个高度复杂且快速发展的领域,scikit-learn库的学习曲线非常陡峭。这就是为什么我创建了一个scikit-learn系列视频 (9个视频,4小时),帮助你彻底掌握机器学习原理scikit-learn工作流。这个系列没有假定你熟悉机器学习或高等数学。(你可以在GitHub上找到所有的代码)。


如果你更想要scikit-learn的非视频类资源,我推荐用Python机器学习(Amazon/GitHub)或者用Python机器学习导论(Amazon/GitHub)。


步骤4:深度理解机器学习


机器学习是一个很复杂的领域。虽然scikit-learn提供了机器学习的有效工具,但它无法直接回答许多重要问题:


  • 怎么知道哪个机器学习模型最适合我的数据集?

  • 如何解释模型的结果?

  • 如何评价我的模型对未来数据的概括?

  • 如何给模型选择特征?

  • 等等。


如果你想熟练掌握机器学习,你需要能够回答这些要求经验和进一步研究的问题。这里有一些资源可以帮助你在这条路上走下去:


  • 我最重要的建议是阅读An Introduction to Statistical LearningPDF /亚马逊)。它将帮助你同时从理论和实践上理解回归和分类的许多重要方法,并且不需要高等数学基础。作者还制作了15个小时的高质量视频来作为这本书的补充。


  • 如果你需要复习概率论和数理统计,我建议阅读OpenIntro Statistics(PDF /亚马逊)。


  • 我制作了一些课程帮助你学习线性回归逻辑回归——两个最受欢迎的机器学习模型。


  • 虽然深入理解各种模型是不可取代的,我制作了一个监督学习模型的对比图,可以作为一个有用的参考指南。


  • 我制作了几个指南,帮助你评估模型的质量:混淆矩阵术语的简单指南理解ROC曲线和AUC评估步骤和标准的对比


步骤5:保持学习和练习


我对提高数据科学技能的最好建议是:找到可以激励你实践已经学到的东西、学习更多、然后实践的事情。可以是个人数据科学项目、Kaggle竞赛、在线课程、阅读书籍、阅读博客、参加聚会或会议,或者其他任何事情!


  • Kaggle竞赛是一个很好实践数据科学的方式,不需要提出自己的问题。不要担心你的名次,只需关注在每一个竞赛中学习新东西。(记住,这个过程中你不会练习数据科学工作流中一些重要部分:提出问题、收集数据和说明结果。)


  • 如果是创建自己的数据科学项目,你应该在GitHub或博客上分享。这将有助于告诉其他人,你知道怎么做可重复性数据科学


  • 虽然有大量的数据科学博客,但DataTau可帮助你找到最新和最好的内容。建议关注36大数据Python专区,查看更多教程。




  • 如果你喜欢电子邮件,我最喜欢的是Data ElixirData Science Weekly Python Weekly


  • 如果你想体验真正的Python社区,我强烈推荐参加PyCon US。(也会在各地举办小型的PyCon会议。)作为一个数据科学家,你还应该考虑参加SciPy 和最近的PyData 会议。


你的数据科学旅程才刚刚开始!数据科学领域有如此多东西需要学习,需要花费一生的时间来精通。记住:你不需要掌握所有的知识才开始你的数据科学职业生涯,你只需要现在就开始


原文地址:How to launch your data science career (with Python)


 End 


阅读排行榜/精华推荐
1
入门学习

如果有人质疑大数据?不妨把这两个视频转给他 

视频:大数据到底是什么 都说干大数据挣钱 1分钟告诉你都在干什么

人人都需要知道 关于大数据最常见的10个问题

2
进阶修炼

从底层到应用,那些数据人的必备技能

如何高效地学好 R?

一个程序员怎样才算精通Python?

3
数据源爬取/收集

排名前50的开源Web爬虫用于数据挖掘

33款可用来抓数据的开源爬虫软件工具

在中国我们如何收集数据?全球数据收集大教程

4
干货教程

PPT:数据可视化,到底该用什么软件来展示数据?

干货|电信运营商数据价值跨行业运营的现状与思考

大数据分析的集中化之路 建设银行大数据应用实践PPT

【实战PPT】看工商银行如何利用大数据洞察客户心声?              

六步,让你用Excel做出强大漂亮的数据地图

 数据商业的崛起 解密中国大数据第一股——国双

双11剁手幕后的阿里“黑科技” OceanBase/金融云架构/ODPS/dataV

金融行业大数据用户画像实践

讲述大数据在金融、电信、工业、商业、电子商务、网络游戏、移动互联网等多个领域的应用,以中立、客观、专业、可信赖的态度,多层次、多维度地影响着最广泛的大数据人群

36大数据

长按识别二维码,关注36大数据

搜索「36大数据」或输入36dsj.com查看更多内容。

投稿/商务/合作:[email protected]

点击下方“阅读原文”查看更多

↓↓↓