专栏名称: AI数据派
THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。
目录
相关文章推荐
传媒招聘那些事儿  ·  腾讯:内容型产品-执行制作人 ·  2 天前  
中国国家地理  ·  这里才是江南水乡之夜! ·  昨天  
传媒招聘那些事儿  ·  《SPOTLiGHT聚光》多个全职岗位@你! ·  6 天前  
传媒招聘那些事儿  ·  小红书:新媒体传播专家 ·  3 天前  
传媒招聘那些事儿  ·  8k-30K/月!星球研究所2025超多全职 ... ·  5 天前  
51好读  ›  专栏  ›  AI数据派

独家 | 13大技能助你成为超级数据科学家!(附链接)

AI数据派  · 公众号  ·  · 2019-06-20 07:30

正文

翻译: 张睿毅

校对: 王威力

本文约 4000 字, 建议阅读 8 分钟。

本文为你介绍超级数据科学家的13大基本技能。


(链接: https://www.linkedin.com/feed/update/

urn:li:activity:6531492123240431616


好的数据科学家和超级数据科学家有什么区别?

发布在领英上的问题


令人惊讶的是,我得到了许多来自不同行业的顶级数据科学家的回应,他们都分享了他们的想法和建议,都很有意思且实用。


为了进一步了解优秀数据科学家和超级数据科学家之间的主要区别,我一直在互联网上搜索……直到我在 KDnuggets 上找到这篇文章 (链接: https://www.kdnuggets.com/2018/05/simplilearn-9-must-have-skills-data-scientist.html )。


所以我提炼了所有的信息,列出了成为一名超级数据科学家的技能。


实际上,数据科学家不可能具备以下所列的所有技能。但在我看来,正是这些技能使超级数据科学家超越优秀的数据科学家。


在这篇文章的最后,我希望您会发现这些技能对您作为一名数据科学家的职业生涯有帮助。


我们开始吧!


成为超级数据科学家的13大技能


1. 教育


数据科学家受过高等教育, 88% 至少拥有硕士学位 ,46% 拥有博士学位,尽管有一些例外,但通常需要很强的教育背景来培养成为数据科学家所必需的知识深度。要成为一名数据科学家,您可以获得计算机科学、社会科学、物理科学和统计学的学士学位。最常见的研究领域是数学和统计学( 32% ),其次是计算机科学( 19% )和工程学( 16% )。这些学位中的任何一个都将为您提供处理和分析大数据所需的技能。


在您的学位课程之后,您还没有完成。事实是,大多数数据科学家不仅拥有硕士学位或博士学位,他们还参加在线培训,学习如何使用 Hadoop 或大数据查询等技能。因此,您可以申请数据科学、数学、天体物理学或其他相关领域的硕士学位。您在学位课程中学到的技能将使您能够轻松过渡到数据科学。


除了课堂学习之外,您还可以通过构建应用程序、创建博客或进行数据探查来练习您在课堂上学到的东西,从而收获更多。


在我看来,只要您能完成这项工作,拥有硕士学位或博士学位是可以选择的。在大多数工业界,解决业务问题最重要,并不一定要进行研究和部署尖端和新颖的机器学习模型。


参考这本免费电子书资源:74 secrets to become a pro data scientist (链接: https://datascientist88.bl

ogspot.com/2019/05/74-secrets-to-become-pro-data-scientist.htm l


2. R语言编程


至少对分析工具中一个有深入的了解,对于数据科学 R 通常是首选。 R 是专门为数据科学需求而设计的。您可以使用R来解决您在数据科学中遇到的任何问题。事实上, 43% 的数据科学家使用 R 来解决统计问题。然而,R有一个陡峭的学习曲线。


特别是如果您已经掌握了编程语言,学习起来很困难。尽管如此,互联网上有很多资源可以让您开始学习 R ,比如 Simplearn 的数据科学培训和 R 编程语言。对于有抱负的数据科学家来说,这是一个很好的资源。


3. Python编程



Python 是最常见的数据科学角色所需要的编码语言,还有 Java、Perl C/C++ 。对于数据科学家来说, python 是一种很好的编程语言。这就是为什么 O'Reilly 调查的 40% 的受访者使用 Python 作为他们的主要编程语言的原因。


由于它的多功能性,您可以将 Python 用于几乎所有涉及到数据科学过程的步骤。它可以采用各种格式的数据,您可以轻松地将 SQL 表导入到代码中。它允许您创建数据集,您可以在谷歌上找到您需要的任何类型的数据集。


您可以通过以下书籍了解更多关于 Python 的基础知识以及它如何在数据科学中使用:


  • Python Data Science Handbook

    (链接: https://www.amazon.com/Python-Data-Science-Handbook-Essential-ebook/dp/B01N2JT3ST/ref=as_li_ss_tl?keywords=python+for+data

    +analysis&qid=1540663027&s=Books&sr=1-2&ref=sr_1_2&linkCode=ll1&tag=admond-20&linkId=0bb8a753123e4b54f1fa6dc463585e28

  • Python for Data Analysis

    (链接: https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython-ebook/dp/B075X4LT6K/ref=as_li_ss_tl?keywords=python+for+data+analysis&

    qid=1540663027&s=Books&sr=1-1&ref=sr_1_1&linkCode=ll1&tag=admond-20&linkId=838bdee3bf4ca017f2bc905cd3680f71

  • Learning Python

    (链接: https://www.amazon.com/Learning-Python-5th-Mark-Lutz/dp/

    1449355730/ ref=as_li_ss_tl?ie=UTF8&linkCode=ll1&tag=admond-20&linkId=4497aa20eee542a8c0d91e0467082b61


4. Hadoop 平台


虽然这并不是一项必备技能,但在许多情况下,它是首选的。有 Hive Pig 的经验也是一个不错的技能点。熟悉诸如 AmazonS3 之类的云工具也是有益的。一项由 Crowdflower 开展的调查发现, LinkedIn 3490 个数据科学工作岗位中 49% 的岗位将 Apache Hadoop 列为第二大重要技能。


作为一名数据科学家,您可能会遇到这样一种情况:您所拥有的数据量超过了系统的内存,或者您需要将数据发送到不同的服务器,这就是 Hadoop 的由来。您可以使用 Hadoop 快速地将数据传输到系统上的各个点。还不止这些。您可以使用 Hadoop 进行数据探索、数据过滤、数据采样和汇总。


5. SQL数据库/编码


尽管 NoSQL Hadoop 已经成为数据科学的一个重要组成部分,但是仍然要求一个数据科学家能够编写和执行复杂的查询。 SQL (结构化查询语言)是一种在数据库中进行增删改查的编程语言。它还可以帮助您执行分析功能和转换数据库结构。


作为数据科学家,您需要精通 SQL 。这是因为 SQL 是专门为帮助您访问、沟通和处理数据而设计的。当您使用它来查询数据库时,它会给您一些启发。它有简明的命令,可以帮助您节省时间,减少执行困难查询所需的编程量。学习 SQL 将帮助您更好地理解关系数据库,并提高您作为数据科学家的形象。


6. Apache Spark


Apache Spark 正在成为全球最流行的大数据技术。它和 Hadoop 一样是一个大数据计算框架。唯一的区别是 Spark Hadoop 快。这是因为 Hadoop 读取和写入磁盘,这会使磁盘速度变慢,但 Spark 会将其计算缓存在内存中。


Apache Spark 专门为数据科学设计,以帮助更快地运行其复杂的算法。它有助于在处理大量数据时传播数据处理,从而节省时间。它还帮助数据科学家处理复杂的非结构化数据集。您可以在一台机器或一组机器上使用它。


Apache Spark 使数据科学家能够防止数据科学中的数据丢失。 Apache Spark 的强大之处在于它的速度和平台,使其易于执行数据科学项目。使用 Apache Sark ,您可以执行从数据接收到分布式计算的分析。


7. 机器学习与人工智能


有许多数据科学家并不精通机器学习领域和技术。这个领域包括神经网络、强化学习、对抗性学习等。如果您想从其他数据科学家中脱颖而出,您需要了解机器学习技术,如有监督机器学习、决策树、逻辑回归等。这些技能将帮助您解决基于基于预测的不同数据科学问题。


数据科学需要在机器学习的不同领域应用以上技能。 Kaggle 的一项调查发现,有一小部分数据专业人员能够胜任高级机器学习技能,如监督机器学习、无监督机器学习、时间序列、自然语言处理、异常值检测、计算机视觉、推荐引擎、生存分析、强化学习以及对抗性学习。


数据科学涉及处理大量数据集操作。所以您可能需要先熟悉机器学习 (链接: http://bit.ly/2N4i6za

8. 数据可视化


商业世界通常产生大量的数据。这些数据需要转换成易于理解的格式。自然地,人们更易理解图表和图表形式的图片,而不是原始数据。有句成语说:“一幅画胜过千言万语”。


作为一名数据科学家,您必须能够借助数据可视化工具(如 ggplot d3.js matplotlib tableau )实现数据可视化。这些工具将帮助您将项目中的复杂结果转换为易于理解的格式。问题是,很多人不理解序列相关或 p 值。您需要直观地向他们展示这些术语在您的结果中代表了什么。


数据可视化为企业提供了直接使用数据的机会。他们能够迅速掌握有助于他们抓住新的商业机会并保持领先地位的洞察力。


特别是,我写了一篇文章 (链接: https://towardsdatascience.com/storytelling-with-data-a-data-visualization-guide-for-business-professionals-97d50512b407 来讨论数据可视化的重要性以及如何用数据创建更好的故事。

9. 非结构化数据


数据科学家处理非结构化数据的能力是至关重要的。非结构化数据无法在数据库表中定义的内容。包括视频、博客、客户评论、社交媒体帖子、视频提要、音频等,它们是大量的文本集中在一起。对这些类型的数据进行排序是困难的,因为它们不是流线型的。


由于非结构化数据分析的复杂性,大多数人将其称为“暗箱分析”。使用非结构化数据可以帮助您洞察对决策有用的见解。作为一名数据科学家,您必须能够理解和操作来自不同平台的非结构化数据。


10. 好奇性思维


“我没有特殊的才华,只有极强的好奇心。”

— Albert Einstein


毫无疑问,您最近到处都看到这个短语,尤其是与数据科学家有关。 FrankLo 描述了它的含义,并在几个月前发布的特邀专栏中谈到了其他必要的“软技能”。


好奇心可以定义为获得更多知识的渴望。作为一个数据科学家,您需要能够提出关于数据的问题,因为数据科学家花费80%的时间来发现和准备数据。这是因为数据科学领域是一个发展非常迅速的领域,您必须学习更多的东西来跟上这个步伐。


您需要定期通过在线阅读内容和阅读有关数据科学趋势的相关书籍来更新您的知识。不要被网络上大量的数据所淹没,您必须知道如何理解这些数据。好奇心是您成功成为数据科学家所需要的技能之一。例如,最初,您可能在收集的数据中看不到太多洞察。好奇心会让您通过筛选数据来找到答案和更多的见解。

11. 商业敏锐度


要成为一名数据科学家,您需要对您所从事的行业有一个扎实的了解,并知道您的公司正试图解决什么样的商业问题。在数据科学方面,除了确定业务应利用其数据的新方法外,能够识别哪些问题对于业务来说是重要的,这一点至关重要。


要做到这一点,您必须了解您解决的问题如何影响业务。这就是为什么您需要知道企业是如何运作的 (参考: https://towardsdatascience.com/5-lessons-i-have-learned-from-data-science-in-real-working-experience-3532c1b41fd7 ,这样您才能把向正确的方向努力。

12 . 沟通技能


寻找优秀数据科学家的企业需要可以将技术清楚地流畅地转化到非技术团队(比如市场营销或销售部门)中的成员。


数据科学家必须使企业能够通过为他们提供量化的结果来做出决策,并且必须了解他们的非技术同事的需求,以便应对由于数据产生的争议。


除了使用公司范围内的相通语言,您还需要使用数据讲故事来进行交流。作为一个数据科学家,您必须知道如何围绕数据创建一个故事线,以便于任何人理解。例如,呈现数据表不如以陈述故事的形式共享这些基于数据的洞察那么有效。使用讲故事将有助于您正确地向您的雇主传达您的成果。


在沟通时,请注意在数据分析中表述其结果和商业价值。大多数老板不想知道您分析了什么,他们感感兴趣的是数据分析结果将如何对业务产生积极作用。学会专注于通过沟通传递价值和建立持久的关系。

(参考: https://towardsdatascience.com/5-lessons-i-have-learned-from-data-science-in-real-working-experience-3532c1b41fd7

13. 团队合作


数据科学家不能独自工作。您必须与公司高管合作制定战略,与产品经理和设计师合作创造更好的产品,与营销人员合作开展更好的转化活动,与客户和服务器软件开发人员合作创建数据管道和改进工作流。实际上,您必须与组织中的每个人,包括您的客户一起工作。


本质上,您将与您的团队成员合作开发用例,以了解解决问题所需的业务目标和数据。您将需要知道解决用例的正确方法,解决问题所需的数据,以及如何将结果翻译并呈现到每个相关人员都能容易理解的地方。


最后几点思考


感谢您的阅读。


如果您被所需的技能所震撼到,那就太好了(因为我也是!)。


在一天结束的时候,这些技能不一定要成为一个数据科学家,但它们肯定会使您不同于其他典型的数据科学家。


我知道您独一无二。


和以前一样,如果您有任何问题或意见,请随时在下面留下您的反馈,或者随时可以在 LinkedIn 上联系我。下一个帖子见!


原文链接:

https://towardsdatascience.com/top-13-skills-to-become-a-rockstar-data-scientist-faf2f97e655d

编辑:于腾凯

译者简介


张睿毅 北京邮电大学大二物联网在读。我是一个爱自由的人。在邮电大学读第一年书我就四处跑去蹭课,折腾整一年惊觉,与其在当下焦虑,不如在前辈中沉淀。于是在大二以来,坚持读书,不敢稍歇。 资本主义国家的科学观不断刷新我的认知框架,同时因为出国考试很早出分,也更早地感受到自己才是那个一直被束缚着的人。太多真英雄在社会上各自闪耀着光芒。这才开始,立志终身向遇到的每一个人学习。做一个纯粹的计算机科学里面的小学生。

翻译组招募信息







请到「今天看啥」查看全文