我 相 信 这 么 优秀 的 你
已 经 置 顶 了 我
翻译|欧阳洵 选文|小象
转载请联系后台
数据科学家,企业家,ParallelDots的创始人。
ParallelDots是一家帮助企业利用他们无组织的数据提供解决方案。他们最新的产品KarnaAI 利用人工智能,提取成千上万的新闻和社交媒体信息自动产生分析报告。他们也即将发布一些基于人工智能的产品。
对于数据科学家并没有一个明确的定义,在这里我会从几个侧面出发,来给大家讲述不同的公司不同的数据科学家们都在做什么。确实有太多的数据科学家在从事着各种各样的工作,我现在简单的将他们划分为几类。
我最近在Quora(译者注:美国版知乎)上收到别人的一个提问,问题是这样的,到底公司招聘的数据科学家,都需要一些什么样的技能?有没有对数据科学家有一个明确的定义?显然,对于数据科学家,并没有一个准确的定义可以囊括所有数据科学家所做的事情,因为不同的数据科学家在不同的公司帮助解决不同的问题。那么,我将尝试给大家从几个方面进行概括性的阐述来帮助大家理解不同公司的数据科学家的职位描述。确实可以说得更泛一些,但是我想把他们简单的划分出来几类,那么,我们来看看都有哪些类型:
1. R语言专家:必须能够快速的使用R语言或者Python对所有的数据进行快速分类,统计。这一类数据科学家,是从善于编程的数据分析师发展而来。他们大都能够使用工具来自从生成用户所需要的分析报告。
工具:R,SQL
2. 建模人员:对数学有着非常深刻的理解,深刻理解贝叶斯推理、频率论或者分级结构模型。可能我将太多人归为此类,人们分析药品实验结果,科学家基于复杂的现象进行建模,股票的自回归模型都被划分进了此类。这类人的最大共同点就是,数学,是一切的基础。
工具:R,Fortran,C++,有时候还有一些面向功能的编程语言。
3. 有的时候,数据工程师也是数据科学家。从这里取出所需要的库,再从别的地方再抄几行代码,拼拼凑凑做出来你想要的功能来处理数据管线,也可以称之为数据科学家。举一个简单粗暴的例子来说明数据科学的工作:利用python的pandas,nltk,keras或者python的toolchain,写出来的程序来处理数据并自动生成所需要的报告,应用上一些简单的机器学习的模型以及已经训练好的神经网络,就是这么简单。
工具:PythonToolchain, Pandas,nltk, Keras
4. 表格数据建模人员(或者说XGBoost专家)。这类人回使用多种算法训练多种模型然后加以优化。他们在XGBoost,脊回归和Keras模型都有着很深的造诣,能够灵活运用和优化这些算法。
工具:Python或者R,XGB,Keras
5. 传统的建模人员:跟4很像,但是不限于特定的模型。他们善于提取各种特征,直到深度学习出现之前,他们是唯一的机器学习专家。(译者注:因为深度学习不需要特征提取)
使用工具:C++/PythonScikit Learn
6. 深度学习者:使用GPU编程,加上已经标记好的数据,并不需要直到特征提取,仅仅不停的尝试各种架构。这类人大部分时间都在尝试各种架构,而从来不需要去思考特征层面的问题,但是,最后预测结果的准确率是惊人的!
使用工具: Python, Theano,Tensorflow, Keras
7. 特定领域的专家:他们在某些特定领域知道得很多,对于线性的模型也有所了解。他们采用不同的手段对他们所需要做的事情进行建模编程,基于此,再设计一个线性算法去解决问题。机械工程师,分析师,应用科学领域的科学家,都有可能是这样的数据科学家。
工具:不同的领域采用不同的工具,大多工程师都会使用matlab,有时也用C++/fortran,R和Python。
当然,还有最后一类:新手实习生,他们能够进化成为哪一类的数据科学家完全取决于他们的导师是哪一类人。