专栏名称: 大数据应用
数据应用学院被评为2016北美Top Data Camp, 是最专业一站式数据科学咨询服务机构,你的数据科学求职咨询专家!
目录
相关文章推荐
数据派THU  ·  PyTorch ... ·  2 天前  
大数据与机器学习文摘  ·  OpenAI ... ·  3 天前  
CDA数据分析师  ·  【2月】CDA网校2025 ... ·  3 天前  
艺恩数据  ·  春节档观众满意度亮眼 ... ·  1 周前  
51好读  ›  专栏  ›  大数据应用

如何扩充你的数据科学工具包?这里有24款免费的数据科学工具!

大数据应用  · 公众号  · 大数据  · 2018-03-23 09:00

正文

点击蓝字关注这个神奇的公众号~


原文作者: Naina Sethi

翻译:Man Luo



据分析工具 是数据科学领域的重要组成部分。开源社区多年来一直致力于开发数据科学工具从而为该领域做出重要贡献。数据科学界一直在讨论如何使用开源技术,而不是像IBM和微软这样的公司提供专有软件。事实上,很多大企业已经开始开发开源解决方案从而他们可以留住用户,同时开源数据科学工具也已经成为数据科学领域的主导地位。

因为从数据挖掘到编程语言有各种各样的开源工具可供使用,因此我们将数据科学家可以添加到他们的数据科学工具包中的技术汇总在一起供大家参考。


1

R语言


R语言是用来进行数据挖掘和数据可视化的一种编程语言。它诞生于1995年,是一款在数据科学家和商业分析师之间广泛运用的工具。它的开源版本S语言被广泛运用在统计研究中。据数据科学家称,R是更容易学习的语言之一,因为有大量的软件包和指南可供用户使用。


2

Python


Python是另外一个在数据科学领域应用广泛的语言。它由荷兰的程序员Guido Van Rossem开发。它是一种通用编程语言,专注于可读性和简单性。如果你不是程序员,但想要学习编程语言,Python是一门很好的入门语言。 它比其他通用语言更容易,并且有许多教程可供非程序员学习。您可以使用Python进行各种分析,如情感分析或时间序列分析,这是一种非常通用的通用编程语言。您可以浏览开放的数据集并执行Twitter帐户的情绪分析等。


3

KNIME

KNIME是一家总部位于世界各地主要技术中心的软件公司。 该公司提供用Java编写的开源分析平台,用于数据报告,挖掘和预测分析。该基础平台可以通过公司提供的一系列商业扩展进行升级,包括协作,生产力和性能扩展。


4

Gawk

Gawk是awk的开源版本,它是专用于处理文件的编程语言。Awk是Unix操作系统的许多组件之一。 Gawk是awk的GNU版本,它可以很容易地对文本文件进行更改,并允许用户提取数据并生成报告。


5

Weka

Weka是由怀卡托大学用Java编写的机器学习软件。 它用于数据挖掘,允许用户使用大量数据。 Weka的一些功能包括预处理,分类,回归,聚类,实验,工作流和可视化。 然而,与R和Python相比,它缺少高级功能,这就是为什么它在工作环境中不被广泛使用。


6

Scala

Scala是一种在Java平台上运行的通用编程语言。 非常适用于大型数据集,主要与Apache Spark和Apache Kafka等大数据工具一起使用。 这种功能性编程风格带来了高效的生产力,使得它逐渐被越来越多的公司作为其数据科学工具包的重要组成部分。


7

SQL


结构化查询语言(SQL)是处理关系数据库中数据的专用编程语言。 SQL用于更基础的数据分析,并且可以组织和处理数据或从数据库检索数据。 由于SQL已经被组织使用了数十年,现在已经形成了一个可供数据科学家们探索的庞大的SQL生态系统。 在数据科学工具中,它被评为对数据库进行筛选和的提取最佳工具之一。


8

RapidMiner

RapidMiner是一款具有可视化和统计建模功能的预测性分析工具。RapidMiner的基础RapidMiner Studio是一个免费的开源平台。该公司还提供可购买的企业级附加产品以补充基础平台的功能。


9

Scikit-learn

Scikit-learn是一个机器学习工具包,主要用Python编写,并构建在SciPy库上。它最初是作为Google Summer of Code的一个项目开发形成,在这个项目上Google会奖励能够开发有价值的开源软件的学生。Scikit-learn提供了许多功能,包括数据分类,回归,聚类,降维,模型选择和预处理。


10

Apache Hadoop

Apache Hadoop软件库是一个用Java编写的框架,用于处理大型和复杂的数据集。 Apache Hadoop框架的基本模块包括Hadoop Common,Hadoop分布式文件系统(HDFS),Hadoop Yarn和Hadoop MapReduce。


11

Apache Mahout


Apache Mahout是构建可伸缩机器学习算法的环境。 算法是在Hadoop之上编写的。 Mahout执行三项主要的机器学习任务:协作过滤,聚类和分类。


12

Apache Spark

Apache Spark是用于数据分析的集群计算框架。因其大数据处理能力、快速和易用性,大型组织选择使用Apache Spark。 它最初是作为Spark在加利福尼亚大学开发的,后来,源代码被捐赠给Apache基金会,以便它永远免费。 由于其高速性,与其他大数据工具相比它更受欢迎。


13

SciPi

SciPi或Scientific Python是基于Python的计算生态系统。 它提供了许多核心组件,包括用于数值计算的NumPy,用于绘图的Matplotlib以及是作为算法库和数学工具包的SciPy。


14

Orange

Orange是一种数据科学工具,它致力于使数据科学变得有趣和具有互动性。 与这里讨论的许多工具相比,这个工具很简单,并且持续吸引数据科学家的兴趣。 它使用户无需编码即可对数据进行分析和可视化。同时它为初学者提供了机器学习功能。


15

Axiis

Axiis是数据科学工具中鲜为人知的数据可视化框架。 它允许用户使用预先构建的组件以简明扼要的形式构建图表并探索数据。


16

Impala

Impala是Apache Hadoop的大规模并行处理(MPP)数据库。 数据科学家和分析师用它对存储在Apache Hadoop集群中的数据执行SQL查询。


17

Apache Drill


Apache Drill是Google Dremel的开源版本,用于大型数据库的交互式查询。 它功能强大且灵活,支持以不同格式存储在文件或NoSQL数据库中的数据,并且是多功能的数据科学工具之一。


18

Data Melt

Data Melt是一种数学软件,其先进的数学计算,统计分析和数据挖掘功能让您的生活更轻松。 该软件可以用编程语言进行补充以增加可定制性,同时软件中还包括大量的教程库。


19

Julia

Julia是一款用于技术计算的动态编程语言。尽管它并未被广泛使用,但是由于其敏捷性,设计感和高性能,正在数据科学领域中普及。


20

D3







请到「今天看啥」查看全文