本文
多资源
,建议
收藏
。
本文为你介绍适合不同数据科学活动阶段使用的工具和技术。
[ 导读 ]
在数据科学活动的不同阶段,有很多可用的支持工具和技术。本文介绍各种活动阶段使用的工具和技术,如数据获取、数据清洗、数据管理、建模、模拟和数据可视化。
诸如结构式访谈、非结构式访谈、开放式问卷调查、封闭式问卷调查、记录评论和观察等技术统称为事实调查方法。
这种事实调查方法和其他数据获取方法可以采取自动化,而不必使用人工方法。
使用具有专用软件的物理设备(如终端、传感器和扫描仪等)也可用于管理物理设备和系统之间的接口。随后,这些数据可以通过典型的编程语言(如Java、Visual Basic、C++、MatLab和Lisp)来进行部分管理。也可使用开源和专用的数据采集软件,如MIDAS(最大集成数据采集系统)。
通常,数据采集系统是作为一个专用的独立系统而开发的,这种系统被称为数据记录器。在有特殊需求的情况下,系统的工作模型已准备好,并且也已呈现给了数据科学家。这样的原型有助于用户在系统实际构建之前测试数据获取机制。这有助于收集额外要求并测试已提出系统的可行性。
这里有发现更高层次内容的知识获取和机器学习方法(例如从资源中自动地获取信息和知识),这种知识获取方法的例子如概念图、审计、神经网络和其他与自动知识发现相关的方法。
在其他工具中,
数据清洗工具
、
数据管理和建模工具
以及
数据可视化工具
都非常重要。
本文列出了不同类别中的一些主要工具。
01 数据清洗工具
一旦完成数据收集,便需要检查其清洁度。
数据清洗通常称为数据净化,即其数据从源中删除或更正脏数据的过程。
数据声明程序的目标是识别和消除数据中的错误,为进一步分析、建模和可视化提供一致的数据。
在数据项层级上,一些不正确的数据通过适当的验证被拒绝。在诸如文件和数据库的同构数据集合中,不一致程度和错误数量较少。在来自多个数据源的具有异构性质的大型数据库(如数据仓库、联邦数据库系统或全球基于Web的系统)中,数据清洗变得至关重要。
产生这些问题的原因有:
-
不同的格式
-
冗余数据
-
数据使用的术语和标准不同
-
合并数据使用的方法
删除不准确的、不完整或不合理的数据会提高数据的质量。
缺失值、特殊值、范围检查、演绎修正、插值、最小值调整、错字、审计和工作流规范检查等是数据清洗的常用机制。
除了编程语言外,常用的数据清理工具如下所列。
1. Lavastorm分析
www.lavastorm.com
用于分析引擎等产品。
2. IBM InfoSphere信息服务器
http://www-03.ibm.com/software/products/en/infosphere-information-server/
分析、理解、清洗、监视、转换和传输数据。
3. SAS数据质量服务器
www.sas.com
清洗数据,并在数据流管理服务器上执行作业和服务。
4. Oracle的主数据管理(MDM)
http://www.oracle.com/partners/en/most-popular-resources/059010.html
是处理大量数据,并且提供诸如合并、清洗、扩充和同步企业的关键业务数据对象等服务的解决方案。
5. 益百利 QAS清洗服务
http://www.qas.co.uk/
为地址验证提供CASS认证(编码精度支持系统)。
6. NetProspex
http://www.netprospex.com/
http://www.dnb.co.in/
为数据清理、追加以及正在进行的市场数据管理提供支持。在印度,它现在是邓白氏信息服务公司的一部分,其提供数据管理转换和数据质量程序。
7. Equifax
http://www.equifax.co.in/
为数据库管理、数据集成和数据分析提供解决方案。
8. CCR Data
清理并审计数据。该公司研发了ADAM—数据清理平台。
9. Oceanosinc公司提供的解决方案
http://www.oceanosinc.com/
用于数据清理、联系发现和商业智能。
10. Nneolaki
http://neolaki.net/
提供的工具用于数据收集、清理、附加和管理。
11. 数据清洗产品
http://www.datacleanser.co.uk/
为数据清洗提供方案。
02 数据管理和建模工具
数据科学实践中的其他重要活动是数据管理和数据准备,其也被称作数据整理。
数据整理是将数据转换或映射为格式良好的数据流的过程,以便数据可以顺利地用于后续处理。
实际上,该过程允许通过工具便利和自动地使用数据来进行进一步的活动。排序、解析、提取、分解和恢复数据是数据管理阶段的主要活动。诸如Pearl、R、Python等编程工具以及来自编程语言和软件包的一些现成库可用于支持数据管理活动。
一旦数据准备好进行分析,诸如线性回归、运筹学方法以及决策支持系统等技术便通常用于数据建模。在这里,数据建模的基本目标是,为了提高商业洞察力进而确定干净且有效的数据实体之间的关系。
致力于这个阶段的数据科学家或专家被称为数据建模者。
数据建模可以在概念层面、企业层面和物理层面完成。以下是支持数据建模的主要工具。
12. CA ERwin数据模拟
http://erwin.com/products/data-modeler
为管理复杂数据提供了简单的可视化界面。
13. Database Workbench
http://www.upscene.com/database_workbench/
为使用多个数据库进行开发提供了一个单一的开发环境。
14. DeZign for Databases
http://www.datanamic.com/dezign/
是一个支持数据库设计和建模的工具。它还为数据库应用程序开发提供了复杂的可视化数据建模环境。
15. Enterprise Architect
http://www.sparxsystems.com/products/ea/
是用于数据建模和软件工程的完全集成的图形支持工具。
16. ER/Studio
http://www.embarcadero.com/products/er-studio
为数据管理专业人员提供协作机制以构建和维护企业级数据模型和元数据存储库。
17. InfoSphere 数据架构师(理性数据架构师)
http://www-03.ibm.com/software/products/en/ibminfodataarch/
是一种协作式的数据设计方案。它简化了仓库设计、维度建模以及管理任务的变更。
18. ModelRight
http://www.modelright.com/products.asp
为数据库设计人员提供了诸如数据库设计、图形支持、报告和可视化界面等活动的支持。
19. MySQL Workbench
http://www.mysql.com/products/workbench/
为数据库架构师、开发人员和数据库管理员提供了统一的可视化工具。MySQL Workbench还提供数据建模、SQL开发和综合管理。
20. Navicat数据模拟器
http://www.navicat.com/products/navicat-data-modeler
有助于创建高质量的逻辑数据模型和物理数据模型。
21. Open ModelSphere
http://www.modelsphere.org/
是一款独立于平台且免费的建模工具,可用作开源软件。它为数据建模和软件开发的所有阶段提供了普遍支持。
22. Oracle SQL Developer Data Modeler
http://www.oracle.com/technetwork/developer-tools/datamodeler/overview/index.html
是一款用于创建、浏览和编辑数据模型的免费图形工具。它支持逻辑的、关系的、物理的、多维的以及数据类型的模型。
23. PowerDesigner
http://www.powerdesigner.de/
管理设计时间更改和元数据。
24. Software Ideas Modeler
https://www.softwareideas.net/
通过诸如UML、业务流程模型和符号(BPMN)、系统建模语言(SysML)等的标准图以及多图表,为建模提供支持。
25. SQLyog
https://www.webyog.com/
是一个强大的MySQL管理者和管理工具。
26. Toad Data Modeler
http://www.toad-data-modeler.com/
是一个数据库设计工具,其用于设计新的结构、实体关系图和SQL脚本生成器。
03 数据可视化工具
数据可视化是指数据的图形表示。
数据的可视化使得理解数据和沟通变得更容易。
有很多可用于数据可视化的工具,下面列出了一些常用可视化工具:
27. Dygraphs
http://dygraphs.com/
是一个快速且灵活的开源JavaScript图表库,其允许用户探索和解释密集的数据集。Dygraphs是一个高度可定制的工具。
28. ZingChart
http://www.zingchart.com/