专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

【学习】数据开发常用的几种数据预处理和数据整理方法

机器学习研究会 · 公众号 · AI · 2017-05-02 19:02

正文

点击上方 “机器学习研究会” 可以订阅哦

摘要

转自：大数据杂谈

本文比较了用于数据准备的几种方法，它们分别是提取-变换-加载批处理（ETL）、流式获取和数据整理。本文还讨论了数据准备如何与可视化分析相关联，以及不同用户角色（如数据科学家或业务分析人员）应如何共同构建分析模型的最佳实践。

要点

在常见的机器学习/深度学习项目里，数据准备占去整个分析管道的60％到80％。
市场上有各种用于数据清洗和特征工程的编程语言、框架和工具。它们之间的功能有重叠，也各有权衡。
数据整理是数据预处理的重要扩展。它最适合在可视化分析工具中使用，这能够避免分析流程被打断。
可视化分析工具与开源数据科学组件之间，如R、Python、KNIME、RapidMiner互为补充。
避免过多地使用组件能够加速数据科学项目。因此，在数据准备步骤中利用流式获取框架或流式分析产品会是一个不错的选择。

机器学习和深度学习项目在大多数企业中变得越来越重要。一个完整的项目流程包括数据准备（data preparation）、构建分析模型以及部署至生产环境。该流程是一个洞察-行动-循环（insights-action-loop），此循环能不断地改进分析模型。Forrester把这个完整的流程和其背后的平台称为洞察平台（Insights Platform）。

当你打算使用机器学习或深度学习技术来构建分析模型时，一个重要的任务是集成并通过各种数据源来准备数据集，这些数据源包括比如文件、数据库、大数据存储、传感器或社交网络等等。此步骤可占整个分析项目的80％。

本文比较了用于数据准备的几种方法，它们分别是提取-变换-加载（extract-transform-load，ETL）批处理、流式获取（streaming ingestion）和数据整理（data wrangling）。同时借助于先进的分析技术和开源框架（如R、Apache Spark、KNIME、RapidMiner），讨论了各种不同的选择及其折中。本文还讨论了数据准备如何与可视化分析相关联，以及不同用户角色（如数据科学家或业务分析人员）应如何共同构建分析模型的最佳实践。