专栏名称: 爱数据原统计网
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
51好读  ›  专栏  ›  爱数据原统计网

数据人不得不知的机器学习平台

爱数据原统计网  · 公众号  · BI  · 2021-03-05 16:30

正文

作者:飞狐冲冲

在国内某知名央企负责数据挖掘与分析相关工作,并曾经在京东、美团等大型互联网公司担任算法工程师的岗位,有一定算法开发经验。


01

为什么需要

机器学习平台?


众说周知,当今社会大数据和人工智能技术正助推各个领域迅猛发展,各大企业都在通过机器学习算法挖掘业务背后的商业价值,打造AI产品,快速的从数据转化为收益。

因此,业务、数据、算法成为AI产品的三个重要因素。通过对数据进行算法建模,赋能业务,产生价值。稍微对算法有了解的同学都知道,算法开发工作一般包括数据准备、特征工程、算法建模、模型评估、模型调优、模型部署以及模型监控等步骤,如下图所示:


从算法开发整个流程可以看出,在算法开发落地应用整个过程中,其实掺杂着与很多机器学习本身不是很相关,但与其他工程领域强相关而且通用的事情,比如模型部署、任务监控、模型可视化甚至包括环境搭建、资源调度等。于是,帮助大家脱离繁琐的工程化开发,如何让机器学习快速落地应用并提供通用的能力,成为机器学习平台这个概念产生的意义。

02

名词解释

为了便于大家理解不混淆,这里对机器学习平台相关的名词做了一定的解释。

机器学习算法。 简称算法,指使用各类编程语言构建的算法,大部分情况下和具体业务是无关的。主要包括统计方法、传统机器学习算法、深度学习甚至某些数学规则等。比如无监督K均值聚类算法,有监督LR、随机森林、GBDT等算法,还有DNN、RNN深度学习等算法。

机器学习模型。 简称模型,对具体业务强依赖,与业务强相关,用来对新数据进行直接预测的一系列算法参数的集合,通常需要和机器学习算法配合进行工作。比如金融风控模型、推荐模型、广告点击率模型、销量预测模型等。

机器学习框架。 也可称为机器学习运行时环境,是指能够直接提供机器学习算法编写、模型训练和模型应用的软件系统,如Tensorflow、MxNet等,这些框架会直接调度计算资源和存储资源,其运行机制和具体的业务场景无关。

机器学习平台。 上面已经说明,通过平台化来封装整个机器学习建模流程,允许用户使用主流的机器学习框架进行算法开发工作并且大部分提供可视化的构建流程。比如阿里云PAI、腾讯Ti-ML等(后面会具体描述)。其目的是为了使机器学习快速工程化落地应用,产生价值。

03

机器学习平台功能

机器学习平台能够支撑算法开发、分享、模型训练、部署、监控等⼀站式算法服务,其一般的框架及功能如上图所示,其功能主要有大量内置的基础算法、统一的数据管理、集成的运行环境、可视化建模、模型复用等,还可以在此基础上进行算法超市开发沉淀解决方案。这里主要介绍一下可视化建模。


可视化建模不同于算法工程师利用编程语言(比如:Python、java等)进行算法开发,它通过拖拉拽的方式完成数据到图形的映射,引导用户直观的进行数据操作、探索。如下图所示:



可视化建模可以让用户基于平台内部的数据处理、算法节点,以拖拉拽迅速完成机器学习、深度学习、自然语言处理等算法模型构建,实现数据的关联、模型的预测等功能。这样就降低了建模工作对于专业算法工程师的依赖,更加智能、高效的进行算法开发工作。

04

业内机器学习平台介绍

业内比较知名的机器学习平台有阿里云PAI、腾讯Ti-ML、第四范式先知、美林Tempo等。

01

阿里云PAI

阿里云PAI是目前国内应用范围最广泛的机器学习平台,也是国内技术能力公认最强的平台之一。主要优点有:
1.多框架支持
2.多语言间接支持(默认提供 Python 编程入口,其他语言需要自己提供运行环境)
3.阿里云集成度较高
4.丰富的API接口


02

腾讯Ti-ML

Ti-ML包含三个机器学习平台自产品,分别是:
(1)Ti-ONE,一站式机器学习平台,提供AutoML能力,自动化的构建机器学习程序;
(2)Ti-EMS,自动根据客户的机器学习程序来进行资源需求推理和调度;(3)Ti-Insight,根据工业界的需求,内置了各类主流的机器学习场景流程,用户可以直接从模板构建自己的机器学习应用。

腾讯推出其机器学习平台相对较晚,但其功能和定位和阿里云PAI即无二致。主要优点为:
1.多框架支持。
2.多语言间接支持。
3.腾讯云集成度高。
4.API 丰富等。


03

第四范式先知

第四范式公司是专门做机器学习平台的AI技术与服务商,先知是国内曝光率最高的机器学习平台之一。国际权威研究机构IDC发布了首份《IDC MarketScape:中国机器学习开发平台市场评估》。






请到「今天看啥」查看全文