机器学习云服务平台的业务架构及业务应用

GitChat技术杂谈 · 公众号 · 程序员 · 2017-09-07 07:15

正文

本文来自作者 Garvin 在 GitChat 上精彩分享。

前言

首先非常高兴可以和各位 gitchat 的同学做一次分享，这次分享希望给大家介绍一些关于机器学习云服务相关的理念，也欢迎大家来阿里云机器学习PAI上面做客，为我们的下一步产品建设提供更多的输入。产品地址：https://data.aliyun.com/product/learn

阿里云机器学习PAI（Platform of Artificial Intelligence）是一款一站式的机器学习平台，包含数据预处理、特征工程、常规机器学习算法、深度学习框架、模型的评估以及预测这一整套机器学习相关服务。

得益于底层的飞天计算平台的 CPU 集群以及 GPU 集群，PAI 可以为用户提供 PB 级别数据的高效计算保证。

另外，PAI 还将算法组件进行封装，并且增添了大量的可视化工具，让用户可以低门槛上手，真正实现人工智能触手可及。

目前无论是国内还是国际上，有许多互联网公司都推出了类似 PAI 这样的 PAAS 层机器学习服务，PAI目前在国内的竞争中处于领先集团。

目前机器学习 PAI 平台已经涵盖了100余种算法组件，包含聚类、分类、回归、文本分析、关系网络等种类的算法。

PAI平台底层支持 CPU 以及 GPU 的集群，在 GPU 集群之上支持了业内主流的三款深度学习框架 TensorFlow、Caffe、MXNet。

提供拖拉拽的组件操作方式，让搭建机器学习实验像搭建积木一样简单。

提供一站式的机器学习企业级服务覆盖机器学习的的整个流程，包含数据的预处理、特征工程、机器学习算法、深度学习框架、评估和预测。

其实如果要搭建一套企业级机器学习服务架构，大体的架构是一致的，作为参考，首先我们来看下PAI的架构。

从下向上看：

首先在底层需要有计算基础设施，无论是 CPU、GPU 或是 FPGA，需要有调度系统来统一调度底层的计算资源。
向上需要有支持分布式计算架构的框架，常见的有 ParameterServer 或者 Mapreduce、Tensorflow 等，这一层的作用是将算法计算任务通过分布式框架分发到底层的基础设施。
再向上一层就是各种算法以及数据预处理或者统计相关的工具，常见的lr、svm等算法都在这一层实现。
最上一层就是基于算法搭建的各种业务场景下的服务。另外，看架构图右边，一个成熟的机器学习服务，还需要支持模型的离线和在线预测，用以支持各种类型的业务需求。

云服务与开源的框架的区别表现在那几个方面呢？

首先是如何保证机器学习链路的连贯性，机器学习云平台的底层框架可以看作为黑盒，里面做了大量的数据以及模型应用的优化。

比如为了方便算法平台生成的模型部署为在线服务，云服务平台可以自定义模型的表现形式。

而开源框架想要实现整套的机器学习链路，可能需要采用多种开源服务，这些服务之间的关联可能会有性能奉献。

但是基于开源架构自建，因为所有的底层服务都是自己实现，所以在功能延展性方面会有优势。
在成本方面，需要考虑云服务价格以及自建集群运维的成本。自建集群的成本主要体现在集群硬件配置，扩容成本以及整个服务体系的软硬件开发人员成本。

我认为自建服务最大的挑战可能是无法动态的伸缩计算资源来满足业务需求，举个例子，如果一家公司日均作业计算量需要50个节点。

但是如果这家公司搞一个活动，可能突然需要80个节点的资源，那么就要考虑为了一次活动而对集群扩容是否划算。然而云服务通常是动态扩容的，就不会出现这样的顾虑。
服务稳定性方面，自建环境如何达到云端服务的高可用性也是非常有挑战的，从计算集群的任务分配、周期性计算任务调度稳定性、以及在线服务的QPS这些方面都非常考验自建环境的性能。