专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

【推荐】小米云深度学习平台的架构设计与实现

机器学习研究会 · 公众号 · AI · 2017-06-08 19:36

正文

点击上方 “机器学习研究会” 可以订阅哦

摘要

转自：CSDN

深度学习服务介绍

机器学习与人工智能，相信大家已经耳熟能详，随着大规模标记数据的积累、神经网络算法的成熟以及高性能通用GPU的推广，深度学习逐渐成为计算机专家以及大数据科学家的研究重点。近年来，无论是图像的分类、识别和检测，还是语音生成、自然语言处理，甚至是AI下围棋或者打游戏都基于深度学习有了很大的突破。而随着TensorFlow、Caffe等开源框架的发展，深度学习的门槛变得越来越低，甚至初中生都可以轻易实现一个图像分类或者自动驾驶的神经网络模型，但目前最前沿的成果主要还是出自Google、微软等巨头企业。

Google不仅拥有优秀的人才储备和大数据资源，其得天独厚的基础架构也极大推动了AI业务的发展，得益于内部的大规模集群调度系统Borg，开发者可以快速申请大量GPU资源进行模型训练和上线模型服务，并且通过资源共享和自动调度保证整体资源利用率也很高。Google开源了TensorFlow深度学习框架，让开发者可以在本地轻易地组合MLP、CNN和RNN等模块实现复杂的神经网络模型，但 TensorFlow只是一个数值计算库，并不能解决资源隔离、任务调度等问题，将深度学习框架集成到基于云计算的基础架构上将是下一个关键任务。

除了Google、微软，国内的百度也开源了PaddlePaddle分布式计算框架，并且官方集成了Kubernetes等容器调度系统，用户可以基于PaddlePaddle框架实现神经网络模型，同时利用容器的隔离性和Kubernetes的资源共享、自动调度、故障恢复等特性，但平台不能支持更多深度学习框架接口。而亚马逊和腾讯云相继推出了面向开发者的公有云服务，可以同时支持多种主流的开源深度学习框架，阿里、金山和小米也即将推出基于GPU的云深度学习服务，还有无数企业在默默地研发内部的机器学习平台和大数据服务。

面对如此眼花缭乱的云服务和开源技术，架构师该如何考虑其中的技术细节，从用户的角度又该如何选择这些平台或者服务呢。 我将介绍小米云深度学习平台的架构设计与实现细节，希望能给AI领域的研发人员提供一些思考和启示。

云深度学习平台设计

【推荐】小米云深度学习平台的架构设计与实现

正文

请到「今天看啥」查看全文