专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

【学习】大规模机器学习系统中的No Free Lunch | CCTC 2017 AI专场干货分享

机器学习研究会 · 公众号 · AI · 2017-05-22 19:25

正文

点击上方“机器学习研究会”可以订阅哦

摘要

转自：极客头条

5月18日，由CSDN出品的2017中国云计算技术大会（简称CCTC，Cloud Computing Technology Conference）在北京盛大召开，第四范式机器学习算法研发工程师涂威威出席人工智能专场并作主题演讲。

作为第四范式•先知平台核心机器学习框架GDBT的设计者，涂威威在大规模分布式机器学习系统架构、机器学习算法设计和应用等方面有深厚积累。演讲中，涂威威表示，现在有越来越多的企业开始利用机器学习技术，把数据转换成智能决策引擎。企业机器学习应用系统中的核心模型训练系统有着什么样的设计和优化的考虑？与教科书中的机器学习应用相比，企业实际的机器学习应用中有哪些容易被人忽略的陷阱？涂威威对此作了经验分享，同时给出了一些可供参考的解决方案。

工业界大规模分布式机器学习计算框架的设计经验

机器学习的经典定义，是利用经验（数据）来改善系统性能。在应用过程中，首先要明确机器学习目标的定义，也就是用机器学习来做什么事情。以谷歌提升搜索广告业务收入为例，谷歌首先对提升收入的目标进行拆解，广告收入=平均单次点击价格点击率广告展现量，其中“广告展现量”被硬性控制（考虑到政策法规和用户体验），“单次点击价格”受广告主主动出价影响，与上面两者不同，“点击率”的目标明确，搜索引擎记录了大量的展现点击日志，而广告候选集很大，不同广告的点击率差别很大，谷歌广告平台有控制广告展现的自主权，因此对于谷歌提升搜索广告收入的问题而言，机器学习最适合用来优化“广告点击率”。在确定了机器学习具体的优化目标是广告点击率之后，谷歌机器学习系统会循环执行四个系统：数据收集→数据预处理→模型训练→模型服务（模型服务产生的数据会被下一个循环的数据收集系统收集）。在这四个系统中，与机器学习算法最相关的就是模型训练系统。