专栏名称: AI数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

告别调参，AutoML新书发布

AI数据派 · 公众号 · · 2018-10-21 07:30

正文

来源：专知

本文约 1900 字，建议阅读 8 分钟。

《AUTOML》作者当前正在完成这本新书的编辑工作，它将由NIPS 2018出版发行。

[ 导读 ] 近期，由Frank Hutter, Lars Kotthoff, Joaquin Vanschoren撰写的《AUTOML：方法，系统，挑战》“AUTOML: METHODS, SYSTEMS, CHALLENGES (NEW BOOK)” 221页的草稿版本已经放出，详细讲解了所有AutoML系统背后的基础知识，以及对当前AutoML系统进行了深入描述，Auto-WEKA、Hyperopt-Sklearn、Auto-sklearn等，最后介绍了AutoML的挑战。作者当前正在完成这本新书的编辑工作，它将由NIPS 2018出版发行。

公众号后台回复 “1821” 获取全书 PDF下载链接

如果你用过机器学习算法，那一定体验被算法调参支配的恐怖。面对错综复杂的算法参数，算法使用者们往往要花费无尽的黑夜去不断尝试，犹如大海捞针。有的时候加班到深夜，终于找到了一个靠谱的参数组合，然而找到的参数组合真的是最优的么？天知道。

然而在搭建机器学习链路的过程中，往往不止调参这一步耗时耗力。好不容易生成了算法模型，怎么把模型部署成服务供手机、PC这些终端调用也是困扰开发同学的一大难题。有的时候，为了打通这样的链路，要耗费整晚的时间调试不同格式的模型和服务端的关联。

在2018年谷歌云全球NEXT大会（Google CloudNext 18）上，李飞飞宣布，谷歌AutoML Vision进入公共测试版，并推出了两款新的AutoML产品：AutoML Natural Language和AutoML Translation。

这个名为Cloud AutoML的宏大项目浮出水面之时，被业内称为“Google Cloud发展的战略转型”——一直以来面向机器学习人工智能开发者的Google Cloud，这次将服务对象转向了普罗大众。

当时这一已经从单纯的视觉拓展到翻译、视频和自然语言处理领域。

谷歌的宏伟愿景由此可见一斑——你只需在改系统中上传自己的标签数据，大能得到一个训练好的机器学习模型。整个过程，从导入数据到标记到模型训练，都可以通过拖放界面完成。

其实在谷歌发布AutoML前后，机器学习自动化的产品风潮已经吹起：2017年底，微软发布CustomVision.AI，涵盖图像、视频、文本和语音等各个领域。今年 1 月，他们又推出了完全自动化的平台 Microsoft Custom Vision Services（微软定制视觉服务）。

此外，另一个比较火爆的AI自动化产品OneClick.AI 是 2017 年底出现在市场上的一个自动化机器学习（AML）平台，其中既包括传统的算法，也包括深度学习算法。同年，国内也出现了不少相关产品，称能够解放算法工程师，让AI自动化。

AutoML 是什么?

传统上，术语AutoML用于描述模型选择和/或超参数优化的自动化方法。这些方法适用于许多类型的算法，例如随机森林，梯度提升机器（gradient boosting machines），神经网络等。 AutoML领域包括开源AutoML库，研讨会，研究和比赛。初学者常常觉得他们在为模型测试不同的超参数时通常仅凭猜测，而将这部分过程的自动化可以使机器学习变得更加容易。即使是对经验丰富的机器学习从业者而言，这一自动化过程也可以加快他们的速度。

业内现存有许多AutoML库，其中最早出现的是AutoWEKA，它于2013年首次发布，可以自动选择模型和超参数。其他值得注意的AutoML库包括auto-sklearn（将AutoWEKA拓展到了python环境），H2O AutoML和TPOT。 AutoML.org（以前被称为ML4AAD，Machine Learning for AutomatedAlgorithm Design）小组，自2014年以来一直在ICML机器学习学术会议上组织AutoML研讨会。

AutoML 有用吗？

AutoML提供了一种选择模型和优化超参数的方法。 它还可以用于获取对于一个问题可能性能的基准结果。这是否意味着数据科学家将被取代？并非如此，因为我们知道，机器学习从业者还有许多其他事情要做。

对于许多机器学习项目，选择模型不过是构建机器学习产品复杂过程中的一部分。正如我在上一篇文章中所述，如果参与者不了解项目各个部分是如何相互关联的，那么项目必然会失败。我能想到过程中可能会涉及的30多个不同步骤。我必须要强调，机器学习（特别是深度学习）中最耗时的两个方面是清理数据（这是机器学习中不可或缺的一部分）和训练模型。虽然AutoML可以帮助选择模型并选择超参数，但重要的是，我们仍然要理清有哪些数据科学的技能是需要的以及那些仍未解决的难题。

我将提出一些替代AutoML方法的建议，以使机器学习从业者在进行最后一步时更有效率。

参考文献：

1. https://yq.aliyun.com/articles/629037

2. http://www.fast.ai/2018/07/16/auto-ml2/#auto-ml

3. https://www.automl.org/book/?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

全文目录

第一部分：AutoML方法

本部分包含有关所有AutoML系统背后的基础知识的最新概述。

第1章： 超参数优化。由Matthias Feurer和Frank Hutter撰写
第2章： 元学习。作者：Joaquin Vanschoren
第3章：

告别调参，AutoML新书发布

正文

请到「今天看啥」查看全文