本文为5月18日晚,禾赛科技董事长、首席科学家孙恺关于"禾赛科技
本文主要适用于初学者到中级数据科学家或分析师,他们有兴趣识别和应用机器学习算法来解决他们感兴趣的问题。
一个初学者面临各种机器学习算法的典型问题是“我应该使用哪种算法?”问题的答案取决于许多因素,包括:
-
数据的大小、质量和性质。
-
可用计算时间。
-
任务的紧迫性。
-
你想用数据做什么。
即使是经验丰富的数据科学家也不能在尝试不同的算法之前,判断哪种算法会最好。 我们并不是倡导一个一步到位的方法,但是我们希望首先根据一些明确的因素来提供一些尝试哪些算法的指导。
机器学习算法速查表
机器学习算法速查表帮助你从各种机器学习算法中选择,以找到适合你的具体问题的算法。 本文将引导你完成如何使用速查表的过程。
由于该速查表是专为初学者数据科学家和分析师设计的,所以在讨论算法时,我们将作出一些简化的假设。
这里推荐的算法是来自几个数据科学家和机器学习专家和开发人员的编译反馈和提示。有几个问题,我们还没有达成协议,对于这些问题,我们试图突出共性及调和差异。
稍后将会添加其他算法,因为我们的库增长包含一套更完整的可用方法。
如何使用速查表
将图表上的路径和算法标签读为“如果 则使用”。 例如:
-
如果要进行降维,则使用主成分分析法。
-
如果需要快速的数值预测,请使用决策树或逻辑回归。
-
如果需要分层结果,请使用层次聚类。
有时多个分支适用,其他时候他们都不是绝配。 重要的是要记住,这些路径旨在作为有经验的建议,因此有些建议并不准确。我谈到的几位数据科学家说,找到最好算法的唯一方法就是尝试所有的算法。
机器学习算法的类型
本节提供最受欢迎的机器学习类型的概述。 如果你熟悉这些类型,并希望继续讨论特定的算法,则可以跳过本节并转到下面的“何时使用特定算法”。
监督学习
监督学习算法基于一组示例进行预测。例如,可以使用历史销售来估计未来价格。通过监督学习,你有一个输入变量,由标记的训练数据和期望的输出变量组成。你使用算法分析训练数据,来得到将输入映射到输出的函数。这个推断函数通过从训练数据推广来预测未知情况下的结果来映射新的未知示例。
半监督学习
监督学习的挑战是标注数据可能是昂贵和耗时的。 如果标签有限,你可以使用未标记的示例来增强监督学习。 因为在这种情况下机器没有被完全监督,所以我们说机器是半监督的。 使用半监督学习,你可以使用少量标签数据的未标记示例来提高学习准确性。