我们上次已经讨论了机器学习能够影响的业务类型。现在,让我们来回顾一下你需要了解的技术术语,这样你才能高效地与数据科学团队进行合作,并协助他们,让他们的工作成果可以对你的业务产生尽可能大的影响(或至少让你知道他们在说什么)。
算法、模型和数据
从概念层面上来讲,我们正在构建一个机器,给这个机器一组输入数据,然后通过找到数据中的模式并从中学习,能够产生某种预期的输出。
一种非常常见的情况就是让机器在一组输入数据中查找,然后产生相对应的输出数据。机器在输入数据中识别出模式,并创建一组复杂的规则,然后将其应用于以前从未见过的输入并产生所需的输出。例如,给定房屋的面积、地址和房间数(输入),我们来预测房屋的销售价格(输出)。假设我们有10000组这样的数据,包括房屋的面积、地址、房间数量,以及销售价格。则机器会基于这些数据“训练”自己,即识别出房间面积、地址、房间数影响房屋价格的模式,这样,只要我们给出一个从未见过的房子的3个输入项,就可以预测出房子的价格了。
数据科学家的作用是找到给定输入并能够获得预期输出的最佳机器。她有多个模板,对于机器来说,称之为**算法**。从这些模板中生成的解决具体问题的机器被称为**模型**。模板有各种不同的选项和设置,可以通过调整这些选择和设置来从同一模板生成不同的模型。还可以使用不同的模板或调整相同模板的设置来生成多个模型,以便测试出哪个模型能提供最佳结果。
原文链接: