专栏名称: 新机器视觉
最前沿的机器视觉与计算机视觉技术
目录
相关文章推荐
参考消息  ·  莫迪到访前,美国放话施压 ·  22 小时前  
卢克文工作室  ·  他们为什么“穷”得如此稳定? ·  昨天  
卢克文工作室  ·  天启特朗普、西厂马斯克 ·  2 天前  
参考消息  ·  俄罗斯一油轮突发爆炸! ·  2 天前  
参考消息  ·  印度“从零开始”研发AI芯片 ·  3 天前  
51好读  ›  专栏  ›  新机器视觉

机器学习必知必会 10 大算法!

新机器视觉  · 公众号  ·  · 2025-01-02 21:02

正文


作者:Fahim ul Haq

原文:https://towardsdatascience.com/the-top-10-ml-algorithms-for-data-science-in-5-minutes-4ffbed9c8672

现在,机器学习有很多算法。 如此多的算法,可能对于初学者来说,是相当不堪重负的。今天,我们将简要介绍 10 种最流行的机器学习算法,这样你就可以适应这个激动人心的机器学习世界了!

01 线性回归

线性回归 (Linear Regression)可能是最流行的机器学习算法。线性回归就是要找一条直线,并且让这条直线尽可能地拟合散点图中的数据点。它试图通过将直线方程与该数据拟合来表示自变量(x 值)和数值结果(y 值)。然后就可以用这条线来预测未来的值!

这种算法最常用的技术是 最小二乘法 (Least of squares)。这个方法计算出最佳拟合线,以使得与直线上每个数据点的垂直距离最小。总距离是所有数据点的垂直距离(绿线)的平方和。其思想是通过最小化这个平方误差或距离来拟合模型。

例如,简单线性回归,它有一个自变量(x 轴)和一个因变量(y 轴)。

02 逻辑回归

逻辑回归 (Logistic regression)与线性回归类似,但它是用于输出为二进制的情况(即,当结果只能有两个可能的值)。对最终输出的预测是一个非线性的 S 型函数,称为 logistic function, g()。

这个逻辑函数将中间结果值映射到结果变量 Y,其值范围从 0 到 1。然后,这些值可以解释为 Y 出现的概率。S 型逻辑函数的性质使得逻辑回归更适合用于分类任务。

逻辑回归曲线图,显示了通过考试的概率与学习时间的关系。

03 决策树

决策树 (Decision Trees)可用于回归和分类任务。

在这一算法中,训练模型通过学习 树表示 (Tree representation)的决策规则来学习预测目标变量的值。树是由具有相应属性的节点组成的。

在每个节点上,我们根据可用的特征询问有关数据的问题。左右分支代表可能的答案。最终节点(即叶节点)对应于一个预测值。

每个特征的重要性是通过自顶向下方法确定的。 节点越高,其属性就越重要。

决定是否在餐厅等候的决策树示例。

04 朴素贝叶斯

朴素贝叶斯 (Naive Bayes)是基于贝叶斯定理。它测量每个类的概率,每个类的条件概率给出 x 的值。这个算法用于分类问题,得到一个二进制“是 / 非”的结果。看看下面的方程式。

朴素贝叶斯分类器是一种流行的统计技术,可用于过滤垃圾邮件!

05 支持向量机(SVM)

支持向量机 (Support Vector Machine,SVM)是一种用于分类问题的监督算法。支持向量机试图在数据点之间绘制两条线,它们之间的边距最大。为此,我们将数据项绘制为 n 维空间中的点,其中,n 是输入特征的数量。在此基础上,支持向量机找到一个最优边界,称为 超平面 (Hyperplane),它通过类标签将可能的输出进行最佳分离。

超平面与最近的类点之间的距离称为边距。最优超平面具有最大的边界,可以对点进行分类,从而使最近的数据点与这两个类之间的距离最大化。

例如,H1 没有将这两个类分开。但 H2 有,不过只有很小的边距。而 H3 以最大的边距将它们分开了。

06 K- 最近邻算法(KNN)

K- 最近邻算法 (K-Nearest Neighbors,KNN)非常简单。KNN 通过在整个训练集中搜索 K 个最相似的实例,即 K 个邻居,并为所有这些 K 个实例分配一个公共输出变量,来对对象进行分类。

K 的选择很关键:较小的值可能会得到大量的噪声和不准确的结果,而较大的值是不可行的。它最常用于分类,但也适用于回归问题。

用于评估实例之间相似性的距离可以是 欧几里得距离 (Euclidean distance)、 曼哈顿距离 (Manhattan distance)或 明氏距离 (Minkowski distance)。欧几里得距离是两点之间的普通直线距离。它实际上是点坐标之差平方和的平方根。

▲KNN 分类示例
07 K- 均值

K- 均值 (K-means)是通过对数据集进行分类来聚类的。例如,这个算法可用于根据购买历史将用户分组。它在数据集中找到 K 个聚类。K- 均值用于无监督学习,因此,我们只需使用训练数据 X,以及我们想要识别的聚类数量 K。

该算法根据每个数据点的特征,将每个数据点迭代地分配给 K 个组中的一个组。它为每个 K- 聚类(称为质心)选择 K 个点。基于相似度,将新的数据点添加到具有最近质心的聚类中。这个过程一直持续到质心停止变化为止。


08 随机森林

随机森林 (Random Forest)是一种非常流行的集成机器学习算法。这个算法的基本思想是,许多人的意见要比个人的意见更准确。在随机森林中,我们使用决策树集成(参见决策树)。

为了对新对象进行分类,我们从每个决策树中进行投票,并结合结果,然后根据多数投票做出最终决定。

  1. 在训练过程中,每个决策树都是基于训练集的引导样本来构建的。
  2. 在分类过程中,输入实例的决定是根据多数投票做出的。
09 降维

由于我们今天能够捕获的数据量之大,机器学习问题变得更加复杂。这就意味着训练极其缓慢,而且很难找到一个好的解决方案。这一问题,通常被称为 “维数灾难” (Curse of dimensionality)。







请到「今天看啥」查看全文


推荐文章
参考消息  ·  莫迪到访前,美国放话施压
22 小时前
卢克文工作室  ·  他们为什么“穷”得如此稳定?
昨天
卢克文工作室  ·  天启特朗普、西厂马斯克
2 天前
参考消息  ·  俄罗斯一油轮突发爆炸!
2 天前
参考消息  ·  印度“从零开始”研发AI芯片
3 天前
老端的观点  ·  捞起世越号,会让朴大妈坐牢吗?
7 年前
力哥  ·  中国最具吸引力城市排行榜
7 年前