专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  [CL]《Evidence from ... ·  4 天前  
宝玉xp  ·  //@出版人周筠:一生难忘的98世界杯//@ ... ·  4 天前  
全球风口  ·  OpenAI「草莓」大模型再引争议,AI也开 ... ·  5 天前  
全球风口  ·  OpenAI「草莓」大模型再引争议,AI也开 ... ·  5 天前  
宝玉xp  ·  回复@o但求无悔oV:有个项目叫Ollama ... ·  6 天前  
51好读  ›  专栏  ›  机器学习研究会

【干货】完结篇|一文搞定k近邻算法(k-NN)算法(二)

机器学习研究会  · 公众号  · AI  · 2017-04-03 22:38

正文



点击上方“机器学习研究会”可以订阅哦


摘要
 

转自:自然语言处理与机器学习

这篇文章重点讲解一下k近邻算法的最经典算法kd树的相关知识点以及最终的总结!希望看完这篇文章,对kd树能够有一个直观的感觉~


本文目录如下:

1.k近邻算法的回顾

2.k近邻算法中的分类决策规则讲解

3.k近邻法的实现:kd树原理的讲解以及kd树详细例子讲解

4.kd树的不足以及最差情况举例

5.k近邻方法的一些优缺点总结


1
 
  k近邻算法的回顾


1.我们提出了k近邻算法,算法的核心思想是,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分类到这个类中。


更通俗说一遍算法的过程,来了一个新的输入实例,我们算出该实例与每一个训练点的距离(这里的复杂度为0(n)比较大,所以引出了下文的kd树等结构),然后找到前k个,这k个哪个类别数最多,我们就判断新的输入实例就是哪类!


2.与该实例最近邻的k个实例,那么最近邻的衡量标准是是什么。这个最近邻的定义是通过不同距离函数来定义,我们最常用的是欧式距离。


3.为了保证每个特征同等重要性,我们这里对每个特征进行归一化。


4.k值的选取,既不能太大,也不能太小,何值为最好,需要实验调整参数确定!


原文链接:

https://mp.weixin.qq.com/s/qfHBn7YydSOOnM43Be8aTg

“完整内容”请点击【阅读原文】
↓↓↓