专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
宝玉xp  ·  o1 pro API ... ·  12 小时前  
人工智能产业链union  ·  Manus平替方案二:AutoGPT ... ·  昨天  
人工智能产业链union  ·  Manus平替方案二:AutoGPT ... ·  昨天  
宝玉xp  ·  NotebookLM 的播客功能也集成到 ... ·  昨天  
51好读  ›  专栏  ›  机器学习研究会

干货|【西瓜书】周志华《机器学习》学习笔记与习题探讨(二)①

机器学习研究会  · 公众号  · AI  · 2017-09-22 22:22

正文

〖一、知识点归纳〗


1

经验误差与过拟合



【分类】 :对是 离散值 的结果进行预测。

【回归】 :对是 连续值 的结果进行预测。

分类和回归属于 监督学习


【错误率】 :分类错误的样本数占样本总数的比例。

eg:m个样本中有a个样本分类错误,则错误率

【精度】 :分类正确的样本数占样本总数的比例。即:精度=1-错误率。

eg:m个样本中有m-a个样本分类正确,则精度


【误差】 :学习器的实际预测输出与样本的真实输出之间的差异。

eg:1000个西瓜中,好瓜有400个,但学习器预测有500个,这之间的差异就是误差。

【训练误差、经验误差】 :学习器在训练集上的误差。

值得一提的事, 学习器就是在训练集上训练出来的,但实际上在回到训练集上对样本进行结果预测时,仍有误差。 (即结果值和标记值不同)


下面看quora的一个回答

https://www.quora.com/What-is-a-training-and-test-error


Training error is the error that you get when you run the trained model back on the training data. Remember that this data has already been used to train the model and this necessarily doesn’t mean that the model once trained will accurately perform when applied back on the training data itself.


eg:100000个用来得出学习器的西瓜在学习器中进行分类测试,发现有10000个西瓜分类错误。则分类错误率为10%,分类精度为90%


【泛化误差】 :学习器在新样本上的误差。

eg:100个新西瓜,使用学习器分类,分类错误的有20个。则分类错误率为20%,精度为80%。


希望 :得到 泛化误差最小 的学习器。

实际能做的 :努力使经验误差最小化。

注意 :努力使经验误差最小化≠让经验误差达到最小值即训练集的分类错误率为0%。

因为在训练集上表现很好的学习器,泛化能力却并不强。


【过拟合】 :学习能力过于强大。学习器把训练样本学得太好,导致将训练样本中自身含有的特点当成所有潜在样本都会具有的一般性质,从而训练后使得泛化性能下降。


eg:100000个用来得出学习器的西瓜都是球形瓜,训练出的决策树判断只有瓜是球形才可能是好瓜,但实际上市场上培养的方形瓜也是好瓜,这就让训练出的决策树在面对方形瓜时的泛化能力变得很差。


【欠拟合】 :学习能力底下。对训练样本的一般性质尚未学好。

eg:色泽是判断瓜是否是好瓜的重要标准,但经过训练得到的决策树却没有对色泽进行判断的步骤。


所以 实际能做的 :努力使经验误差最小化,是指在“过拟合”与“欠拟合”之间寻找一种平衡,并尽可能的使学习器在不太过拟合的情况下使得训练集的分类更准确。


任何学习算法都有针对过拟合的措施,但过拟合是无法完全避免的。


【多项式时间(Polynomial time)】 :在计算复杂度理论中,指的是一个问题的计算时间 m ( n )不大于问题大小 n 的多项式倍数。任何抽象机器都拥有一复杂度类,此类包括可于此机器以多项式时间求解的问题。







请到「今天看啥」查看全文