专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  【[245星]PurrCrypt:用可爱的猫 ... ·  13 小时前  
云头版  ·  DeepSeek 部署大单,运营商们冲啊! ·  15 小时前  
爱可可-爱生活  ·  LADDER:LLM自我进阶的递归问题分解法 ... ·  昨天  
爱可可-爱生活  ·  【a0.dev:用AI快速构建移动应用,无需 ... ·  昨天  
数字进化岛  ·  打不过就封号?中国 AI ... ·  3 天前  
数字进化岛  ·  打不过就封号?中国 AI ... ·  3 天前  
51好读  ›  专栏  ›  机器学习研究会

干货| 台湾大学林轩田机器学习基石课程学习笔记8 -- Noise and Error

机器学习研究会  · 公众号  · AI  · 2017-09-10 21:08

正文

台大机器学习课程学习笔记 8

Noise and Error


上一节课,我们主要介绍了VC Dimension的概念。如果Hypotheses set的VC Dimension是有限的,且有足够多N的资料,同时能够找到一个hypothesis使它的 那么就能说明 机器学习 是可行的。本节课主要讲了数据集有Noise的情况下,是否能够进行机器学习,并且介绍了假设空间H下演 算法 A的Error估计。



1

Noise and  Probablistic target



上节课推导VC Dimension的数据集是在没有Noise的情况下,本节课讨论如果数据集本身存在Noise,那VC Dimension的推导是否还成立呢?


首先,Data Sets的Noise一般有三种情况:


  • 由于人为因素,正类被误分为负类,或者负类被误分为正类;


  • 同样特征的样本被模型分为不同的类;


  • 样本的特征被错误记录和使用。

之前的数据集是确定的,即没有Noise的,我们称之为Deterministic。现在有Noise了,也就是说在某点处不再是确定分布,而是概率分布了,即对每个(x,y)出现的概率是 P ( y | x )


因为Noise的存在,比如在x点,有0.7的概率y=1,有0.3的概率y=0,即y是按照 P ( y | x ) 分布的。数学上可以证明如果数据集按照 P ( y | x )概率分布且是iid的,那么以前证明机器可以学习的方法依然奏效,VC Dimension有限即可推断E out 和E in 是近似的。

P ( y | x ) 称之为目标分布(Target Distribution)。它实际上告诉我们最好的选择是什么,同时伴随着多少noise。其实,没有noise的数据仍然可以看成“特殊”的 P ( y | x )概率分布,即概率仅是1和0.对于以前确定的数据集:

P(y|x) =1 , f or y =f (x)

P(y|x) =0 , f or y ≠f (x)

在引入noise的情况下,新的学习流程图如下所示:



2

ERROR Measure



机器学习需要考虑的问题是找出的矩g与目标函数f有多相近,我们一直使用 E out 进行误差的估计,那一般的错误测量有哪些形式呢?


我们介绍的矩g对错误的衡量有三个特性:


  • out-of-sample:样本外的未知数据


  • pointwise:对每个数据点x进行 测试


  • classification:看prediction与target是否一致,classification error通常称为0/1 error



PointWise error实际上就是对数据集的每个点计算错误并计算平均, E in E out







请到「今天看啥」查看全文