专栏名称: 生活统计学
平台致力于将统计学基础与生活实例联系起来,带大家走进生活统计学的世界。介绍统计软件SPSS/SAS/Minitab的生活统计运用技巧。
目录
相关文章推荐
人民网舆情数据中心  ·  《城市综合体的品牌影响力构建路径及策略研究》发布 ·  2 天前  
人民网舆情数据中心  ·  2024年中国5G发展大会在上海举行、广电总 ... ·  2 天前  
人民网舆情数据中心  ·  倒计时1天!网络舆情分析师(中级)线上研修班 ... ·  1 周前  
人民网舆情数据中心  ·  2024岁末年初 潜在舆情风险前瞻 ·  1 周前  
人民网舆情数据中心  ·  倒计时3天!2024乡村振兴大会平行论坛—— ... ·  1 周前  
51好读  ›  专栏  ›  生活统计学

SPSS分析技术:ROC曲线的作用及制作;想学什么知识点,就推送什么知识点,推送内容由你们来定

生活统计学  · 公众号  ·  · 2017-06-09 21:26

正文

在介绍二元Logistic回归分析时,我们介绍了关于判断逻辑回归模型的拟合效果,通常采用的判断指标有三种:1、对数似然值和伪决定系数;2、模型预测正确率分类表;3、ROC曲线;由于很多朋友对于如何采用SPSS软件制作ROC曲线有需求,下面就针对ROC曲线的内容写一篇推送。以后大家有想要学习的知识点需求,可以在文章下方留言,草堂君老师将尽量满足。


预测正确率表的缺陷

在介绍ROC曲线之前,有必要回顾一下判断模型效果的指标之一:预测正确率表。如下图所示,这是文章SPSS分析技术:逻辑回归中自变量的筛选方法;筛选方法不同,结果完全两样!中的分析结果。

每一行的结果是实际发生的个案情况;每一列的结果则是通过模型计算得到的概率结果,然后作出的判断。例如上面的表格;正常体重婴儿的实际数量是119+11=130人,而通过模型预测的结果是有119个婴儿被准确判断,有11个婴儿被错误判断成低出生体重婴儿。那么以上结果是怎么得到的呢?如下图所示:

在曲线回归对话框中,点击【保存】按钮,选中预测值的概率和组成员,软件将会把模型对于阳性结果发生的概率和判定类别结果保存成新变量。而判定分类结果的分界概率值的设置在【选项】按钮中,如下图所示:

这样就得到了模型预测正确率分类表。以上过程存在一个特点,那就是分类分界值不同,最后得到的模型预测正确率分类表结果也将发生巨大的变化,那么怎么选择分类分界概率值呢?这就需要用到ROC曲线,ROC曲线将会告诉你到底那个分界值是最合理的。


ROC曲线的概念

因此模型判定结果是正常还是低出生体重的标准是模型计算得到的估计概率,SPSS软件默认预测概率大于0.5的结果为阳性,在我们这个案例中阳性结果就是低出生体重。显而易见,划分阳性的概率临界值被设定为0.5和0.9的含义是完全不同的,但最终的预测表格结果仅显示划定完类别的结果,损失大量的信息。在学习ROC曲线制作前,还需要介绍几个ROC曲线涉及到的基本概念。


我们希望得到的结果是真阳性概率越大越好,假阳性概率越小越好。如下图所示,ROC曲线的纵轴为真阳性概率(灵敏度),横轴为假阳性概率(1-特异性)。最优模型的ROC曲线应该是红色那条,最优的点应该是左上角,真阳性概率100%,假阳性概率0%。无效模型的ROC曲线是绿色线,也就是真阳性概率和假阳性概率都只有50%,是随机分布的。实际模型的ROC曲线会在红色和绿色线之间。上文案例的模型ROC曲线是蓝色线。实际模型的ROC曲线越接近红色线,模型效果越好。

在上图的案例中,我们设置的分类概率为0.5,也就是当模型计算得到的孕妇生出低体重婴儿的概率(阳性概率)大于0.5时,将会把该名孕妇划入低出生体重类别中。模型最终的分类预测结果:只有30.5%的生出低体重婴儿的孕妇被成功预测;于此同时,生出正常体重婴儿的孕妇中有8.5%被错误判断会生出低体重婴儿。观察ROC曲线可以发现,提高真阳性概率的代价是假阳性的概率也会增大,因此分析者需要根据自己的实际预测情况,在增加真阳性概率或减少假阳性概率两个果实中有倾向性的保证一个,然后根据ROC曲线选择有利于预测的分类概率。


案例分析:ROC曲线制作

我们依旧采用上面列举的低出生体重婴儿模型的数据。如下图所示,经过文章     的分析过程以后,得到两个新的变量PRE_1(模型预测概率)和PGR_1(模型预测分类)。还有就是要注意“是否低体重”这个变量是实际的婴儿体重分类情况。

(例题数据文件已经上传到QQ群,群号请见文章底部温馨提示)


分析步骤

选择菜单【分析】-【ROC曲线】,在ROC曲线对话框中,将通过逻辑回归分析得到的阳性结果预测概率变量选入检验变量框中;将实际婴儿的体重分类情况选入状态变量框;状态变量值填写1,因为前面逻辑模型中预测概率就是1的概率,这里的1代表低出生体重婴儿。点击确定,输出结果。


结果解释

1、ROC曲线结果。如何看ROC曲线上面已经讲过,这里就不在赘述。


2、ROC曲线坐标点。该表格输出的是选定不同的分界概率值,在ROC曲线上对应的敏感度(真阳性概率)和1-特异性(假阳性概率)的值。结合ROC曲线和曲线坐标表结果,就可以选择合适的分界概率点。


所有例题的数据文件都会上传到QQ群中,需要对照练习的朋友可以前往下载,QQ群号见下方温馨提示。


温馨提示:

  • 生活统计学QQ群:134373751,用于分享文章提到的各种案例资料、软件、数据文件等。支持各种资料的直接下载和百度云盘下载。

  • 生活统计学微信交流群,用于各自行业的数据研究项目及其成果交流分享;由于人数大于100人,请添加微信possitive2,拉您入群。

  • 数据分析咨询,请点击首页下方“互动咨询”板块,获取咨询流程!

  • SPSS教学视频,添加草堂君微信(possitive)索取。