本篇是风暴统计平台教程系列的第五章
,将具体介绍相关与线性回归模块的使用。
相关与线性回归方法模块包含的主要功能有:
-
定量数据差异性分析
(
教
程:
如何开展定量数据批量差异性分析
)
-
相关分析
(绘制散点图、计算相关系数)
-
线性回归分析
(批量单因素、多因素、
逐步回归法
)
-
线性回归森林图
(回归结果可视化,自动生成森林图)
涵盖了定量结局研究中统计描述、回归分析的图与表。下面我们就对各功能展开详细介绍。
多元线性回归分析要求自变量X与因变量Y之间存在线性关系,
可以通过
绘制散点图或者查看变量之间的相关系数
的方式进行。
风暴统计的相关分析十分简单,只需要选入
x轴变量(通常对应自变量)
、
y轴变量(通常对应因变量)
。
散点图
主要对两变量间相关关系的有无进行大致描述,并不能准确反映变量间的关系密切程度。
而
相关系数r
就是对两变量间关系密切程度的数学度量,主要反映了强度与方向。| r |≤1,绝对数值越靠近1,表明相关关系越密切;在相关性
P
<0.05的前提下,r为负值代表负相关,r为正值代表正相关。
关于相关系数r的计算,又
分为
直线相关
与
秩相关
:
-
Pearson:
直线相关分析,
要求双变量是正态/近似正态定量变量,散点图不存在线性趋势时需使用秩相关。
-
Spearman:
秩相关分析,
要求双变量定量或等级,一般倾向用于至少一个变量为偏态或等级变量的关联分析。
-
Kendall:
专用于两等级变量间的相关分析,结果与秩相关近似。
B站搜索:
"郑老师讲统计"
账号,30天SPSS课程合集--
Day15
|
除此之外,平台还支持以下细节调整:
是否计算相关系数
、
是否拟合趋势线
、
自定义散点图各部分颜色
。
确认X与Y之间的线性关系后,来到回归分析界面,
首先,
选入我们研究的因变量、自变量
。
其次,选择自变量的筛选方式
,包括P阈值,回归方法。
P阈值
决定了单因素分析时,P值小于多少会进入多因素回归。一般为0.05,当进入多因素回归的变量过少时,也可以放宽要求,0.1,0.2也是可以的。
回归方法
大致有三类,先单后多法,逐步回归法,根据P<0.05筛选
。
-
先单后多法(是否开展逐步回归选"否")
,根据单因素回归的P阈值限制变量进入多因素模型。当P阈值选择不限制时,单因素的全部变量进入多因素回归。
-
逐步回归法
,分为双向、向前、向后。对符合P阈值要求的变量开展逐步回归。
-
根据P<0.05筛选
,本质上也是一种逐步回归,可以保证最终多因素模型中的每个变量
P
<0.05。
为什么选择逐步回归?
①自动化特征选择:
在自变量数量较多的情况下,逐步回归能够高效地筛选出对因变量有显著影响的特征,减少人为选择的主观性。
②处理多重共线性:
通过选择变量组合,逐步回归有助于减少自变量之间的多重共线性问题。
③提高模型解释性:
通过剔除不显著的变量,模型变得更加简洁,便于解释和理解。
④防止过拟合:
通过限制自变量数量,逐步回归有助于降低模型的复杂度,减少过拟合风险。
不过,逐步回归更推荐用在构建预测模型研究中,常见的影响因素研究,使用先单后多就够了。
|
完成选择后,就得到我们单因素与多因素分析的结果了。
②t:
是各个回归系数进行假设检验的统计量,线性回归检验统计量为t值
③P:
小于0.05,说明自变量与因变量回归关系成立。
④
β(95%CI):
与首列β对应,代表回归系数及95%置信区间。
⑤
Intercept:
仅出现在多因素回归结果中,代表截距。
|
-
协变量_年龄:P<0.001,年龄是骨密度的影响因素。β=-0.01说明年龄每增加1岁,则结局骨密度平均降低0.01;
-
协变量_饮酒:P<0.001,饮酒是骨密度的危险因素。β=0.05说明由No变化为Yes,结局骨密度平均变化0.05,即饮酒与不饮酒相比,骨密度要低0.05。
最后,可以调整小数位数,默认情况下,P值保留3位小数,其他保留2位小数。
完成后可以直接下载三线表格,支持excel版与word版!
这里再拓展一下平台的R语言原始输出结果,主要用于
残差与共线性诊断
:
风暴统计是基于R语言搭建的,这里给出了原始的输出结果,像是95%置信区间是没有直接给出的,需要根据Estimate、Std.Ettor自行计算。
①Residuals vs Fitted(残差图域拟合图):
判断残差是否具有线性关系。一般
散点随机分布在虚线上下,认为自变量和因变量之间是线性关系。
②Q-Q Residuals(
残差
Q-Q 图):
判断残差是否呈正态分布。
若符合正态分布,则散点会在比较好的集中在对角线上。
③Scale-Location(位置尺度图)
:
判断残差是否符合方差齐性原则。
若符合方差齐性原则,则黑色散点会随机分布在水平线两侧。
④Residuals vs Leverage(残差与杠杆图):
判断离群点、高杠杆值与强影响点。
这里可以用于模型中自变量间共线性的诊断。优先根据修正后的值(GVIF^(1/(2*Df)))决策,尤其是对分类变量。
-
≥2
:需警惕共线性(保守阈值)
-
≥3.16
(即√10):明确存在共线性
这里提供了线性回归结果的单因素、多因素森林图,对三线表结果增加了可视化转换。
左侧还设置了对应一系列菜单栏,可以对图形的各个方面进行自定义调整。
点估计与置信区间设置
、
选择森林的变量
、
其他颜色设置,
主要是对图像显示内容与各部分样式进行修改,
鼓励
大家多尝试进行了解。
坐标轴与标签设置
,这里重点标注了2个地方,大家可以关注一下。
-
字号
,当我们的森林图因为变量过多而显示不完全时,可以通过调整字号大小,来使图像显示完整。
-
X轴设置
,当因为置信区间过宽或过窄,导致图像中的点估计与参考线显示不全面时,可以通过限制x轴范围或者进行转换,使图像显示更加匀称美观。
最后,可以将编辑好的森林图下载下来,支持pdf、jpeg、pnd、tiff格式,
推荐下载pdf格式,可以对图像中的文字进行编辑。
温馨提示:
如果下载的图像显示不完全
,可以将曲线页面由A4调整为自定义,设置合适的长和宽之后再进行下载。
以上就是关于风暴统计平台
相关与线性回归方法模块
的详细教程。
下篇预告:Zstats风暴统计教程(6):线性回归控制混杂偏倚
Zstats-AI 平台
√
浙中医大统计老师郑卫军主持
√ 基于R语言软件开发
√
免费
使用,无需注册直接使用
√ 一键生成发表级图表
www.medsta.cn/software
(电脑端浏览器打开)