专栏名称: 医学论文与统计分析
本公众号高校医学统计学老师所设,重点介绍为临床试验方法、真实世界研究、meta分析、SPSS 教程,R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)。
目录
相关文章推荐
51好读  ›  专栏  ›  医学论文与统计分析

Zstats教程(5):相关与线性回归方法

医学论文与统计分析  · 公众号  ·  · 2025-04-03 07:47

正文

请到「今天看啥」查看全文




本篇是风暴统计平台教程系列的第五章 ,将具体介绍相关与线性回归模块的使用。


相关与线性回归方法模块包含的主要功能有:

  • 定量数据差异性分析 程: 如何开展定量数据批量差异性分析

  • 相关分析 (绘制散点图、计算相关系数)

  • 线性回归分析 (批量单因素、多因素、 逐步回归法

  • 线性回归森林图 (回归结果可视化,自动生成森林图)

涵盖了定量结局研究中统计描述、回归分析的图与表。下面我们就对各功能展开详细介绍。

图片

01

相关分析

多元线性回归分析要求自变量X与因变量Y之间存在线性关系, 可以通过 绘制散点图或者查看变量之间的相关系数 的方式进行。
风暴统计的相关分析十分简单,只需要选入 x轴变量(通常对应自变量) y轴变量(通常对应因变量)
即可得到我们相关分析的 散点图 相关系数
散点图 主要对两变量间相关关系的有无进行大致描述,并不能准确反映变量间的关系密切程度。
相关系数r 就是对两变量间关系密切程度的数学度量,主要反映了强度与方向。| r |≤1,绝对数值越靠近1,表明相关关系越密切;在相关性 P <0.05的前提下,r为负值代表负相关,r为正值代表正相关。
关于相关系数r的计算,又 分为 直线相关 秩相关
  • Pearson: 直线相关分析, 要求双变量是正态/近似正态定量变量,散点图不存在线性趋势时需使用秩相关。
  • Spearman: 秩相关分析, 要求双变量定量或等级,一般倾向用于至少一个变量为偏态或等级变量的关联分析。
  • Kendall: 专用于两等级变量间的相关分析,结果与秩相关近似。
更多"相关分析"统计知识可以参考下方推文/视频:
相关分析方法介绍
B站搜索: "郑老师讲统计" 账号,30天SPSS课程合集-- Day15

除此之外,平台还支持以下细节调整: 是否计算相关系数 是否拟合趋势线 自定义散点图各部分颜色

02

线性回归分析

确认X与Y之间的线性关系后,来到回归分析界面, 首先, 选入我们研究的因变量、自变量
其次,选择自变量的筛选方式 ,包括P阈值,回归方法。
P阈值 决定了单因素分析时,P值小于多少会进入多因素回归。一般为0.05,当进入多因素回归的变量过少时,也可以放宽要求,0.1,0.2也是可以的。
回归方法 大致有三类,先单后多法,逐步回归法,根据P<0.05筛选
  • 先单后多法(是否开展逐步回归选"否") ,根据单因素回归的P阈值限制变量进入多因素模型。当P阈值选择不限制时,单因素的全部变量进入多因素回归。
  • 逐步回归法 ,分为双向、向前、向后。对符合P阈值要求的变量开展逐步回归。
  • 根据P<0.05筛选 ,本质上也是一种逐步回归,可以保证最终多因素模型中的每个变量 P <0.05。

为什么选择逐步回归?

①自动化特征选择: 在自变量数量较多的情况下,逐步回归能够高效地筛选出对因变量有显著影响的特征,减少人为选择的主观性。

②处理多重共线性: 通过选择变量组合,逐步回归有助于减少自变量之间的多重共线性问题。

③提高模型解释性: 通过剔除不显著的变量,模型变得更加简洁,便于解释和理解。

④防止过拟合: 通过限制自变量数量,逐步回归有助于降低模型的复杂度,减少过拟合风险。

不过,逐步回归更推荐用在构建预测模型研究中,常见的影响因素研究,使用先单后多就够了。


完成选择后,就得到我们单因素与多因素分析的结果了。
结果参数说明:
①S.E: 回归系数的抽样误差,即标准误
②t: 是各个回归系数进行假设检验的统计量,线性回归检验统计量为t值
③P: 小于0.05,说明自变量与因变量回归关系成立。
β(95%CI): 与首列β对应,代表回归系数及95%置信区间。
Intercept: 仅出现在多因素回归结果中,代表截距。

结果解读:
  • 协变量_年龄:P<0.001,年龄是骨密度的影响因素。β=-0.01说明年龄每增加1岁,则结局骨密度平均降低0.01;
  • 协变量_饮酒:P<0.001,饮酒是骨密度的危险因素。β=0.05说明由No变化为Yes,结局骨密度平均变化0.05,即饮酒与不饮酒相比,骨密度要低0.05。
最后,可以调整小数位数,默认情况下,P值保留3位小数,其他保留2位小数。
完成后可以直接下载三线表格,支持excel版与word版!
这里再拓展一下平台的R语言原始输出结果,主要用于 残差与共线性诊断
1.R语言的原始输出结果
风暴统计是基于R语言搭建的,这里给出了原始的输出结果,像是95%置信区间是没有直接给出的,需要根据Estimate、Std.Ettor自行计算。
2.回归分析残差图
①Residuals vs Fitted(残差图域拟合图): 判断残差是否具有线性关系。一般 散点随机分布在虚线上下,认为自变量和因变量之间是线性关系。
②Q-Q Residuals( 残差 Q-Q 图): 判断残差是否呈正态分布。 若符合正态分布,则散点会在比较好的集中在对角线上。
③Scale-Location(位置尺度图) 判断残差是否符合方差齐性原则。 若符合方差齐性原则,则黑色散点会随机分布在水平线两侧。
④Residuals vs Leverage(残差与杠杆图): 判断离群点、高杠杆值与强影响点。
3.VIF
这里可以用于模型中自变量间共线性的诊断。优先根据修正后的值(GVIF^(1/(2*Df)))决策,尤其是对分类变量。
  • ≥2 :需警惕共线性(保守阈值)

  • ≥3.16 (即√10):明确存在共线性

03

线性回归森林图

这里提供了线性回归结果的单因素、多因素森林图,对三线表结果增加了可视化转换。
左侧还设置了对应一系列菜单栏,可以对图形的各个方面进行自定义调整。
点估计与置信区间设置 选择森林的变量 其他颜色设置, 主要是对图像显示内容与各部分样式进行修改, 鼓励 大家多尝试进行了解。
坐标轴与标签设置 ,这里重点标注了2个地方,大家可以关注一下。
  • 字号 ,当我们的森林图因为变量过多而显示不完全时,可以通过调整字号大小,来使图像显示完整。
  • X轴设置 ,当因为置信区间过宽或过窄,导致图像中的点估计与参考线显示不全面时,可以通过限制x轴范围或者进行转换,使图像显示更加匀称美观。
最后,可以将编辑好的森林图下载下来,支持pdf、jpeg、pnd、tiff格式, 推荐下载pdf格式,可以对图像中的文字进行编辑。
温馨提示: 如果下载的图像显示不完全 ,可以将曲线页面由A4调整为自定义,设置合适的长和宽之后再进行下载。
以上就是关于风暴统计平台 相关与线性回归方法模块 的详细教程。

下篇预告:Zstats风暴统计教程(6):线性回归控制混杂偏倚


图片






图片

郑重声明

Zstats-AI 平台

浙中医大统计老师郑卫军主持

√ 基于R语言软件开发

免费 使用,无需注册直接使用

√ 一键生成发表级图表


www.medsta.cn/software

(电脑端浏览器打开)







请到「今天看啥」查看全文