导语
都说统计难,其实常规的统计还算简单,下面介绍10种生物医药常用统计分析方法,以供读者讨论。
统计描述法是指对统计数据进行特征描述,大家记住 6 个指标就可以了。其中数值变量 4 个指标(均数,标准差,中位数,四分位数间距),分类变量 2 个指标(率和构成比)。
如果用统计图描述的话,直方图和柱状图可以分别描述数值和分类变量。
t 检验是基于 t 分布的,t 检验主要用于两个总体均数的比较,具体类型包括单样本t检验、配对样本 t 检验和两独立样本 t 检验。t检验的条件为独立、正态和方差齐。单样本 t 为正态性,配对 t 为差值符合正态,两独立 t 为两组独立、正态和方差齐。条件不符合,可以采用非参数检验进行替代。
方差分析称为 F 检验,为 R.A Fisher 提出,基于 F 分布的统计分析方法。F 检验主要用于多组(K>2)数值变量资料的比较,条件为独立、正态和方差齐。
目前方差分析一共有 10 种(单因素方差分析、随机区组设计方差分析、析因设计方差分析、交叉设计方差分析、裂区设计方差分析、嵌套设计方差分析、重复测量数据方差分析、正交设计方差分析、拉丁方设计方差分析和星点设计方差分析),如果你都玩过一遍,呵呵,你就是专家了!
前面的 t 和 F 都是针对数值变量的,分类变量组间比较采用的方法常用为卡方检验。卡方检验包括 3 大类(成组四格表、配对四格表和R×C表),细分为 7 种(成组四格表、配对四格表、双向无序R×C、单向有序行有序R×C、单向有序列有序R×C、双向有序属性相同与双向有序属性不同),每种都有自身的条件,不符合时还需找替代方案。
非参数检验适用范围广于参数检验,上面所言的t和F都是参数检验,参数检验对总体的分布有要求,不符合时检验采用非参数,非参数是一大类方法,SPSS 中包括 8 种方法。
前面所研究的统计方法,只考虑组间结局发生率的比较,然而并没有考虑结局发生的时间,比如 A 医生治疗某病有效率 50%,B 医生有效率 80%,感觉 B 医生可能好些,但 A 医生的50%有时1周,B 医生80%用时半年,此时两者的疗效似乎不太好定论。生存分析就是不仅考虑事件结局还考虑结局发生时间的统计分析方法。
生存分析常用方法包括寿命表法(单组频数表资料大样本)、Kaplan-meier(多组小样本资料比较)和Cox回归法(多因素分析法,理解上类似于Logistic回归)
诊断试验是临床上用于制定诊断界值的方法,也广泛用于其他领域。以灵敏度为纵轴,1-特异度为横轴,做出的受试工作者曲线,根据曲线下面积的大小(AUC)筛选指标,并计算正确指数以确定截断值(Cut off point)。
前面的t、F、卡方和非参数均是比较组间的差异,并没有考虑到因素之间的关系,线性回归是考虑影响因素与结局变量之间关系的分析方法,分为一元线性回归和多重线性回归。
数据就像人类一样,关系很复杂,线性回归没有金标准,只有回归建模的策略。条件为线性、独立性、正态性和等方差性。多重回归需考虑多重共线性。并对残差进行诊断和异常值判别。
上面线性回归的因变量为数值变量,当因变量为分类变量时,将不再符合正态性的要求,因此采用Logit变换的方式,以LogitP为因变量再次进行线性回归。
Logistic回归分为二元Logistic回归、有序Logistic和多项Logistic回归,最重要为二元Logistic回归,掌握二元其他均易掌握。
聚类分析的思想其实就是“人以类聚,物以群分”。数据之间的关系远近采用的是空间的距离算法,对于数值变量最常采用的就是平方欧氏距离。根据距离的远近,可以对样本或者变量进行空间聚类。
注意一点,聚类分析是没有模型的,上面线性回归或Logistic回归以及COX回归都可以写出模型,聚类分析只是根据距离远近进行排名划线,没有模型。
上面10种最为常用,如果再加的话,还有判别分析、主成分和因子也较常用。
本文来源:精鼎数据分析联盟,转发仅为大家交流学习,如无意侵犯版权,请联系小编删除。