专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Sci Immuno | ... ·  23 小时前  
BioArt  ·  会议预告 | SMART ... ·  2 天前  
BioArt  ·  Nat Methods | ... ·  3 天前  
BioArt  ·  专家点评 ... ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

生存分析理论知识

生信菜鸟团  · 公众号  · 生物  · 2024-09-30 18:07

正文

学习笔记总结于『生信技能树』马拉松课程

本文简单了解一些生存分析的理论知识

生存分析主要就是做KM-plot和批量分析,根据算法的不同又分为Log-rank批量生存分析Cox批量生存分析

一、KM-plot

可视化的R包是现成的,所以同理差异分析,生存分析重要的也是输入数据的准备。图1两张图来源于同一个输入数据,只是参数设置的不同

横坐标时间,纵坐标生存率。对于结局是存活的人,其时间为从随访开始至最后随访时间;对于结局是死亡的人,其时间为从随访开始至死亡时间

图1

每个拐点处,即线的下降位置都意味着该时间点有人死亡。图1中那些“+”号意味着此处有病人达到了最后随访时间,至于其健康/死亡与否并不知道

图2

二、生存分析作图代码

对于临床信息、基因表达量高低、高低风险等等,它们的画图代码其实都一样。因为函数没有生物学背景可言,只要输给函数的数据符合规范,它就能计算出一个结果给我们

图3

time为生存期,其也有很多种,如总生存期、无病生存期等等,Xena上有整理好的生存期信息

对画图代码而言,唯一需要改动的地方是如图4中的gender,这里是性别,可改成其他的。如果要改成年龄,需要分好组例如年龄>60为一组,≤60为另一组。分组的数量不用太多,两两比较效果较好,太多了容易显著没有意义

图4中的timeevent都是meta这个表格里的列名

图4

三、常用KM-plot的原因

①它是非参数估计,不要求总体一定要符合哪种分布形式。(对于临床数据而言,肯定没办法控制这些数据符合正态分布、泊松分布等等,而对于这种没有特定分布形式的数据,用带有参数的统计方法是不合适的)

②能直观地表现出两组或多组的生存率或死亡率,适合在文章中展示

③能通过组间比较:log-rank检验来得到p值,拿p值衡量两组之间的生存率的差异是否显著(如果有1w个基因,不需要画1w张KM-plot图,而是计算1w次log-rank test再进行筛选)

四、连续性数据需要离散化

对于连续性数据,例如年龄,我们无法做到1岁一个组、2岁一个组等等……于是可以将其离散化,直接的办法即分成两段即可

①根据中位数截断 ②根据某个具体的数值截断(按经验取值) ③最佳截断值(以结果为导向,哪个数值对自己结果有利,或许可以考虑就用哪个值)

五、meta临床信息表格

最后我们需要整理出一个如图5的表格,其中包含eventtime和各种临床信息

图5


谢谢观看