本文介绍了生存分析的理论知识,包括KM-plot可视化、生存分析作图代码、常用KM-plot的原因、连续性数据的离散化和meta临床信息表格的整理。
文章解释了为什么常用KM-plot进行生存分析,包括它是非参数估计、能直观表现生存率或死亡率、能通过组间比较获得p值等优点。
文章最后强调了整理出一个包含event、time和各种临床信息的meta临床信息表格的重要性。
生存分析主要就是做
KM-plot
和批量分析,根据算法的不同又分为
Log-rank批量生存分析
和
Cox批量生存分析
一、KM-plot
可视化的R包是现成的,所以同理差异分析,生存分析重要的也是输入数据的准备。图1两张图来源于同一个输入数据,只是参数设置的不同
横坐标时间,纵坐标生存率。对于结局是存活的人,其时间为从随访开始至最后随访时间;对于结局是死亡的人,其时间为从随访开始至死亡时间
图1
每个拐点处,即线的下降位置都意味着该时间点有人死亡。图1中那些“+”号意味着此处有病人达到了最后随访时间,至于其健康/死亡与否并不知道
图2
二、生存分析作图代码
对于临床信息、基因表达量高低、高低风险等等,它们的画图代码其实都一样。因为函数没有生物学背景可言,只要输给函数的数据符合规范,它就能计算出一个结果给我们
图3
time
为生存期,其也有很多种,如总生存期、无病生存期等等,Xena上有整理好的生存期信息
对画图代码而言,唯一需要改动的地方是如图4中的
gender
,这里是性别,可改成其他的。如果要改成年龄,需要分好组例如年龄>60为一组,≤60为另一组。分组的数量不用太多,两两比较效果较好,太多了容易显著没有意义
图4中的
time
、
event
都是
meta
这个表格里的列名
图4
三、常用KM-plot的原因
①它是非参数估计,不要求总体一定要符合哪种分布形式。(对于临床数据而言,肯定没办法控制这些数据符合正态分布、泊松分布等等,而对于这种没有特定分布形式的数据,用带有参数的统计方法是不合适的)
②能直观地表现出两组或多组的生存率或死亡率,适合在文章中展示
③能通过组间比较:log-rank检验来得到p值,拿p值衡量两组之间的生存率的差异是否显著(如果有1w个基因,不需要画1w张KM-plot图,而是计算1w次log-rank test再进行筛选)