专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Dev Cell | ... ·  昨天  
生信宝典  ·  Nature | ... ·  2 天前  
生信菜鸟团  ·  计算视觉 | Nat.Methods | ... ·  2 天前  
BioArt  ·  ​Science | ... ·  3 天前  
生信人  ·  液体活检:解码生命奥秘的新希望 ·  6 天前  
51好读  ›  专栏  ›  生信菜鸟团

生存分析理论知识

生信菜鸟团  · 公众号  · 生物  · 2024-09-30 18:07

主要观点总结

本文介绍了生存分析的理论知识,包括KM-plot可视化、生存分析作图代码、常用KM-plot的原因、连续性数据的离散化和meta临床信息表格的整理。

关键观点总结

关键观点1: 生存分析简介

文章简要介绍了生存分析的理论知识,包括KM-plot和批量生存分析的基本概念。

关键观点2: KM-plot可视化

文章详细描述了KM-plot可视化的重要性,包括输入数据的准备和代码的实现。

关键观点3: 生存分析的常用原因

文章解释了为什么常用KM-plot进行生存分析,包括它是非参数估计、能直观表现生存率或死亡率、能通过组间比较获得p值等优点。

关键观点4: 连续性数据的离散化

文章介绍了如何处理连续性数据,包括根据中位数截断、根据某个具体数值截断和最佳截断值等方法。

关键观点5: meta临床信息表格的整理

文章最后强调了整理出一个包含event、time和各种临床信息的meta临床信息表格的重要性。


正文

学习笔记总结于『生信技能树』马拉松课程

本文简单了解一些生存分析的理论知识

生存分析主要就是做 KM-plot 和批量分析,根据算法的不同又分为 Log-rank批量生存分析 Cox批量生存分析

一、KM-plot

可视化的R包是现成的,所以同理差异分析,生存分析重要的也是输入数据的准备。图1两张图来源于同一个输入数据,只是参数设置的不同

横坐标时间,纵坐标生存率。对于结局是存活的人,其时间为从随访开始至最后随访时间;对于结局是死亡的人,其时间为从随访开始至死亡时间

图1

每个拐点处,即线的下降位置都意味着该时间点有人死亡。图1中那些“+”号意味着此处有病人达到了最后随访时间,至于其健康/死亡与否并不知道

图2

二、生存分析作图代码

对于临床信息、基因表达量高低、高低风险等等,它们的画图代码其实都一样。因为函数没有生物学背景可言,只要输给函数的数据符合规范,它就能计算出一个结果给我们

图3

time 为生存期,其也有很多种,如总生存期、无病生存期等等,Xena上有整理好的生存期信息

对画图代码而言,唯一需要改动的地方是如图4中的 gender ,这里是性别,可改成其他的。如果要改成年龄,需要分好组例如年龄>60为一组,≤60为另一组。分组的数量不用太多,两两比较效果较好,太多了容易显著没有意义

图4中的 time event 都是 meta 这个表格里的列名

图4

三、常用KM-plot的原因

①它是非参数估计,不要求总体一定要符合哪种分布形式。(对于临床数据而言,肯定没办法控制这些数据符合正态分布、泊松分布等等,而对于这种没有特定分布形式的数据,用带有参数的统计方法是不合适的)

②能直观地表现出两组或多组的生存率或死亡率,适合在文章中展示

③能通过组间比较:log-rank检验来得到p值,拿p值衡量两组之间的生存率的差异是否显著(如果有1w个基因,不需要画1w张KM-plot图,而是计算1w次log-rank test再进行筛选)







请到「今天看啥」查看全文