本文补充学习TCGA库、肿瘤知识等内容,建议先阅读
转录组数据的获取
一文,再看本文
前言
相比于非肿瘤疾病,肿瘤疾病的生信更好做,因为肿瘤可做的分析多一点。非肿瘤数据为什么没法做太多分析?以预后分析为例
①样本少:虽然肿瘤、非肿瘤疾病都能做预后分析,但肿瘤样本很多。如果分析的数据样本太少,那么构建的模型其质量可能不高
②随访数据不完善:随访需要人力、物力、财力,小机构搜集的数据与TCGA这种规模庞大的组织所搜集的数据相比,还是有些差距的
一、TCGA的肿瘤和样本
既然说TCGA数据库的样本更多,那我们来看看其中都有什么
1.TCGA里面的癌症种类有33种
图1
2.TCGA中每种癌症的样本
从泛癌矩阵中统计得出大概的样本数量如图2,发现tumor的样本数量普遍比normal的多很多,嘛……毕竟对于肿瘤数据库来说,也不太需要很多normal样本。虽然从统计学的角度而言,就这么做差异分析确实可能存在问题,无奈目前大多数情况终究选择妥协
图2
图2第18个
PAAD
及以下的那些疾病,其normal样本实在太少了,所以建议不用这些数据做差异分析
3.没有正常样本怎么做差异分析?
Xena里面normal样本足够那就继续用,实在太少了也有如下几种方法
①和Gtex联合分析
GTEx收录的是正常人各种组织的数据库。这些人是非正常死亡,即非生病死亡的,而是例如车祸死亡等。联合后的样本数量如图3
图3
简单粗暴地将TCGA的tumor和GTEx的normal合并,做批次效应后,再差异分析,这样是不行的。批次效应的解决代码不是万能的,这么做可能导致本来的差异基因全没了
其实Xena已经帮我们做过这个操作了,但这里面是泛癌大概1w8+的样本和6w+的基因,普通的电脑根本读取不了,或许要另找高人帮忙单独抽出我们想要的疾病对应的样本了
图4
②不做T-N差异分析
还有那么多分析能做,不是一定要做差异分析的
③从GEO数据库找
从GEO数据库找T-N数据做差异分析,然后得到的差异基因在TCGA里面继续分析如生存分析。GEO数据库中一些样本没有生存信息,而TCGA的优势正是如此:①多组学②生存资料和临床信息完善
二、TCGA数据获取途径
TCGA数据的下载方式一直都很凌乱,因为官方的下载方式太难了。于是衍生出很多网站、R包、工具(大概20多种方式),它们在官方网站的基础上,让下载方式变简单
1.Xena
详见
转录组数据的获取
一文,以前常用,但现在有点问题,尚未更新
此外补充一个内容:在获取数据的方法中,我们使用的是
GDC Hub
,它是与上一个TCGA版本的数据保持一致的;而图5中还有一个
TCGA Hub
,它是更早之前的数据,一般不用它