专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Nat Microbiol | ... ·  3 天前  
生信人  ·  液体活检:解码生命奥秘的新希望 ·  6 天前  
51好读  ›  专栏  ›  生信菜鸟团

TCGA数据库背景介绍

生信菜鸟团  · 公众号  · 生物  · 2024-09-23 18:28

正文

学习笔记总结于『生信技能树』马拉松课程

本文补充学习TCGA库、肿瘤知识等内容,建议先阅读 转录组数据的获取 一文,再看本文

前言

相比于非肿瘤疾病,肿瘤疾病的生信更好做,因为肿瘤可做的分析多一点。非肿瘤数据为什么没法做太多分析?以预后分析为例

①样本少:虽然肿瘤、非肿瘤疾病都能做预后分析,但肿瘤样本很多。如果分析的数据样本太少,那么构建的模型其质量可能不高

②随访数据不完善:随访需要人力、物力、财力,小机构搜集的数据与TCGA这种规模庞大的组织所搜集的数据相比,还是有些差距的

一、TCGA的肿瘤和样本

既然说TCGA数据库的样本更多,那我们来看看其中都有什么

1.TCGA里面的癌症种类有33种

图1

2.TCGA中每种癌症的样本

从泛癌矩阵中统计得出大概的样本数量如图2,发现tumor的样本数量普遍比normal的多很多,嘛……毕竟对于肿瘤数据库来说,也不太需要很多normal样本。虽然从统计学的角度而言,就这么做差异分析确实可能存在问题,无奈目前大多数情况终究选择妥协

图2

图2第18个 PAAD 及以下的那些疾病,其normal样本实在太少了,所以建议不用这些数据做差异分析

3.没有正常样本怎么做差异分析?

Xena里面normal样本足够那就继续用,实在太少了也有如下几种方法

①和Gtex联合分析

GTEx收录的是正常人各种组织的数据库。这些人是非正常死亡,即非生病死亡的,而是例如车祸死亡等。联合后的样本数量如图3

图3

简单粗暴地将TCGA的tumor和GTEx的normal合并,做批次效应后,再差异分析,这样是不行的。批次效应的解决代码不是万能的,这么做可能导致本来的差异基因全没了

其实Xena已经帮我们做过这个操作了,但这里面是泛癌大概1w8+的样本和6w+的基因,普通的电脑根本读取不了,或许要另找高人帮忙单独抽出我们想要的疾病对应的样本了

图4

②不做T-N差异分析

还有那么多分析能做,不是一定要做差异分析的

③从GEO数据库找

从GEO数据库找T-N数据做差异分析,然后得到的差异基因在TCGA里面继续分析如生存分析。GEO数据库中一些样本没有生存信息,而TCGA的优势正是如此:①多组学②生存资料和临床信息完善

二、TCGA数据获取途径

TCGA数据的下载方式一直都很凌乱,因为官方的下载方式太难了。于是衍生出很多网站、R包、工具(大概20多种方式),它们在官方网站的基础上,让下载方式变简单

1.Xena

详见 转录组数据的获取 一文,以前常用,但现在有点问题,尚未更新

此外补充一个内容:在获取数据的方法中,我们使用的是 GDC Hub ,它是与上一个TCGA版本的数据保持一致的;而图5中还有一个 TCGA Hub ,它是更早之前的数据,一般不用它







请到「今天看啥」查看全文