TCGA数据库背景介绍

生信菜鸟团 · 公众号 · 生物 · 2024-09-23 18:28

正文

学习笔记总结于『生信技能树』马拉松课程

本文补充学习TCGA库、肿瘤知识等内容，建议先阅读转录组数据的获取一文，再看本文

相比于非肿瘤疾病，肿瘤疾病的生信更好做，因为肿瘤可做的分析多一点。非肿瘤数据为什么没法做太多分析？以预后分析为例

①样本少：虽然肿瘤、非肿瘤疾病都能做预后分析，但肿瘤样本很多。如果分析的数据样本太少，那么构建的模型其质量可能不高

②随访数据不完善：随访需要人力、物力、财力，小机构搜集的数据与TCGA这种规模庞大的组织所搜集的数据相比，还是有些差距的

既然说TCGA数据库的样本更多，那我们来看看其中都有什么

从泛癌矩阵中统计得出大概的样本数量如图2，发现tumor的样本数量普遍比normal的多很多，嘛……毕竟对于肿瘤数据库来说，也不太需要很多normal样本。虽然从统计学的角度而言，就这么做差异分析确实可能存在问题，无奈目前大多数情况终究选择妥协

图2第18个 PAAD 及以下的那些疾病，其normal样本实在太少了，所以建议不用这些数据做差异分析

Xena里面normal样本足够那就继续用，实在太少了也有如下几种方法

GTEx收录的是正常人各种组织的数据库。这些人是非正常死亡，即非生病死亡的，而是例如车祸死亡等。联合后的样本数量如图3

简单粗暴地将TCGA的tumor和GTEx的normal合并，做批次效应后，再差异分析，这样是不行的。批次效应的解决代码不是万能的，这么做可能导致本来的差异基因全没了

其实Xena已经帮我们做过这个操作了，但这里面是泛癌大概1w8+的样本和6w+的基因，普通的电脑根本读取不了，或许要另找高人帮忙单独抽出我们想要的疾病对应的样本了

还有那么多分析能做，不是一定要做差异分析的

从GEO数据库找T-N数据做差异分析，然后得到的差异基因在TCGA里面继续分析如生存分析。GEO数据库中一些样本没有生存信息，而TCGA的优势正是如此：①多组学②生存资料和临床信息完善

TCGA数据的下载方式一直都很凌乱，因为官方的下载方式太难了。于是衍生出很多网站、R包、工具（大概20多种方式），它们在官方网站的基础上，让下载方式变简单

详见转录组数据的获取一文，以前常用，但现在有点问题，尚未更新

此外补充一个内容：在获取数据的方法中，我们使用的是 GDC Hub ，它是与上一个TCGA版本的数据保持一致的；而图5中还有一个 TCGA Hub ，它是更早之前的数据，一般不用它