专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Science | ... ·  昨天  
51好读  ›  专栏  ›  生信菜鸟团

转录组数据的获取

生信菜鸟团  · 公众号  · 生物  · 2024-09-23 18:28

正文

学习笔记总结于『生信技能树』 马拉松课程

本文学习转录组数据的获取途径,分为GEO转录组数据和TCGA转录组数据

一些普通的数据库,在网页中找到链接并直接点击即可下载下来;但像TCGA这样的数据库,下载方式会比较麻烦

一、GEO转录组数据

以GSE162550为例,首先要确保是转录组而非芯片,如图1

图1

1.临床信息

点击网页最下方的 Series Matrix File

图2

发现如图3中,这个文件只有2.2k,这么小不可能是表达矩阵。这里面实际上是它的临床信息

所以仍然可以用(系列一)的代码提取临床信息,回顾: 芯片代码实操(2)下载芯片表达数据 芯片代码实操(3)了解芯片表达数据

图3

2.表达矩阵

它的表达矩阵其实在补充文档里面,如图4

图4

图4中的Platform平台号是不需要的,因为不用 tinyarray 包的 find_anno() 找它的探针注释,毕竟转录组测表达量的原理不是用探针测的,自然没有探针注释

二、TCGA转录组数据

TCGA转录组的数据,下载流程如下

1.搜索Xena

图5

2.点击Launch Xena

图6

3.点击左上角的DATA SETS

图7

4.点击GDC Hub

图8

5.以CHOL为例

图9

我们需要的count型数据在这里

图10

点进去后请注意是不是真的count型数据,CHOL的不是原始count,而是log后的count,网页中有标明







请到「今天看啥」查看全文