TCGA miRNASeq 数据生存分析

生信人 · 公众号 · 生物 · 2017-05-25 07:20

正文

第一步，在简易小工具上下载TCGA miRNASeq 和临床数据

1、由于教程中是在FireBrowse ( http://gdac.broadinstitute.org/ )中下载的KIRC（肾透明细胞癌）数据，所以我在这里也下载了KIRC数据。

下载miRNASeq时，将文本下载到一个指定文件夹后，点击“合并文件”，我们会在指定文件夹中找到合并后的文本文件Merge_matrix.txt。

2、合并完后的数据列为geneID，行为Barcode（TCGA对样本的分类），但是，后面我做数据时发现中间有一行数据是无用的，显示read_count（检查用的COAD RNASeq数据也出现了一样的情况），以前的简易小工具教程中没有提到过，可能是在合并文件时有点小瑕疵。

下面是我找此行数据的代码，然后我直接在原数据中删除了那一行。

which(is.na(a))

3、接下来下载临床数据，同RNASeq 数据一样下载到一指定文件夹，点击“Clinical”，会得到文件Clinical_matrix.txt。

第二步利用R处理文件数据，做RNASeq数据的生存分析

1、首先需要安装相应的R包

需要的第一个包肯定是“survival”，它里面的Surv函数能直接对数据进行生存分析。

library(survival)

我们还需要 “limma”包，需要用到里面的voon函数,对数据进行标准化。

source("http://bioconductor.org/biocLite.R")

biocLite("limma")

library(limma)

2、处理RNASeq文件数据

1）导入文件（记得改变工作目录setwd(目录)）：

rna

2）数据中有许多“0”数据，剔除超过50%的表达值为0的样本：

rna rem x x r remove dim(x)[2]*0.5)
return(remove)
}
removerna

3）区别正常和肿瘤样本：根据TCGA样本分类的原则，第4个参数指样本类型，“Tumor types range from 01 - 09, normal types from 10 - 19 and control samples from 20 - 29”例如TCGA-CM-4746-01，第4个参数是01，所以是肿瘤样本。可以看出第4个参数第1位即总第14位如果是“0”，则为肿瘤样本，“1”则为正常样本。

table(substr(colnames(rna),14,14))  #得到545个肿瘤样本，71个正常样本
n_index t_index 4）对数据进行标准化：
voom(): Transform count data to log2-counts per million, estimate the mean-variance relationship and use this to compute appropriate observational-level weights. The data are then ready for linear modelling.
vm   cond   d   x   ex   return(ex$E)
}
rna_vm colnames(rna_vm) hist(rna_vm)  #检查数据是否正常分布
5）处理数据：

TCGA miRNASeq 数据生存分析

正文

请到「今天看啥」查看全文