专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
相关文章推荐
生物制品圈  ·  DeepSeek和ChatGPT辅助课题设计 ... ·  5 天前  
生物制品圈  ·  靶向递送最新 | ... ·  6 天前  
生信人  ·  临床医生怎么能不关注神经免疫 ·  5 天前  
51好读  ›  专栏  ›  生信人

菜鸟第一次提取TCGA编码蛋白基因和lncRNA表达谱

生信人  · 公众号  · 生物  · 2017-05-10 07:14

正文

本人生物信息菜鸟一枚,第一次自己提取TCGA编码蛋白和lncRNA表达谱。

数据准备及介绍

利用简易 TCGA 下载工具,下载胶质瘤数据(表达谱数据)

双击所要选择的癌症(默认选择原发癌和癌旁正常组织)

单击重新检索按钮下载资源列表,并根据下载资源列表选择下载数据类型

点击下载,选择路径,开始下载任务

通过合并文件按钮将单个文件合并生成矩阵


数据每一列代表一个ENSG_ID,每一列代表一个样本


ensembol 数据库下载数据


选择 人体蛋白质序列 ,数据大体内容如下

> ENSP00000487941.1 pep chromosome:GRCh38:7:142786213:142786224:1基因:ENSG00000282431.1转录本:ENST00000632684.1 gene_biotype:TR_D_gene transcript_biotype:TR_D_gene gene_symbol:TRBD1描述:T细胞受体β多样性1 [来源:HGNC符号; ACC:HGNC:12158]

GTGG

数据包含 ENSP_ID ,染色体位置, ENSG_ID,ENST_ID,gene_symbol,gene_biotype,

空格分隔

从中提取 ENSG_ID,ENST_ID,gene_symbol,gene_biotype 制成表格,用于以后比提取。


数据处理与结果

获取蛋白质基因列表

进口


def findlabel(line,opt,beg):

STR1 =行[line.find(优化):LEN(线)]

如果 str1.find( '' )> - 1

str1 = str1 [beg:str1.find( '' )]

否则

STR1 = STR1 [求:LEN(STR1)]

return str1.strip()

def searchprotein():

file1 = 'D:/Homo_sapiens.GRCh38.pep.all.fa'

f = open(file1, 'r'

线= f.readlines()

f.close()

list1的= []

用于 线 线路:

line = line.rstrip( '\ n' ).strip()

如果 line.find( '>' )== 0

enst = findlabel(行, 'ENST' 0

ensg = findlabel(线, '基因:' 5

type1 = findlabel(line, 'gene_biotype:' 13

gene_symbol = findlabel(line, 'gene_symbol:' 12)

list1.append((ensg,ENST,TYPE1,gene_symbol))

fw = open( 'D:/protein_ID.txt' 'w' 写文件

列表1:

fw.write( '\ t'.join( l)+ '\ n'

fw.close()

如果 __name__ == '__main__'

searchprotein()

形成文件


获取蛋白质表达谱:

def getprotein():

file1 = 'D:/protein_ID.txt'

f = open(file1, 'r' 读取文件

线= f.readlines()

蛋白1 = []

用于 线 线路:

行= line.rstrip()。带()

pro = line.split( '\ t' )[ 0 ]

如果 亲们 没有在 蛋白1:

在最末尾添加 lnc中的 protein1.append(pro)

返回 蛋白质1

def getproteinExpre():

蛋白1 = getprotein()

file1 = 'D:/Merge_matrix.txt'

f = open(file1, 'r'

线= f.readlines()

f.close()

fw = open( 'D:/proteinexp.txt' 'w'

用于 线 线路:







请到「今天看啥」查看全文