专栏名称: 生信人

共同学习生物信息学知识，共同探究生物奥秘。

菜鸟第一次提取TCGA编码蛋白基因和lncRNA表达谱

生信人 · 公众号 · 生物 · 2017-05-10 07:14

正文

本人生物信息菜鸟一枚，第一次自己提取TCGA编码蛋白和lncRNA表达谱。

数据准备及介绍

利用简易 TCGA 下载工具，下载胶质瘤数据（表达谱数据）

双击所要选择的癌症（默认选择原发癌和癌旁正常组织）

单击重新检索按钮下载资源列表，并根据下载资源列表选择下载数据类型

点击下载，选择路径，开始下载任务

通过合并文件按钮将单个文件合并生成矩阵

数据每一列代表一个ENSG_ID，每一列代表一个样本

在 ensembol 数据库下载数据

选择人体蛋白质序列，数据大体内容如下

> ENSP00000487941.1 pep chromosome：GRCh38：7：142786213：142786224：1基因：ENSG00000282431.1转录本：ENST00000632684.1 gene_biotype：TR_D_gene transcript_biotype：TR_D_gene gene_symbol：TRBD1描述：T细胞受体β多样性1 [来源：HGNC符号; ACC：HGNC：12158]

GTGG

数据包含 ENSP_ID ，染色体位置， ENSG_ID，ENST_ID，gene_symbol，gene_biotype，

空格分隔

从中提取 ENSG_ID，ENST_ID，gene_symbol，gene_biotype 制成表格，用于以后比提取。

数据处理与结果

获取蛋白质基因列表

进口重

def findlabel（line，opt，beg）：

STR1 =行[line.find（优化）：LEN（线）]

如果 str1.find（ '' ）> - 1 ：

str1 = str1 [beg：str1.find（ '' ）]

否则：

STR1 = STR1 [求：LEN（STR1）]

return str1.strip（）

def searchprotein（）：

file1 = 'D：/Homo_sapiens.GRCh38.pep.all.fa'

f = open（file1， 'r' ）

线= f.readlines（）

f.close（）

list1的= []

用于线在线路：

line = line.rstrip（ '\ n' ）.strip（）

如果 line.find（ '>' ）== 0 ：

enst = findlabel（行， 'ENST' ， 0 ）

ensg = findlabel（线， '基因：' ， 5 ）

type1 = findlabel（line， 'gene_biotype：' ， 13 ）

gene_symbol = findlabel（line， 'gene_symbol：' ， 12）

list1.append（（ensg，ENST，TYPE1，gene_symbol））

fw = open（ 'D：/protein_ID.txt' ， 'w' ）＃写文件

为升在列表1：

fw.write（ '\ t'.join（ l）+ '\ n' ）

fw.close（）

如果 __name__ == '__main__' ：

searchprotein（）

形成文件

获取蛋白质表达谱：

def getprotein（）：

file1 = 'D：/protein_ID.txt'

f = open（file1， 'r' ）＃读取文件

线= f.readlines（）

蛋白1 = []

用于线在线路：

行= line.rstrip（）。带（）

pro = line.split（ '\ t' ）[ 0 ]

如果亲们没有在蛋白1：

在最末尾添加 lnc中的 protein1.append（pro）＃

返回蛋白质1

def getproteinExpre（）：

蛋白1 = getprotein（）

file1 = 'D：/Merge_matrix.txt'

f = open（file1， 'r' ）

线= f.readlines（）

f.close（）

fw = open（ 'D：/proteinexp.txt' ， 'w' ）

用于线在线路：

请到「今天看啥」查看全文

推荐文章

生物制品圈 · 择捷美®（舒格利单抗注射液）一线胃癌临床研究数据登上国际权威期刊JAMA主刊

6 天前

生物制品圈 · DeepSeek和ChatGPT辅助课题设计与SCI科研论文写作与AI绘图实战应用

5 天前

生物制品圈 · 靶向递送最新 | 增加DSPC比例实现LNP的结肠靶向

6 天前

生物学霸 · 天大🤝清华，国际首个「双环路」脑机接口系统问世

2 天前

生信人 · 临床医生怎么能不关注神经免疫

5 天前

凤凰读书 · 雷颐×刘苏里×胡紫微：只要人人献出一点恶｜凤凰网读书会预告

8 年前

凤凰读书 · 雷颐×刘苏里×胡紫微：只要人人献出一点恶｜凤凰网读书会预告

8 年前

BetterRead · 朴道草堂专场 | BetterRead英文书漂流瓶计划书单第四十三批

8 年前

248游戏 · 【推荐】什么样的衣服最适合约会？

8 年前

车买买 · 一出生就成了爆款，看看车主如何评价这款三四万的漂亮小车

8 年前