专栏名称: 生信媛
生信媛,从1人分享,到8人同行。坚持分享生信入门方法与课程,持续记录生信相关的分析pipeline, python和R在生物信息学中的利用。内容涵盖服务器使用、基因组转录组分析以及群体遗传。
目录
相关文章推荐
51好读  ›  专栏  ›  生信媛

python pyensembl:基因组位置注释到基因组特征(基因,转录本,外显子)

生信媛  · 公众号  · 生物  · 2020-11-27 08:00

正文


PyEnsembl 为用户访问 Ensembl(http://www.ensembl.org/)参考基因组数据提供了一个很好的接口。可以直接从Ensembl FTP服务器下载参考基因组的GTF和FASTA文件,并且解析文件;Ensembl 并且提供了一些方法,用户可以通过基因组上位置提取对应的注释信息以及对基因组特征进行各种操作。

安装

  • pyensembl安装
pip install pyensembl
  • Ensembl数据下载
#命令
pyensembl install --release  --species 

#实例
pyensembl install --release 75 76 --species human

使用

from pyensembl import EnsemblRelease

# release 77 uses human reference genome GRCh38
data = EnsemblRelease(77)

# will return ['HLA-A']
gene_names = data.gene_names_at_locus(contig=6, position=29945884)

# get all exons associated with HLA-A
exon_ids  = data.exon_ids_of_gene_name('HLA-A')

缓存位置设置

默认缓存到目录pyensembl下:

C:\Users\用户名\AppData\Local\pyensembl\

自定义缓存位置:

import os

os.environ['PYENSEMBL_CACHE_DIR'] = '/custom/cache/dir'

非Ensembl 的数据

PyEnsembl 可以导入自定义数据;本地数据,指定本地路径;远程数据,指定URLs 。

示例:

data = Genome(
    reference_name='GRCh38',
    annotation_name='my_genome_features',
    gtf_path_or_url='/My/local/gtf/path_to_my_genome_features.gtf')

data.index()
gene_names = data.gene_names_at_locus(contig=6, position=29945884)







请到「今天看啥」查看全文