PyEnsembl 为用户访问 Ensembl(http://www.ensembl.org/)参考基因组数据提供了一个很好的接口。可以直接从Ensembl FTP服务器下载参考基因组的GTF和FASTA文件,并且解析文件;Ensembl 并且提供了一些方法,用户可以通过基因组上位置提取对应的注释信息以及对基因组特征进行各种操作。
安装
pip install pyensembl
#命令
pyensembl install --release --species
#实例
pyensembl install --release 75 76 --species human
使用
from pyensembl import EnsemblRelease
# release 77 uses human reference genome GRCh38
data = EnsemblRelease(77)
# will return ['HLA-A']
gene_names = data.gene_names_at_locus(contig=6, position=29945884)
# get all exons associated with HLA-A
exon_ids = data.exon_ids_of_gene_name('HLA-A')
缓存位置设置
默认缓存到目录pyensembl下:
C:\Users\用户名\AppData\Local\pyensembl\
自定义缓存位置:
import os
os.environ['PYENSEMBL_CACHE_DIR'] = '/custom/cache/dir'
非Ensembl 的数据
PyEnsembl 可以导入自定义数据;本地数据,指定本地路径;远程数据,指定URLs 。
示例:
data = Genome(
reference_name='GRCh38',
annotation_name='my_genome_features',
gtf_path_or_url='/My/local/gtf/path_to_my_genome_features.gtf')
data.index()
gene_names = data.gene_names_at_locus(contig=6, position=29945884)