与ensembl参考基因组元数据的python接口
pyensembl的Python项目详细描述
Pyensembl
pyensembl是一个python接口,用于引用基因组元数据,如外显子和转录本。pyensembl从ensembl ftp服务器下载gtf和fasta文件并将其加载到本地数据库中。Pyensembl还可以使用用户提供的GTF和FASTA文件指定的自定义参考数据。
示例用法
frompyensemblimportEnsemblRelease# release 77 uses human reference genome GRCh38data=EnsemblRelease(77)# will return ['HLA-A']gene_names=data.gene_names_at_locus(contig=6,position=29945884)# get all exons associated with HLA-Aexon_ids=data.exon_ids_of_gene_name('HLA-A')
安装
您可以使用pip安装pyensembl
pip install pyensembl
这也应该安装任何必需的软件包,例如datacache biopython
在使用pyensembl之前,运行以下命令下载并安装 ENSEMBL数据:
pyensembl install --release <list of Ensembl release numbers> --species <species-name>
例如,pyensembl install--release 7576--species human
将下载并安装所有
来自ENSEMBL的人体参考数据发布75和76。
或者,可以从python内部创建ensemblelease
对象
处理并调用ensembl_object.download()
然后调用ensembl_object.index()
缓存位置
默认情况下,pyensembl使用特定于平台的cache
文件夹
并将文件缓存到pyensembl
子目录中。
您可以通过设置环境键pyensembl_cache_dir来覆盖此默认值
作为您的首选缓存位置:
exportPYENSEMBL_CACHE_DIR=/custom/cache/dir
或
importosos.environ['PYENSEMBL_CACHE_DIR']='/custom/cache/dir'# ... PyEnsembl API usage
非集成数据
Pyensembl还允许通过规范任意基因组 到ensembl和非ensembl gtf的本地文件路径或远程url的 和fasta文件。(警告:GTF格式可能不同,并且处理 非ENSEMBL数据仍在开发中。)
例如:
data=Genome(reference_name='GRCh38',annotation_name='my_genome_features',gtf_path_or_url='/My/local/gtf/path_to_my_genome_features.gtf')# parse GTF and construct database of genomic featuresdata.index()gene_names=data.gene_names_at_locus(contig=6,position=29945884)
API
ensemblelease
对象有方法允许您访问所有可能的
注释特征的组合基因名,基因id,
转录名,转录ID,外显子ID以及
这些基因组元素(续,起始位置,终止位置,链)。