处理基因注释文件的python程序
annot-utils的Python项目详细描述
不能使用
简介
annot_utils
是一个生成tabix索引注释文件的软件,可以由y.s共享。
目前,该软件只支持hg19(grch37)、hg38(grch38)和mm10(grcm38)的注释性文件。
依赖性
python包
pkg_resources
软件
安装
annot_utils
可通过pypi获得。
要安装,请键入:
pip install annot_utils
当您不是根用户时,您可能需要键入:
pip install annot_utils --user
或者,从源代码安装:
wget https://github.com/friend1ws/annot_utils/archive/v0.2.0.tar.gz
tar xzvf v0.3.0.tar.gz
cd annot_utils-0.3.0
python setup.py build install --user
这个包已经在Python2.7、3.5、3.6上测试过了。
更新数据库
目前,annot_utils
已经在安装时存储了来自UCSC genome browser和其他几个源的注释文件。
如果要更新注释文件:
cd annot_utils/resource
bash prep_data.sh
然后,从源代码安装软件。
命令
基因
生成由Tabix索引的基因注释床蝇。
annot_utils gene [-h]
[--gene_model {refseq,gencode}] [--grc]
[--genome_id {hg19,hg38,mm10}] [--add_ref_id]
gene.bed.gz
外显子
生成由tabix索引的外显子注释bed flies。
annot_utils exon [-h]
[--gene_model {refseq,gencode}] [--grc]
[--genome_id {hg19,hg38,mm10}] [--add_ref_id]
exon.bed.gz
编码
生成区域性(编码、内含子、5'utr、3'utr等)注释,并用tabix索引。
annot_utils coding [-h]
[--gene_model {refseq,gencode}] [--grc]
[--genome_id {hg19,hg38,mm10}] [--add_ref_id]
coding.bed.gz
交界处
生成由tabix索引的带注释的拼接连接床文件。
annot_utils junction
usage: annot_utils junction [-h]
[--gene_model {refseq,gencode}] [--grc]
[--genome_id {hg19,hg38,mm10}] [--add_ref_id]
junction.bed.gz
边界
用tabix生成外显子-内含子边界注释文件索引。
annot_utils boundary [-h]
[--genome_id {hg19,hg38,mm10}] [--grc]
[--donor_size donor_size]
[--acceptor_size acceptor_size]
boudary.bed.gz