结核分枝杆菌全基因组测序数据中基因破坏和恢复指标的Python包被
scartrek的Python项目详细描述
斯卡特雷克
结核分枝杆菌全基因组测序数据中基因破坏和恢复指标的Python包被
说明
核苷酸的“插入”或“删除”(亲切地称为“索引”)是除此之外的两种遗传变化 通过分析测序数据可以检测到的单核苷酸多态性(snp)。ScarTrek是一个应用程序 用python编写的检测索引将全基因组测序数据映射到一个参考基因组上,并且如果有基因信息 对于所提供的参考有机体,则确定具有指数的基因,以及这些指数是否影响 基因的翻译产物。这种分析有助于检测由indels引起的基因失活。在
安装
使用pip
$ pip install scartrek
来自GitHub
ScarTrek项目可以直接从GitHub下载,python脚本可以直接从命令行运行,如用法所示。在
用法
如果使用pip安装,ScarTrek可以运行为:
$ find-scars [-h] -i INPUT [-m MAPRATE] [-c COVTHRES] [-g GENESEQ] [-p PROTSEQ]
如果从GitHub下载,ScarTrek可以在ScarTrek/ScarTrek/as目录下运行:
$ python find_scars.py [-h] -i INPUT [-m MAPRATE] [-c COVTHRES] [-g GENESEQ] [-p PROTSEQ]
其中的参数是:
-h, --help show this help message and exit
-i INPUT, --input INPUT
Input directory that has mpileup files for each
sample. See tests/test1 for example (default: None)
-m MAPRATE, --maprate MAPRATE
Minimum read mapping rate required to consider a
sample (default: 20.0)
-c COVTHRES, --covthres COVTHRES
Minimum read coverage required at a position to detect
an indel (default: 20)
-g GENESEQ, --geneseq GENESEQ
Gene sequences in the reference genome, default
reference: M. tuberculosis (default:
../reference/H37Rv_genes.txt)
-p PROTSEQ, --protseq PROTSEQ
Protein sequences for the reference organism, default:
M. tuberculosis (default:
../reference/H37Rv_proteins_from_genbank.txt)
- 项目
标签: