在fasta序列中搜索微卫星的python包
microsatellites_finder的Python项目详细描述
这个程序在fasta序列中搜索微卫星。 可用选项如下:
- -i,--input-fasta:包含要分析的序列的fasta文件的路径。该文件可以是纯文本文件,也可以是gzip压缩文件。
- -o,--output-file:要与分析结果一起保存的文件的路径。微卫星的坐标将是基于0的。
- -l,--seed-length:微卫星种子的长度,即将重复的核苷酸数目。例如,-l 2会发现像ACACACAC这样的微卫星,其中种子AC重复4次。
- -r,--minimum_repetitions:种子的最小重复次数。例如,-r 3将找到像CTACTACTA或CTACTACTACTA这样的微卫星,其中种子CTA至少重复3次。允许的最小值为2,默认值为3。
- -im,--imperfect:包括不完善的微卫星。有了这个选项,共享同一种子、距离达到“不完美”值至少-r-1次的微卫星将合并在一起,并被视为单个微卫星。默认情况下,此选项被禁用,微卫星保持分离。
- -s,--strict:当--imperfect为正整数时,此选项仅允许使用种子中存在的核苷酸搜索不完美的微卫星。例如,如果种子是AT,则只考虑核苷酸A和T。默认情况下,此选项被禁用,并考虑所有核苷酸ACGT。
- -a,--alphabet:用于微卫星搜索的字母表。字母表可以是dna的dna或蛋白质的^{str1}$aa。默认为“DNA”。
- -f,--flanking:微卫星两侧序列的长度。序列将写入输出文件。超出染色体界限的序列将被截断。默认情况下,此选项被禁用。
- -c,--cores:要在计算中使用的CPU数。默认情况下,它将使用所有可用的CPU。
- -p,--progress:使用进度条跟踪计算进度。
如何执行程序
程序可以通过写入终端来执行:
find_micro
要求:
- Python3.4+
安装:
pip install macrosatellites_finder