使用决策树的序列识别;使用机器学习模型对DNA读取进行分类的工具。
SIDR的Python项目详细描述
sidr(发音:cider)是过滤下一代测序的工具。 (ngs)基于选定目标生物体的数据。SIDR使用爆炸数据 (或类似的分类器)训练决策树模型进行分类 序列数据要么属于目标生物体,要么属于 去别的地方。此分类可用于筛选数据 以后的集会。
注:sidr是alpha软件。功能当前不完整,可能会有重大更改。
使用量
SIDR有两种主要模式。默认模式需要几个生物信息学文件 作为输入,并基于GC内容百分比计算决策树 以及每个基地的序列覆盖率。要运行它,请使用:
sidr default -d [taxdump path] -b [bamfile] -f [assembly FASTA] -r [BLAST results] -k tokeep.contigids -x toremove.contigids -t [target phylum]
runfile模式采用以制表符分隔的文件,其中包含contigs、变量和 分类为输入。要运行它,请使用:
sidr runfile -i [runfile] -k tokeep.contigids -x toremove.contigids -t [target phylum]
有关详细信息,请参见documentation 细节。
待办事项
- 更完整的文档
- 更多单元测试