将tir-phmm模型映射到基因组序列,以注释螨虫和完整的dna转座子。

tirmite的Python项目详细描述


[![许可证:mit](https://img.shields.io/badge/license mit yellow.svg)(https://opensource.org/licenses/mit)

<;p align="center">;
<;img src="docs/tirmite_hexlogo.jpg"width="350"height="350"title="tirmite_hex">;
<;p>;

tirmite


末端反向重复
家族(tir-phmms)到基因组序列的隐马尔可夫模型,用于注释螨类和具有可变内部序列组成的完整
dna转座子。




*[安装tirmite](安装tirmite)
*[示例用法](示例用法)
*[标准选项](标准选项)
*[自定义DNA矩阵](自定义DNA矩阵)
*[附加工具](附加工具)
*[tsplit](tsplit)
*[tsplit算法概述](tsplit算法概述)
*[tsplit选项和用法](tsplit选项和用法)
*[issues](issues)
*[license](license)
*[logo](logo)




tir家族的全基因组注释。这些可以由用户提供,也可以从定向为5'外缘-->;3'内缘的对齐TIR构建。


生成三类输出:
1。写入fasta的所有重要tir命中序列(每个查询hmm)。
2。由成对tir组成的候选元素被写入fasta(每个查询hmm)。
3。候选元素的基因组注释和可选的tir hits
(成对和不成对)作为单个gff3文件写入。

使用带有tir-phmm的nhmmer基因组。导入低于*--maxeval*阈值的所有点击。
3。对于每个重要的TIR匹配,确定候选合作伙伴,其中:
*在同一序列上。
*HIT处于互补方向。
*距离是<;=*--maxDist*
*HIT长度是>;=模型长度\*--mincov*
4。按正链点击下游和负链点击上游的距离排列候选伙伴。
5。两人互击最佳候选球。
6。对于未配对的点击,找到第一个未配对的候选合作伙伴并检查互惠性。
7。如果第一个未配对的候选项是非互惠的,则检查二阶互惠(是当前候选项互惠的出站顶级候选项)。
8。重复步骤6-7,直到所有tir配对或没有新配对的迭代次数超过*--stablereps*


重复预测的tes
*[pymumer](https://pypi.python.org/pypi/pymumer)版本>;=0.10.3带Nucmer包装选项*--diagfactor*
*[mummer](http://mummer.sourceforge.net/)
*[blast+](ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/latest/)(可选)


安装选项:

python包。

`` bash
%git克隆https://github.com/adamtranto/tirmite.git&;cd tirmite&;pip install-e.
```

install from pypi.

```bash
%pip install tirmite
`````

``install from bioconda.
``bash
%conda install-c bioconda tirmite
````

``bash
`打印版本号并退出。
%tirmite--版本
tirmite 1.1.1

rval<;=10000,点击hmm模型的cover>;40%len),
并编写gff3注释文件。

``bash
%tirmite--基因组目标。fasta--hmm file tir a.hmm--gffout tir目标中的元素。gff3--maxdist 10000--mincov 0.4
```

`查看程序最常用的选项:

```
tirmite[-h]--基因组[--hmmdir-hmmdir][--hmmfile-hmmfile]
[--alndir-alndir][--alnfile-alnfile]
[--alnformat{clustal,fasta,nexus,phylip,斯德哥尔摩}]
[--stablereps stablereps]
[--outdir outdir][--prefix prefix][--nopairing]
[--gffout gffout][--reporttir{none,all,paired,未配对}]
[--keeptemp][-v][--cores cores][--maxeval maxeval]
[--maxdist maxdist][--nobias][--matrix matrix]
[--mincov mincov][--hmmpress hmmpress][--nhmmer nhmmer]
[--hmmbuild hmmbuild]

help:
-h,--帮助显示此帮助消息并退出。

输入选项:
--将使用HMM查询的目标基因组的基因组路径。
注意:序列名称必须唯一。
(必需)
--HMMDir包含预先准备的tir phmm的目录。
--指向单个tir phmm文件的hmmfile路径。
与"--hmmdir"不兼容。
--指向目录的alndir路径,该目录只包含要转换为hmm的tir对齐。
--alnfile提供要转换为hmm的单个tir对齐。
与"--alndir"不兼容。与"--alndir"或"--alnfile"一起提供的格式对齐都采用此格式。
选项=["clustal"、"fasta"、"nexus"、"phylip"、"stockholm"]



配对启发:
--stablereps数当未找到其他配对且剩余未配对命中时,重复配对过程的次数>;0.
(默认值=0)



输出和管理:
--outdir所有输出文件都将写入此目录。
--gffout gff3注释文件名。
--用于在gff中报告tir的reporttir选项注释文件。
选项=[none,'all','paired','unpaired']
(默认值='all')
--将前缀添加到此运行中检测到的所有TIR和成对元素。
在对许多基因组运行相同的tir-phmm时很有用。
(默认值=无)
--不播放如果设置,仅报告tir-phmm命中。不要尝试配对。
(默认值=false)
--如果设置了keeptemp,则不要删除临时文件目录。
(默认值=false)
-v,--verbose将syscall reporting设置为verbose。

hmmer选项:
--cores设置HMMER软件可用的核心数。
(默认值=1)
--有效命中允许的最大E值。
(默认值=0.001)
--TIR之间允许的最大距离考虑有效配对的候选人。
--nobias关闭nhmmer中分数的偏差校正。
(默认值=假)
--矩阵使用nhmmer中的自定义dna替换矩阵。
--mincov最小有效点击长度作为模型长度的比例。
(默认值=0.5)


非标准hmmer路径:
--hmmpress如果不在路径中,则设置hmmpress的位置。
--nhmmer如果不在路径中,则设置nhmmer的位置。
--hmmbuild如果不在路径中,则设置hmmbuild的位置。
`````


标准NCBI-BLAST矩阵(如NUC.4.4)兼容。(见:ftp://ftp.ncbi.nlm.nih.gov/blast/matrix/nuc.4)




tsplit算法概述

1.排除所有对角线/自匹配项
2。如果tsplit tir:只保留对向股上的对线(反向重复)
3。保留5'匹配开始于元素start
的x基内,3'匹配结束于元素end
4的x基内的对。排除重叠的对齐对(潜在SSR)
5。如果多个候选者仍然选择具有最大内部片段
(即最接近元素末端)的对齐对


分割段将写入*tir_split_te-splitter_output.fasta*,后缀"_i"表示
内部段或"_tir"表示外部段。tir的长度必须至少为10bp,并共享80%
标识,并且出现在输入元素每端的10bp内。此外,合成的
螨虫将由左、右tir连接而成,内部片段
切除。



`` bash
%tsplit tir-i dna-transposons.fasta-p tir_split
```

tsplit options

run`tsplit tir--help`查看程序最常用的
选项:

```
用法:tsplit tir[-h]-i infile[-p前缀][-d outdir]
[-splitmode{all,split,internal,external,无}]
[--makemites][--keeptemp][-v][-m maxdist]
[--minid minid][--minterm minterm][--minseed minseed]
[--diagfactor diagfactor][--method{blastn,nummer}

help:
-h,-help显示此帮助消息并退出。

输入:
-i,-填充包含完整元素的multifasta。
(必需)


输出:
-p,--在所有输出文件前面加上以该字符串开头的前缀。(默认值:[infie basename])
-d,--outdir将输出文件写入此目录。(默认值:cwd)
--如果设置了keeptemp,则在完成时不删除temp目录。
-v,--verbose(如果设置了verbose),则报告进度。

报告设置:
--splitmode选项:{all,split,internal,external,none}
all=报告输入序列以及内部和外部段。
拆分=拆分后报告内部和外部段。
内部=仅报告内部段。
外部=仅报告终端重复段。
无=仅报告合成螨虫(同时设置--makemites)。
(默认值:split)
--makemites实验功能:尝试通过连接
5'和3'tir从tir构建合成的mite序列。仅在"tsplit tir"模式下可用

对齐设置:
--方法选择对齐工具。注意:blastn在非常短的高身份trs上可能表现得更好,
而nucmer对小indel更健壮。
选项:{blastn,nucmer}
(默认值:numer)
--终端重复对之间的最小标识。就像漂浮一样。
(默认值:80.0)
--要考虑的终端重复的最小长度。
相当于numer"-mincluster"
(默认值:10)
-m,--maxDist终端重复候选者与输入元素末端之间的基数不能超过这么多。
注意:如果怀疑元素嵌套在某个侧翼序列中,请增加此值。
(默认值:10)
--要包含在最终匹配群集中的最大精确匹配的最小长度。
相当于numer"-minmatch"。
(默认值:5)
--用于在nummer内对匹配进行聚类的diagfactor最大对角线差分因子,
即对角线差分/匹配间隔
(默认值为0.20)
注意:增加值以获得终端重复之间更大的索引公差。
```

tracker](https://github.com/adamtranto/tirmite/issues)


欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
安卓 java。lang.IllegalStateException游标   java同时缩放和旋转纹理变换矩阵   访问HSQLDB数据库时发生java NullPointerException   java Vert。x项目如何构建包含所有其他垂直项的jar   java通过JNI从小程序调用DLL   hadoop当metastore是mysql时,如何在java中使用jdbc执行hql   spring如何在java graphQl中设置http状态   swing如何让Java小程序显示卡图像?   java iText内存管理PdfReader/水印加载过多   java以实用方式或通过xml创建x个spring批处理作业   部署在信号量上运行java应用程序   在哪里可以找到Java中与Go的EncryptRSOAEP()功能等效的功能?   在Java公式中四舍五入到十是没有意义的   使用JVisualVM进行java JVM远程评测   java创建API jar就像Android使用存根方法一样?   java计算人口密度:初学者指南   socket在JAVA中将单线程服务器转换为多线程服务器   java如何在没有主键的情况下对表或视图进行hibernate映射