短读序列的站点标识。
sisrs的Python项目详细描述
#以用户身份运行sisrs
\install docker
请按照[此处](https://docs.docker.com/install/)说明为您的操作系统安装
docker ce。
例如,如果您在ubuntu上
,您将遵循特定的说明
[这里](https://docs.docker.com/install/linux/docker ce/ubuntu/)。
他们只是想卖给你一些东西。
注意,sisrs目前只在linux上运行。
##运行sisrs
首先使用上面获得的图像启动docker容器:
`docker run-it anderspitman/sisrs bash`
>然后从docker容器中:
`````
``````pip安装sisrs
sisrs python
````
sisrs
sisrs
=
sisrs:短读序列的站点标识
1.6.2版
版权所有(C)2013-2016 Rachel Schwartz<;Rachel.Schwartz@ASU.edu>;
https://github.com/rachel s s/sisrs
更多信息:Schwartz,R.S.,K.M Harkins,A.C.斯通和R.A.卡特赖特。2015。从下一代测序中识别系统发育信息数据的复合基因组方法。生物信息学。16:193.
(http://www.biomedcentral.com/1471-2105/16/193/)
《2014年进化论》描述了SISR及其应用:
https://www.youtube.com/watch?v=0ompuwc-j2e&list=uuq2czf2dnfviuvg4tyrh5ng
许可证
==
此程序是自由软件:您可以根据自由软件基金会发布的GNU通用公共许可证的条款(许可证的第3版)或(在您的(可选)任何更高版本。
本程序的发布目的是希望它会有用,但没有任何保证;甚至没有针对特定用途的适销性或适用性的隐含保证。详见GNU通用公共许可证。
(http://minia.genouest.org/)
*深渊(使用v.2.0.2进行测试)(http://www.bcgsc.ca/platform/bioinfo/software/absis)
*鲍蒂2号(http://bowtie bio.sourceforge.net/bowtie2/index.shtml)
*蟒蛇2.7,生物圈,和pysam
*samtools v1.3.1(http://www.htslib.org/)
*gnu parallel(http://www.gnu.org/software/parallel/)
*mafft(http://mafft.cbrc.jp/alignment/software/)
*bbmap[需要Java](https://sourceforge.net/projects/bbmap/)
input
=
illumina hiseq reads等数据。
数据必须按分类单元(例如物种或属)分类到文件夹中。
fastq格式的成对读取必须由(其他相同的)文件名中的r1和r2指定。
成对和非成对读取必须具有fastq文件扩展名。
sisrs
==
用法:
sisrs命令选项
默认情况下,sisrs假设
*参考基因组不可用,将使用velvet装配复合装配
*velvet在contig装配中使用的k-mer大小为21.
*只有一个处理器可用。
*文件采用fastq格式。
*成对读取的文件名以"r1"和"r2"结尾
*一个站点只需要有两个种类的数据才能包含在最终对齐中。
*包含读取的文件夹在当前工作中目录
*SISRS数据将输出到当前工作目录
*调用基A至少需要三次读取t一个分类单元的位点
运行SISRS子采样方案,子采样读取所有分类群的数据,覆盖范围为物种的10倍,相对于用户指定的基因组大小
**构建contigs**:给定子采样读取,使用用户指定的汇编程序运行sisrs复合基因组汇编
**aligncontigs**:以单端、唯一映射的方式对齐读取复合基因组
**mapcontigs**:将复合基因组读取与参考基因组(可选)对齐类群内无变化
**输出对齐**:SISRS站点的输出对齐文件
**更改缺失**:给定的站点对齐(alignment.nex),输出一个文件,其中每个站点只缺少少于指定数量的样本
\:fasta格式的参考基因组路径*[可选]*
*-k:k-mer size(用于程序集)*[默认值:21]*
*-f:包含读取文件夹的目录的绝对路径*[默认值:当前目录]*
*-z:指向空目录或不存在目录的绝对路径,其中sisrs将输出数据*[默认值:当前目录]*
*-n:调用站点上的基所需的读取数*[默认值:3]*
*-t:调用站点的阈值;例如0.99表示该分类单元的99%基必须是一个等位基因;仅建议用于具有<;3;的低倍性个体*[默认值:1(100%)]*
*-m:允许在一个位点有缺失数据的物种数量
*-o:用于定年的最终位点数据集的长度
*-l:等位基因数量
*-a:汇编程序[天鹅绒、迷你、深渊或premade;*默认值:天鹅绒*]
-如果使用预编码的复合基因组,它必须位于名为"premadeoutput"的文件夹中,该文件夹与读取数据的文件夹位于同一目录中,并且必须名为"contigs.fa"
*-s:运行"locits"[0,1,2]
-0[默认值]时要分析的位点,所有可变位点,包括单基因
-1,变量站点不包括单变量
-2,只有双等位变量站点
*-c:用于调用子命令的连续命令模式[1,0]
-1[默认值]:调用子命令将运行该子命令**,并运行管道中的所有后续步骤**
-0:仅调用子命令运行**该子命令
output
===
nexus file,其中变量站点在单个对齐方式中。在大多数主要的系统发育软件中,可用作仅与可变位点设置连接的对齐方式。
测试数据
==
文件夹test_data(https://github.com/rachelss/sisrs_test_data)包含simtree.tre中发现的10个物种的模拟数据。使用40个处理器,这次运行需要9分钟。使用raxml分析sisrs的对齐输出生成了正确的树。
sample commands
==
1。基本的sisrs运行:从fastq文件开始,生成可变站点的对齐方式
```
sisrs sites-g 1745690
```
2。基本的SISR运行时需要修改
```
SISR站点-g 1745690-p 40-m 4-f/usr/test_data-z/usr/output_data-t.99-a minia
```
3。仅运行sisrs读取子采样步骤
```
sisrs子采样-g 1745690-f/usr/test_data-c 0
```
4。根据基本SISR运行中最可变的轨迹生成轨迹对齐。注意-如果(并且仅当)以前没有运行过SISRS位点,则该命令将运行SISRS位点。
````
SISRS位点-G 1745690-P 40-L 2-F/USR/test_data首先是位点,然后是位点
sisrs位点-g 1745690-p 40-l 2-f/usr/sisrs位点输出将从以前的位点数据运行位点
```
5。从你的fastq文件中获取已知的基因座。
\install docker
请按照[此处](https://docs.docker.com/install/)说明为您的操作系统安装
docker ce。
例如,如果您在ubuntu上
,您将遵循特定的说明
[这里](https://docs.docker.com/install/linux/docker ce/ubuntu/)。
他们只是想卖给你一些东西。
注意,sisrs目前只在linux上运行。
##运行sisrs
首先使用上面获得的图像启动docker容器:
`docker run-it anderspitman/sisrs bash`
>然后从docker容器中:
`````
``````pip安装sisrs
sisrs python
````
sisrs
sisrs
=
sisrs:短读序列的站点标识
1.6.2版
版权所有(C)2013-2016 Rachel Schwartz<;Rachel.Schwartz@ASU.edu>;
https://github.com/rachel s s/sisrs
更多信息:Schwartz,R.S.,K.M Harkins,A.C.斯通和R.A.卡特赖特。2015。从下一代测序中识别系统发育信息数据的复合基因组方法。生物信息学。16:193.
(http://www.biomedcentral.com/1471-2105/16/193/)
《2014年进化论》描述了SISR及其应用:
https://www.youtube.com/watch?v=0ompuwc-j2e&list=uuq2czf2dnfviuvg4tyrh5ng
许可证
==
此程序是自由软件:您可以根据自由软件基金会发布的GNU通用公共许可证的条款(许可证的第3版)或(在您的(可选)任何更高版本。
本程序的发布目的是希望它会有用,但没有任何保证;甚至没有针对特定用途的适销性或适用性的隐含保证。详见GNU通用公共许可证。
(http://minia.genouest.org/)
*深渊(使用v.2.0.2进行测试)(http://www.bcgsc.ca/platform/bioinfo/software/absis)
*鲍蒂2号(http://bowtie bio.sourceforge.net/bowtie2/index.shtml)
*蟒蛇2.7,生物圈,和pysam
*samtools v1.3.1(http://www.htslib.org/)
*gnu parallel(http://www.gnu.org/software/parallel/)
*mafft(http://mafft.cbrc.jp/alignment/software/)
*bbmap[需要Java](https://sourceforge.net/projects/bbmap/)
input
=
illumina hiseq reads等数据。
数据必须按分类单元(例如物种或属)分类到文件夹中。
fastq格式的成对读取必须由(其他相同的)文件名中的r1和r2指定。
成对和非成对读取必须具有fastq文件扩展名。
sisrs
==
用法:
sisrs命令选项
默认情况下,sisrs假设
*参考基因组不可用,将使用velvet装配复合装配
*velvet在contig装配中使用的k-mer大小为21.
*只有一个处理器可用。
*文件采用fastq格式。
*成对读取的文件名以"r1"和"r2"结尾
*一个站点只需要有两个种类的数据才能包含在最终对齐中。
*包含读取的文件夹在当前工作中目录
*SISRS数据将输出到当前工作目录
*调用基A至少需要三次读取t一个分类单元的位点
运行SISRS子采样方案,子采样读取所有分类群的数据,覆盖范围为物种的10倍,相对于用户指定的基因组大小
**构建contigs**:给定子采样读取,使用用户指定的汇编程序运行sisrs复合基因组汇编
**aligncontigs**:以单端、唯一映射的方式对齐读取复合基因组
**mapcontigs**:将复合基因组读取与参考基因组(可选)对齐类群内无变化
**输出对齐**:SISRS站点的输出对齐文件
**更改缺失**:给定的站点对齐(alignment.nex),输出一个文件,其中每个站点只缺少少于指定数量的样本
\:fasta格式的参考基因组路径*[可选]*
*-k:k-mer size(用于程序集)*[默认值:21]*
*-f:包含读取文件夹的目录的绝对路径*[默认值:当前目录]*
*-z:指向空目录或不存在目录的绝对路径,其中sisrs将输出数据*[默认值:当前目录]*
*-n:调用站点上的基所需的读取数*[默认值:3]*
*-t:调用站点的阈值;例如0.99表示该分类单元的99%基必须是一个等位基因;仅建议用于具有<;3;的低倍性个体*[默认值:1(100%)]*
*-m:允许在一个位点有缺失数据的物种数量
*-o:用于定年的最终位点数据集的长度
*-l:等位基因数量
*-a:汇编程序[天鹅绒、迷你、深渊或premade;*默认值:天鹅绒*]
-如果使用预编码的复合基因组,它必须位于名为"premadeoutput"的文件夹中,该文件夹与读取数据的文件夹位于同一目录中,并且必须名为"contigs.fa"
*-s:运行"locits"[0,1,2]
-0[默认值]时要分析的位点,所有可变位点,包括单基因
-1,变量站点不包括单变量
-2,只有双等位变量站点
*-c:用于调用子命令的连续命令模式[1,0]
-1[默认值]:调用子命令将运行该子命令**,并运行管道中的所有后续步骤**
-0:仅调用子命令运行**该子命令
output
===
nexus file,其中变量站点在单个对齐方式中。在大多数主要的系统发育软件中,可用作仅与可变位点设置连接的对齐方式。
测试数据
==
文件夹test_data(https://github.com/rachelss/sisrs_test_data)包含simtree.tre中发现的10个物种的模拟数据。使用40个处理器,这次运行需要9分钟。使用raxml分析sisrs的对齐输出生成了正确的树。
sample commands
==
1。基本的sisrs运行:从fastq文件开始,生成可变站点的对齐方式
```
sisrs sites-g 1745690
```
2。基本的SISR运行时需要修改
```
SISR站点-g 1745690-p 40-m 4-f/usr/test_data-z/usr/output_data-t.99-a minia
```
3。仅运行sisrs读取子采样步骤
```
sisrs子采样-g 1745690-f/usr/test_data-c 0
```
4。根据基本SISR运行中最可变的轨迹生成轨迹对齐。注意-如果(并且仅当)以前没有运行过SISRS位点,则该命令将运行SISRS位点。
````
SISRS位点-G 1745690-P 40-L 2-F/USR/test_data首先是位点,然后是位点
sisrs位点-g 1745690-p 40-l 2-f/usr/sisrs位点输出将从以前的位点数据运行位点
```
5。从你的fastq文件中获取已知的基因座。