短读序列的站点标识。

sisrs的Python项目详细描述


#以用户身份运行sisrs

\install docker
请按照[此处](https://docs.docker.com/install/)说明为您的操作系统安装
docker ce。

例如,如果您在ubuntu上
,您将遵循特定的说明
[这里](https://docs.docker.com/install/linux/docker ce/ubuntu/)。

他们只是想卖给你一些东西。


注意,sisrs目前只在linux上运行。


##运行sisrs

首先使用上面获得的图像启动docker容器:

`docker run-it anderspitman/sisrs bash`

>然后从docker容器中:

`````
``````pip安装sisrs
sisrs python
````

sisrs



sisrs
=


sisrs:短读序列的站点标识
1.6.2版
版权所有(C)2013-2016 Rachel Schwartz<;Rachel.Schwartz@ASU.edu>;
https://github.com/rachel s s/sisrs
更多信息:Schwartz,R.S.,K.M Harkins,A.C.斯通和R.A.卡特赖特。2015。从下一代测序中识别系统发育信息数据的复合基因组方法。生物信息学。16:193.
(http://www.biomedcentral.com/1471-2105/16/193/)


《2014年进化论》描述了SISR及其应用:
https://www.youtube.com/watch?v=0ompuwc-j2e&list=uuq2czf2dnfviuvg4tyrh5ng


许可证
==


此程序是自由软件:您可以根据自由软件基金会发布的GNU通用公共许可证的条款(许可证的第3版)或(在您的(可选)任何更高版本。

本程序的发布目的是希望它会有用,但没有任何保证;甚至没有针对特定用途的适销性或适用性的隐含保证。详见GNU通用公共许可证。

(http://minia.genouest.org/)
*深渊(使用v.2.0.2进行测试)(http://www.bcgsc.ca/platform/bioinfo/software/absis)
*鲍蒂2号(http://bowtie bio.sourceforge.net/bowtie2/index.shtml)
*蟒蛇2.7,生物圈,和pysam
*samtools v1.3.1(http://www.htslib.org/)
*gnu parallel(http://www.gnu.org/software/parallel/)
*mafft(http://mafft.cbrc.jp/alignment/software/)
*bbmap[需要Java](https://sourceforge.net/projects/bbmap/)


input
=


illumina hiseq reads等数据。
数据必须按分类单元(例如物种或属)分类到文件夹中。
fastq格式的成对读取必须由(其他相同的)文件名中的r1和r2指定。
成对和非成对读取必须具有fastq文件扩展名。

sisrs
==


用法:


sisrs命令选项

默认情况下,sisrs假设


*参考基因组不可用,将使用velvet装配复合装配
*velvet在contig装配中使用的k-mer大小为21.
*只有一个处理器可用。
*文件采用fastq格式。
*成对读取的文件名以"r1"和"r2"结尾
*一个站点只需要有两个种类的数据才能包含在最终对齐中。
*包含读取的文件夹在当前工作中目录
*SISRS数据将输出到当前工作目录
*调用基A至少需要三次读取t一个分类单元的位点


运行SISRS子采样方案,子采样读取所有分类群的数据,覆盖范围为物种的10倍,相对于用户指定的基因组大小

**构建contigs**:给定子采样读取,使用用户指定的汇编程序运行sisrs复合基因组汇编

**aligncontigs**:以单端、唯一映射的方式对齐读取复合基因组

**mapcontigs**:将复合基因组读取与参考基因组(可选)对齐类群内无变化

**输出对齐**:SISRS站点的输出对齐文件

**更改缺失**:给定的站点对齐(alignment.nex),输出一个文件,其中每个站点只缺少少于指定数量的样本



\:fasta格式的参考基因组路径*[可选]*
*-k:k-mer size(用于程序集)*[默认值:21]*
*-f:包含读取文件夹的目录的绝对路径*[默认值:当前目录]*
*-z:指向空目录或不存在目录的绝对路径,其中sisrs将输出数据*[默认值:当前目录]*
*-n:调用站点上的基所需的读取数*[默认值:3]*
*-t:调用站点的阈值;例如0.99表示该分类单元的99%基必须是一个等位基因;仅建议用于具有<;3;的低倍性个体*[默认值:1(100%)]*
*-m:允许在一个位点有缺失数据的物种数量
*-o:用于定年的最终位点数据集的长度
*-l:等位基因数量
*-a:汇编程序[天鹅绒、迷你、深渊或premade;*默认值:天鹅绒*]
-如果使用预编码的复合基因组,它必须位于名为"premadeoutput"的文件夹中,该文件夹与读取数据的文件夹位于同一目录中,并且必须名为"contigs.fa"
*-s:运行"locits"[0,1,2]
-0[默认值]时要分析的位点,所有可变位点,包括单基因
-1,变量站点不包括单变量
-2,只有双等位变量站点
*-c:用于调用子命令的连续命令模式[1,0]
-1[默认值]:调用子命令将运行该子命令**,并运行管道中的所有后续步骤**
-0:仅调用子命令运行**该子命令

output
===


nexus file,其中变量站点在单个对齐方式中。在大多数主要的系统发育软件中,可用作仅与可变位点设置连接的对齐方式。


测试数据
==


文件夹test_data(https://github.com/rachelss/sisrs_test_data)包含simtree.tre中发现的10个物种的模拟数据。使用40个处理器,这次运行需要9分钟。使用raxml分析sisrs的对齐输出生成了正确的树。


sample commands
==

1。基本的sisrs运行:从fastq文件开始,生成可变站点的对齐方式
```
sisrs sites-g 1745690
```
2。基本的SISR运行时需要修改
```
SISR站点-g 1745690-p 40-m 4-f/usr/test_data-z/usr/output_data-t.99-a minia
```
3。仅运行sisrs读取子采样步骤
```
sisrs子采样-g 1745690-f/usr/test_data-c 0
```
4。根据基本SISR运行中最可变的轨迹生成轨迹对齐。注意-如果(并且仅当)以前没有运行过SISRS位点,则该命令将运行SISRS位点。
````
SISRS位点-G 1745690-P 40-L 2-F/USR/test_data首先是位点,然后是位点
sisrs位点-g 1745690-p 40-l 2-f/usr/sisrs位点输出将从以前的位点数据运行位点
```
5。从你的fastq文件中获取已知的基因座。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
具有x86javapath的x64机器上x86java上的java JNI未满足链接错误   java将Pixmap的一部分上传到GPU   图像Java位图RLE8格式   java Android studio谷歌广告崩溃应用程序   java如何创建包含未知数量对象的变量?   Java计算给定int数组的所有可能组合   java JDBC classnotfound异常   httpclient中的java将HttpEntity转换为字符串的最优雅/正确的方法是什么?   如何从Java程序运行nano?   java在安卓中调用自定义类/方法   调用方法和JOptionPane后,允许代码继续执行所需的java计时器或其他想法   关于侦听器的向量Java并发问题   线程池执行器Java线程池   java配置DTO上的Swagger javax验证约束   Java中用于按钮功能的swing操作命令   ServletOutputStream中的java设置状态代码   java打印输入数组的平均值