tree to reads-一个python脚本,用于读取树、解析多原子、生成突变和模拟ngs reads。
TreeToReads的Python项目详细描述
#treetoreads
从真实的系统发生学中生成下一代测序读取的模拟管道。
可用于测试进化模型、进化率、突变的基因组分布、样本和参考基因组的系统发育关系对snp调用和进化推断的影响。
输入是一种系统发育,一个用作树尖的基因组,
和控制文件中的一组配置参数
代表系统发育中所有尖端的基因组,
和模拟全基因组测序读取代表这些基因组。
这些对于分析管道的测试和比较很有用。
突变目前仅为单核苷酸变体-没有索引或重排。
代码仍在开发中-但欢迎测试,并将通过电子邮件ejmctavish和gmail提供支持。
>
-seq gen
-art
(如果想生成突变基因组,但不读取,可以不使用art运行,但不读取)
-samtools(要输出已排序的bam文件而不是sam)
安装要求
安装树状突r/>
pip2-dendropy-pip2-dendropy-pip2-dendropy-pip2-dendropy安装seq gen软件模拟突变(http://tree.bio.ed.ac.uk/software/seqgen/software/seqgen/software/seqgen/)
艺术和samtools是可选的l,但是需要生成来自模拟基因组的读操作
安装art,从模拟基因组生成短读操作的软件(http://www.niehs.nih.gov/research/resources/software/biostatistics/art/)
在使用apt get的ubuntu上:
wget http://www.niehs.nih.gov/research/resources/assets/docs/artbinvanillaicecream031114linux64tgz.tgz
tar-xzvf-artbinvanilliaicecomean031114linux64tgz.tgz
>将艺术照明添加到路径(请访问http://askububuntu.com/questions/60218/how-to-a d d-a-directory-to-my-path)中
>在mac或linux(使用自制软件)上:在mac或linux(使用自制软件)上:
从sam文件中排序bam文件(并保存disk space)(http://www.htslib.org/)
cktavish/treetoreads.git
cd treetoreads
python treetoreads.py seksim.cfg
编辑配置文件seksim.cfg以适合您的数据。
默认情况下,脚本会查找名为"seksim.cfg"的文件
或者第一个参数可以是指向任何名称的控制文件的路径。
lumina数据。
或者,可以生成基因组,使用任何选定的参数单独运行art。
[完整教程](https://github.com/snacktavish/treetoreds/blob/master/docs/tutorial.md)
d一些其他有用的信息。
如果成功运行,它将以
"treetoreads completed successfully"结束!
输出文件将位于
seqsim.cfg文件中指定的输出目录中,例如example_out
,其中包括:
每个文件夹中都有模拟树中每个提示的名称,其中每个文件夹中都有gziped simulated fastq.
mutsites.txt-基因组中突变位置的无序列表
seq gen.out-来自seq gen软件的输出消息
simtree.tre.bu-树的备份副本
simtree.tre-用于模拟的树:用0长度的分支随机解析的重新格式化和多原子
analysis.sh-分析运行的bash命令
这些文件夹包含fastq格式的模拟读取
Seqs_sim.txt-一个用于生成可变位点的中间文件
snpmatrix-一个格式为sequence,base,position的文件,描述基因组中所有可变位点
art_log-来自art软件的日志消息
docker pull snacktavish/treetoreads
docker run snacktavish/treetoreads seqsim.cfg
ads_config.cfg``.
(有关在容器中装入主机目录的详细信息,请参阅[docker手册](http://docs.docker.com/engine/reference/run/volume shared filesystems.)
Ndropy、Art和Seqgen.
请在使用此模拟管道(以下适当引用)的任何出版作品中引用它们(以及本回购协议)
McTavish E.J.,Timme R,(2015)Tree to Reads。https://github.com/snacktavish/treetoreads
Huang W.,Li L,Myers J.R.,Marth G.T.(2012年)。艺术:下一代测序读取模拟器,生物信息学28(4):593-594
li h.,handsaker b.,wysoker a.,fennell t.,ruan j.,homer n.,marth g.,abecasis g.,durbin r.和1000基因组项目数据处理亚组(2009),序列比对/地图(sam)格式和samtools。生物信息学,252078-9
Rambaut A.和Grassly N.C.(1997)Seq Gen:沿系统发生树的DNA序列进化的蒙特卡罗模拟应用。计算机。APPL比奥西13:235-238
Sukumaran,J.和Mark T.Holder。2010。树状体:一个用于系统发生计算的python库。生物信息学26:1569-1571。
从真实的系统发生学中生成下一代测序读取的模拟管道。
可用于测试进化模型、进化率、突变的基因组分布、样本和参考基因组的系统发育关系对snp调用和进化推断的影响。
输入是一种系统发育,一个用作树尖的基因组,
和控制文件中的一组配置参数
代表系统发育中所有尖端的基因组,
和模拟全基因组测序读取代表这些基因组。
这些对于分析管道的测试和比较很有用。
突变目前仅为单核苷酸变体-没有索引或重排。
代码仍在开发中-但欢迎测试,并将通过电子邮件ejmctavish和gmail提供支持。
>
-seq gen
-art
(如果想生成突变基因组,但不读取,可以不使用art运行,但不读取)
-samtools(要输出已排序的bam文件而不是sam)
安装要求
安装树状突r/>
pip2-dendropy-pip2-dendropy-pip2-dendropy-pip2-dendropy安装seq gen软件模拟突变(http://tree.bio.ed.ac.uk/software/seqgen/software/seqgen/software/seqgen/)
艺术和samtools是可选的l,但是需要生成来自模拟基因组的读操作
安装art,从模拟基因组生成短读操作的软件(http://www.niehs.nih.gov/research/resources/software/biostatistics/art/)
在使用apt get的ubuntu上:
wget http://www.niehs.nih.gov/research/resources/assets/docs/artbinvanillaicecream031114linux64tgz.tgz
tar-xzvf-artbinvanilliaicecomean031114linux64tgz.tgz
>将艺术照明添加到路径(请访问http://askububuntu.com/questions/60218/how-to-a d d-a-directory-to-my-path)中
>在mac或linux(使用自制软件)上:在mac或linux(使用自制软件)上:
从sam文件中排序bam文件(并保存disk space)(http://www.htslib.org/)
cktavish/treetoreads.git
cd treetoreads
python treetoreads.py seksim.cfg
编辑配置文件seksim.cfg以适合您的数据。
默认情况下,脚本会查找名为"seksim.cfg"的文件
或者第一个参数可以是指向任何名称的控制文件的路径。
lumina数据。
或者,可以生成基因组,使用任何选定的参数单独运行art。
[完整教程](https://github.com/snacktavish/treetoreds/blob/master/docs/tutorial.md)
d一些其他有用的信息。
如果成功运行,它将以
"treetoreads completed successfully"结束!
输出文件将位于
seqsim.cfg文件中指定的输出目录中,例如example_out
,其中包括:
每个文件夹中都有模拟树中每个提示的名称,其中每个文件夹中都有gziped simulated fastq.
mutsites.txt-基因组中突变位置的无序列表
seq gen.out-来自seq gen软件的输出消息
simtree.tre.bu-树的备份副本
simtree.tre-用于模拟的树:用0长度的分支随机解析的重新格式化和多原子
analysis.sh-分析运行的bash命令
这些文件夹包含fastq格式的模拟读取
Seqs_sim.txt-一个用于生成可变位点的中间文件
snpmatrix-一个格式为sequence,base,position的文件,描述基因组中所有可变位点
art_log-来自art软件的日志消息
docker pull snacktavish/treetoreads
docker run snacktavish/treetoreads seqsim.cfg
ads_config.cfg``.
(有关在容器中装入主机目录的详细信息,请参阅[docker手册](http://docs.docker.com/engine/reference/run/volume shared filesystems.)
Ndropy、Art和Seqgen.
请在使用此模拟管道(以下适当引用)的任何出版作品中引用它们(以及本回购协议)
McTavish E.J.,Timme R,(2015)Tree to Reads。https://github.com/snacktavish/treetoreads
Huang W.,Li L,Myers J.R.,Marth G.T.(2012年)。艺术:下一代测序读取模拟器,生物信息学28(4):593-594
li h.,handsaker b.,wysoker a.,fennell t.,ruan j.,homer n.,marth g.,abecasis g.,durbin r.和1000基因组项目数据处理亚组(2009),序列比对/地图(sam)格式和samtools。生物信息学,252078-9
Rambaut A.和Grassly N.C.(1997)Seq Gen:沿系统发生树的DNA序列进化的蒙特卡罗模拟应用。计算机。APPL比奥西13:235-238
Sukumaran,J.和Mark T.Holder。2010。树状体:一个用于系统发生计算的python库。生物信息学26:1569-1571。