tree to reads-一个python脚本,用于读取树、解析多原子、生成突变和模拟ngs reads。

TreeToReads的Python项目详细描述


#treetoreads

从真实的系统发生学中生成下一代测序读取的模拟管道。
可用于测试进化模型、进化率、突变的基因组分布、样本和参考基因组的系统发育关系对snp调用和进化推断的影响。

输入是一种系统发育,一个用作树尖的基因组,
和控制文件中的一组配置参数

代表系统发育中所有尖端的基因组,
和模拟全基因组测序读取代表这些基因组。
这些对于分析管道的测试和比较很有用。
突变目前仅为单核苷酸变体-没有索引或重排。

代码仍在开发中-但欢迎测试,并将通过电子邮件ejmctavish和gmail提供支持。





>
-seq gen
-art



(如果想生成突变基因组,但不读取,可以不使用art运行,但不读取)
-samtools(要输出已排序的bam文件而不是sam)

















安装要求
安装树状突r/>

pip2-dendropy-pip2-dendropy-pip2-dendropy-pip2-dendropy安装seq gen软件模拟突变(http://tree.bio.ed.ac.uk/software/seqgen/software/seqgen/software/seqgen/)



















艺术和samtools是可选的l,但是需要生成来自模拟基因组的读操作
安装art,从模拟基因组生成短读操作的软件(http://www.niehs.nih.gov/research/resources/software/biostatistics/art/)


在使用apt get的ubuntu上:

wget http://www.niehs.nih.gov/research/resources/assets/docs/artbinvanillaicecream031114linux64tgz.tgz
tar-xzvf-artbinvanilliaicecomean031114linux64tgz.tgz



>将艺术照明添加到路径(请访问http://askububuntu.com/questions/60218/how-to-a d d-a-directory-to-my-path)中








>在mac或linux(使用自制软件)上:在mac或linux(使用自制软件)上:







从sam文件中排序bam文件(并保存disk space)(http://www.htslib.org/)


cktavish/treetoreads.git
cd treetoreads
python treetoreads.py seksim.cfg

编辑配置文件seksim.cfg以适合您的数据。
默认情况下,脚本会查找名为"seksim.cfg"的文件
或者第一个参数可以是指向任何名称的控制文件的路径。

lumina数据。
或者,可以生成基因组,使用任何选定的参数单独运行art。

[完整教程](https://github.com/snacktavish/treetoreds/blob/master/docs/tutorial.md)

d一些其他有用的信息。
如果成功运行,它将以
"treetoreads completed successfully"结束!

输出文件将位于
seqsim.cfg文件中指定的输出目录中,例如example_out
,其中包括:

每个文件夹中都有模拟树中每个提示的名称,其中每个文件夹中都有gziped simulated fastq.
mutsites.txt-基因组中突变位置的无序列表

seq gen.out-来自seq gen软件的输出消息
simtree.tre.bu-树的备份副本
simtree.tre-用于模拟的树:用0长度的分支随机解析的重新格式化和多原子
analysis.sh-分析运行的bash命令
这些文件夹包含fastq格式的模拟读取
Seqs_sim.txt-一个用于生成可变位点的中间文件
snpmatrix-一个格式为sequence,base,position的文件,描述基因组中所有可变位点
art_log-来自art软件的日志消息

docker pull snacktavish/treetoreads
docker run snacktavish/treetoreads seqsim.cfg

ads_config.cfg``.

(有关在容器中装入主机目录的详细信息,请参阅[docker手册](http://docs.docker.com/engine/reference/run/volume shared filesystems.)




Ndropy、Art和Seqgen.
请在使用此模拟管道(以下适当引用)的任何出版作品中引用它们(以及本回购协议)


McTavish E.J.,Timme R,(2015)Tree to Reads。https://github.com/snacktavish/treetoreads


Huang W.,Li L,Myers J.R.,Marth G.T.(2012年)。艺术:下一代测序读取模拟器,生物信息学28(4):593-594

li h.,handsaker b.,wysoker a.,fennell t.,ruan j.,homer n.,marth g.,abecasis g.,durbin r.和1000基因组项目数据处理亚组(2009),序列比对/地图(sam)格式和samtools。生物信息学,252078-9


Rambaut A.和Grassly N.C.(1997)Seq Gen:沿系统发生树的DNA序列进化的蒙特卡罗模拟应用。计算机。APPL比奥西13:235-238


Sukumaran,J.和Mark T.Holder。2010。树状体:一个用于系统发生计算的python库。生物信息学26:1569-1571。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
正则表达式Java使用关键字拆分字符串   Neo4j Java API模式索引范围查找?   java访问JButton[]   java如何混淆tomcat日志文件中的请求属性   apache运行CGI Java程序   java从一个Eclipse插件开始,我如何通过编程使Eclipse编辑某个文件?   从php中的SQL数据库到Java中的多个值作为单独的变量   java如何在多个osgi捆绑包之间共享资源   datetime Java time,无法从历元秒解析年份   java无法在安卓应用程序中使用morpho指纹扫描仪设备捕获指纹   java使用groovy/ratpack发送电子邮件   javascript在jsp页面中添加验证,但在控制台中仍然显示一些错误   java如何修复com。mysql。jdbc。DocsConnectionPropsHelper   java AlertDialog dispatchTouchEvent