质粒诊断仪:从未修正的长读数据中预测哪个质粒应该存在

plasmidpredictor的Python项目详细描述


#质粒检测器
给出一些未经校正的原始长读,例如来自pacbio或oxford nanopore的那些,预测应该存在哪个质粒。长读数据的集合常常会错过质粒,特别是当它们非常小或者拷贝数与染色体相比太高/太低时。此软件可指示预期的质粒,并标记程序集的潜在问题。

[![构建状态](https://travis-ci.org/andrewjpage/plastidpedictor.svg?branch=master)(https://travis ci.org/andrewjpage/plastidpedictor)


论文
即将面世。


序列分型",Carattoli等人,抗微生物药物化学疗法。2014年7月;58(7):3895–3903。https://www.ncbi.nlm.nih.gov/pmc/articles/pmc4068535/



假设您安装了python3.3+和pip,只要运行:
```
pip3 install git+git://github.com/andrewjpage/plastidpedictor.git
`````

debian/ubuntu(trusty/xenial)
在ubuntu上安装python3,作为根运行:
````
apt get update-qq
apt get install-y git python3 python3 setuptools python3 biopython python3 pip
pip3安装git+git://github.com/andrewjpage/plastidpedictor.git
`````

尝试使用Linux虚拟机。

为了方便起见,此存储库附带了一个快照,或者您也可以使用下载程序脚本获取最新数据。此步骤需要Internet访问。请记住引用纤溶酶打印机纸张。

```
用法:纤溶酶打印机数据库下载程序[选项]输出前缀


下载纤溶酶打印机数据库

s帮助消息并退出
--verbose,-v打开调试(默认值:false)
--version显示程序的版本号并退出
````

这是应用程序的主脚本。强制输入是一个长读的fastq文件,可以选择gzip格式。
````
用法:plasticdpredictor[options]input.fastq


(可选gzip)

脚本,默认为绑定数据库(默认值:无)
--k mer kmer,-k kmer k-mer size(默认值:13)


可选输出参数:
--筛选读取文件筛选读取文件,-f筛选读取文件
要将匹配读取保存到的文件名(默认值:无)
--输出文件输出文件,-o输出文件
输出文件[stdout](默认值:无)
--打印间隔打印间隔,-p打印间隔
每次读取都打印结果(默认值:
无)
--详细,-v打开调试[假]
--版本显示程序的版本号并退出

可选的高级输入参数:
--最大间隙要连续的块的最大间隙最大间隙,以K-MER大小(默认值:3)的倍数
--要用于映射的块周围的边距侧翼区域
(默认值:10)
--最小块大小最小块大小
最小块大小(D默认值:130)
--min_fasta_hits min_fasta_hits,-m min_fasta_hits
与读取匹配的最小Kmer数(默认值:10)
--min_perc_coverage min_perc_coverage,-c min_perc_coverage

报告的键入序列的最小百分比coverage(默认值:85)
--min_kmers_for_onex_pass min_kmers_for_onex_pass
与读入第一个过程匹配的最小kmer数
(默认值:10)
`````

它可以选择gzip。或者,可以使用破折号字符(-)作为输入文件名从stdin读取输入。该文件必须包含长读取,例如来自pacbio或oxford nanopore的读取。忽略质量分数。

这是由plastidpedictor_database_downloader脚本生成的。它来自于plastidfinder网站,因此请务必引用他们的论文(每次运行脚本时都会打印引用)。



如果你想在质粒上进行进一步的程序集,这很有用。这个文件不应该已经存在。

输出文件输出:默认情况下,将结果打印到标准输出。如果您提供一个输出文件名(该文件名必须不存在),它将把结果打印到文件中。

但是,您可以在每x次读取后打印中间结果,如果您正在将数据实时流式传输到应用程序中,并且当您有足够的信息时可以停止,这将非常有用。它们之间用"***"隔开。

u verbose:启用调试模式,将大量额外输出打印到stdout。

u version:打印版本号并退出。



这允许在要跨越的读取中出现短区域的提升错误。

这允许k-mers重叠末端。

这在很大程度上加快了分析速度,但可能会丢失某些读取,特别是如果它们具有部分rep/inc序列。


这是一个很难加快分析速度的最小阈值。

_ perc_coverage:仅报告高于此百分比覆盖率的rep/inc序列。此实例中的覆盖率是底层序列的kmer覆盖率(而不是覆盖深度)。


这大大加快了分析速度,但有可能丢失某些读取,特别是如果它们具有部分rep/inc序列。

您可以选择使用'-o'参数将其打印到文件中。如果希望看到中间结果,可以告诉它使用'-p'参数打印每一次x读取,并用'****'分隔。输出的一个例子是:

```
基因完整性%覆盖率数据库产品
rep7.1完整的100个ab037671质粒供体rep7.1_-repc(盒式磁带)_-ab037671
rep7.5部分的99个af378372质粒供体rep7.5_-cds1(pkc5b)_-af378372
rep7.6部分的94个sau38656质粒供体rep7.6_-orf(pkh1)_-sau38656
rep7.9完整的100个nc007791 p7.9 U CDS3(pusa02)_NC007791
rep7.10部分91 NC_.1质粒传单器rep7.10 U repc(pkh17)_NC_.1
rep7.12部分93 GQ900417.1质粒传单器rep7.12 U rep7.12 U rep7.12(sap060b)_G900417.1
rep7.17完整100 am9999999993.1质粒传单器rep7.17 U repc(ps0385-1)_am99999999999999999993.3.17完整100 100 am99999999999999999993.1。1质粒传单器rep7.17.17 U repc(1
rep20.11完整的100 ap003367纤溶酶,位于rep20.11_repa(vrsap)中_AP003367
repus14.repus14.完整的100个AP003367纤溶酶。repus14.repa(vrsap)ap003367
````

uu gene:第一列是产品名称的第一部分。

完整性:如果基因中的所有k-mers都在reads中找到,完整性被标记为"full",否则如果缺少一些k-mers,则被标记为"partial"。

100表示基因中的每一个k-mer都被覆盖。不显示低覆盖率结果(由--min_perc_coverage参数控制)。

你可以在NCBI或EBI上查到这一点。

lmonella需要80mb内存,不到1分钟。







欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为什么加载个人密钥库需要这么多时间?   当我使用main创建Android应用程序UI时,如何通过java修改它。xml文件?   java Tomcat 6和7:WebappClassLoader:尝试为名称org/apache/openjpa/persistence/osgi/BundleUtils复制类定义   java`parseInt()`和`parseDouble()`throw`NumberFormatExeption`   JavaSpringMongoDB填充引用   在LinuxMint中打开Eclipse时发生java错误;OpenJDK 64位服务器VM警告:忽略选项MaxPermSize=512m;支持在8.0中被删除   使用PKCS7Padding的AES CBC加密在Java和Objective中有不同的结果   java为什么Jackson要用一个以类命名的额外层来包装我的对象?   json在Java中使用parallelStream提取值   JavaSpring存储库自动生成方法:按给定的顶部编号+按字段描述排序选择   java是否有可序列化的标准闭包接口?   .NET与Java在初创公司的web应用程序开发   如何修复java。java中的lang.unsatifiedLinkError   JavaFX+Spring Boot+Hibernate应用程序对多个环境的java支持   自定义视图组中的java更改未呈现