tiptoft:从未修正的长读数据中预测哪个质粒应该存在

tiptoft的Python项目详细描述


#tiptoft
给出一些未经校正的原始长读,例如来自pacbio或oxford nanopore的那些,预测应该存在哪个质粒。长读数据的集合常常会错过质粒,特别是当它们非常小或者拷贝数与染色体相比太高/太低时。此软件可指示预期的质粒,并标记程序集的潜在问题。

[![构建状态](https://travis-ci.org/andrewjpage/tiptoft.svg?branch=master)(https://travis ci.org/andrewjpage/tiptoft)
[![许可证:gpl v3](https://img.shields.io/badge/license gpl%20v3 brightgreen.svg)](https://github.com/andrewjpage/tiptoft/blob/master/license)
[![codecov](https://codecov.io/gh/andrewjpage/tiptoft/branch/master/graph/badge.svg)(https://codecov.io/gh/andrewjpage/tiptoft)
[![Docker构建状态](https://img.shields.io/docker/build/andrewjpage/tiptoft.svg)(https://hub.docker.com/r/andrewjpage/tiptoft)
[![Docker Pulls](https://img.shields.io/docker/pulls/andrewjpage/tiptoft.svg)(https://hub.docker.com/r/andrewjpage/tiptoft)


质粒的检测和分型,使用质粒载体和质粒多位点序列分型*,**抗菌药物化疗**2014;58(7):3895-3903。[查看](https://www.ncbi.nlm.nih.gov/pmc/articles/pmc4068535/)



cython需要提前安装。假设您安装了Python3.4+和PIP,只要运行:
``
pip3 install cython
pip3 install tiptoft
````

>或者如果您希望安装最新的开发版本:
````
pip3 install git+git://github.com/andrewjpage/tiptoft.git
``

debian/ubuntu(trusty/xenial)
在ubuntu上安装python3运行:
``
sudo apt get update-qq
sudo apt get install-y git python3 python3 setuptools python3 biopython python3 pip
pip3 install cython
pip3 install tiptoft
```

docker
install[docker](https://www.docker.com/)。有一个Docker容器是从最新版本的Tiptoft自动生成的。要安装它:

```
docker pull andrewjpage/tiptoft
````

使用此respository中的示例文件:
``
docker run--rm-it-v/path/to/example廑data:/example廑data andrewjpage/tiptoft tiptoft/example廑data/ers654932廑plastids.fastq.gz
````


然后运行linux:

```
brew install python这是python v3
pip3 install cython
pip3 install tiptoft
```
bioconda
install[bioconda](http://bioconda.github.io/),然后运行:

````
conda install tiptoft
```

这不是一个受支持的平台,因为作者不使用Windows,因此请自行承担使用风险。

为了方便起见,此存储库附带了一个快照,或者您也可以使用下载程序脚本获取最新数据。此步骤需要Internet访问。请记住引用纤溶酶文件。

```
用法:tiptoft_database_downloader[选项]output_prefix

download纤溶酶数据库


位置参数:
output_prefix output prefix

可选参数:
-h,--帮助显示此帮助消息并退出
--verbose,-v打开调试(默认值:false)
--version显示程序的版本号并退出
```

只需运行:
`````
tiptoft_database_downloader
````
现在您将拥有一个名为"plasm_file s.fa"的文件,该文件可以与主脚本一起使用。

tiptoft script
这是应用程序的主脚本。强制输入是一个长读的fastq文件,可以选择gzip。
```
用法:tiptoft[options]input.fastq


--帮助显示此帮助消息并退出

可选输入参数:
--质粒数据质粒数据,-d质粒数据
fasta文件,其中包含来自下载程序的质粒数据
脚本,默认为绑定数据库(默认值:无)
--k mer kmer,-k kmer k-mer size(默认值:13)


可选输出参数:
--筛选读取文件筛选读取文件,-f过滤读取文件
要将匹配读取保存到的文件名(默认值:无)
--输出文件输出文件,-输出文件
输出文件[stdout](默认值:无)
--打印间隔打印间隔,-p打印间隔
每次读取时打印结果(默认值:
无)
--详细,-v打开调试[假]
--版本显示程序的版本号并退出

可选的高级输入参数:
--要连续的块的最大间隙最大间隙,以K-MER大小(默认值:3)的倍数
--用于映射的块周围的边距侧翼区域
(默认值:10)
--最小块大小最小块大小(默认值:130)
--min_fasta_hits min_fasta_hits,-m min_fasta_hits
与读取匹配的最小Kmer数(默认值:10)
--min_perc_coverage min_perc_coverage,-c min_perc_coverage
键入序列的最小覆盖百分比
报告(默认值:85)
--min_kmers_for_onex_pass min_kmers_for_onex_pass
匹配读入第一个过程的最小kmers数
(默认值:10)
`````

单个fastq文件。它可以选择gzip。或者,可以使用破折号字符(-)作为输入文件名从stdin读取输入。该文件必须包含长读取,例如来自pacbio或oxford nanopore的读取。忽略质量分数。

这是由tiptoft_database_downloader脚本生成的。它来自于plastidfinder网站,因此请务必引用他们的论文(每次运行脚本时都会打印引用)。



如果你想在质粒上进行进一步的组装,这个文件很有用。ld不存在。

输出文件输出:默认情况下,将结果打印到标准输出。如果您提供一个输出文件名(该文件名必须不存在),它将把结果打印到文件中。

但是,您可以在每x次读取后打印中间结果,如果您正在将数据实时流式传输到应用程序中,并且当您有足够的信息时可以停止,这将非常有用。它们之间用"***"隔开。

u verbose:启用调试模式,将大量额外输出打印到stdout。

u version:打印版本号并退出。



尺寸。这允许在要跨越的读取中出现短区域的提升错误。

这允许k-mers重叠末端。

这在很大程度上加快了分析速度,但可能会丢失某些读取,特别是如果它们具有部分rep/inc序列。


这是加快分析速度的一个硬最小阈值。

此实例中的覆盖率是底层序列的kmer覆盖率(而不是覆盖深度)。


这大大加快了分析速度,但有可能丢失某些读取,特别是如果它们具有部分rep/inc序列。

您可以选择使用'-o'参数将其打印到文件中。如果希望看到中间结果,可以告诉它使用'-p'参数打印每一次x读取,并用'****'分隔。输出示例是:

```
基因完整性%覆盖率数据库产品
rep7.1完整100 ab037671质粒供体rep7.1_-repc(盒)u-ab037671
rep7.5部分99 af378372质粒供体rep7.5_-cds1(pkc5b)_-af378372
rep7.6部分94 sau38656质粒供体rep7.6_-orf(pkh1)_-sau38656
rEP7.9完整100 NC007791质粒传单器REP7.9 U CDS3(pusa02)U NC007791
REP7.10部分91 NC_.1质粒传单器REP7.10 U REPC(pkh17)U NC_.1
REP7.12部分93 GQ900417.1质粒传单器REP7.12 U REP(sap060b)U GQ900417.1
REP7.17完整100 AM99999993.3.1质粒传单器REP7.17 U REPC(PS0385-85-17-U REPC)REPC(PS0385-070707070707070385-0707-070707.9-0707.1)上午990993.1
rep20.11完整100 ap003367纤溶酶原rep20.11_repa(vrsap)_ap003367
repus14。完整100 ap003367纤溶酶原repus14。_repa(vrsap)_ap003367
````



完整性:如果基因中的所有k-mers都在reads中找到,完整性被标记为"full",否则如果缺少一些k-mers,则被标记为"partial"。

100表示基因中的每一个k-mer都被覆盖。不显示低覆盖率结果(由--min_perc_coverage参数控制)。

您可以在NCBI或EBI中查找此信息。

r/>
u product:这是在数据库中找到的基因的完整产物。

下载后运行:

```
tiptoft ers654932_plastids.fastq.gz
````

[预期输出](https://raw.githubusercontent.com/andrewjpage/tiptoft/master/example_data/expected_output)在存储库中。它使用捆绑数据库,但是如果您希望使用最新的数据库,您应该运行tiptoft_database_downloader脚本。

[GPLv3](https://github.com/andrewjpage/tiptoft/blob/master/gpl-license)。

软件我们欢迎拉的要求。请转移回购协议,进行更改,然后提交一个拉取请求,详细说明更改内容及其修复/添加的内容。





欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Requestcontextholder在spring 4中具有并发访问权限。IBMWebSphere上的x Web应用程序?   java如何下载、设置和使用Eclipse?   java如何组合这些mysql语句   java JDBC无法连接到openshift上的mysql数据库   如果存在允许正确处理的重载,java对于方便的方法来说是否可行?   使用hibernate序列的java Spring MVC不存在   具有路径的java Selenium ChromeDriver负载扩展问题   读一本书。java中的java文件   退出队列时,Java队列程序结果为空   Java lambda返回带有重复代码问题的列表   java使用意图从其他活动传递数据并在listview中显示   java如何在java中创建JSON输出   java Android:在不破坏或暂停活动的情况下关闭显示   支持Android电视和手机的java多apk   关于Java应用程序测试和调试的一组问题   如何在JavaSE中使用jdbcRealmShiro进行授权   在java中是否有一个无异常检查的URL解析实用程序?   当页面上有多个相同类型的元素时,java会选择一个特定的元素   递归需要帮助发现java代码中的缺陷