Python plasmidpredictor包_程序模块 - PyPI

质粒诊断仪：从未修正的长读数据中预测哪个质粒应该存在

plasmidpredictor的Python项目详细描述

#质粒检测器
给出一些未经校正的原始长读，例如来自pacbio或oxford nanopore的那些，预测应该存在哪个质粒。长读数据的集合常常会错过质粒，特别是当它们非常小或者拷贝数与染色体相比太高/太低时。此软件可指示预期的质粒，并标记程序集的潜在问题。

[！[构建状态]（https://travis-ci.org/andrewjpage/plastidpedictor.svg？branch=master）（https://travis ci.org/andrewjpage/plastidpedictor）

论文
即将面世。

序列分型"，Carattoli等人，抗微生物药物化学疗法。2014年7月；58（7）：3895–3903。https://www.ncbi.nlm.nih.gov/pmc/articles/pmc4068535/

假设您安装了python3.3+和pip，只要运行：
```
pip3 install git+git://github.com/andrewjpage/plastidpedictor.git
`````

debian/ubuntu（trusty/xenial）
在ubuntu上安装python3，作为根运行：
````
apt get update-qq
apt get install-y git python3 python3 setuptools python3 biopython python3 pip
pip3安装git+git://github.com/andrewjpage/plastidpedictor.git
`````

尝试使用Linux虚拟机。

为了方便起见，此存储库附带了一个快照，或者您也可以使用下载程序脚本获取最新数据。此步骤需要Internet访问。请记住引用纤溶酶打印机纸张。

```
用法：纤溶酶打印机数据库下载程序[选项]输出前缀

下载纤溶酶打印机数据库

s帮助消息并退出
--verbose，-v打开调试（默认值：false）
--version显示程序的版本号并退出
````

这是应用程序的主脚本。强制输入是一个长读的fastq文件，可以选择gzip格式。
````
用法：plasticdpredictor[options]input.fastq

（可选gzip）

脚本，默认为绑定数据库（默认值：无）
--k mer kmer，-k kmer k-mer size（默认值：13）

可选输出参数：
--筛选读取文件筛选读取文件，-f筛选读取文件
要将匹配读取保存到的文件名（默认值：无）
--输出文件输出文件，-o输出文件
输出文件[stdout]（默认值：无）
--打印间隔打印间隔，-p打印间隔
每次读取都打印结果（默认值：
无）
--详细，-v打开调试[假]
--版本显示程序的版本号并退出

可选的高级输入参数：
--最大间隙要连续的块的最大间隙最大间隙，以K-MER大小（默认值：3）的倍数
--要用于映射的块周围的边距侧翼区域
（默认值：10）
--最小块大小最小块大小
最小块大小（D默认值：130）
--min_fasta_hits min_fasta_hits，-m min_fasta_hits
与读取匹配的最小Kmer数（默认值：10）
--min_perc_coverage min_perc_coverage，-c min_perc_coverage
到
报告的键入序列的最小百分比coverage（默认值：85）
--min_kmers_for_onex_pass min_kmers_for_onex_pass
与读入第一个过程匹配的最小kmer数
（默认值：10）
`````

它可以选择gzip。或者，可以使用破折号字符（-）作为输入文件名从stdin读取输入。该文件必须包含长读取，例如来自pacbio或oxford nanopore的读取。忽略质量分数。

这是由plastidpedictor_database_downloader脚本生成的。它来自于plastidfinder网站，因此请务必引用他们的论文（每次运行脚本时都会打印引用）。

如果你想在质粒上进行进一步的程序集，这很有用。这个文件不应该已经存在。

输出文件输出：默认情况下，将结果打印到标准输出。如果您提供一个输出文件名（该文件名必须不存在），它将把结果打印到文件中。

但是，您可以在每x次读取后打印中间结果，如果您正在将数据实时流式传输到应用程序中，并且当您有足够的信息时可以停止，这将非常有用。它们之间用"***"隔开。

u verbose：启用调试模式，将大量额外输出打印到stdout。

u version：打印版本号并退出。

这允许在要跨越的读取中出现短区域的提升错误。

这允许k-mers重叠末端。

这在很大程度上加快了分析速度，但可能会丢失某些读取，特别是如果它们具有部分rep/inc序列。

这是一个很难加快分析速度的最小阈值。

_ perc_coverage：仅报告高于此百分比覆盖率的rep/inc序列。此实例中的覆盖率是底层序列的kmer覆盖率（而不是覆盖深度）。

这大大加快了分析速度，但有可能丢失某些读取，特别是如果它们具有部分rep/inc序列。

您可以选择使用'-o'参数将其打印到文件中。如果希望看到中间结果，可以告诉它使用'-p'参数打印每一次x读取，并用'****'分隔。输出的一个例子是：

```
基因完整性%覆盖率数据库产品
rep7.1完整的100个ab037671质粒供体rep7.1_-repc（盒式磁带）_-ab037671
rep7.5部分的99个af378372质粒供体rep7.5_-cds1（pkc5b）_-af378372
rep7.6部分的94个sau38656质粒供体rep7.6_-orf（pkh1）_-sau38656
rep7.9完整的100个nc007791 p7.9 U CDS3（pusa02）_NC007791
rep7.10部分91 NC_.1质粒传单器rep7.10 U repc（pkh17）_NC_.1
rep7.12部分93 GQ900417.1质粒传单器rep7.12 U rep7.12 U rep7.12（sap060b）_G900417.1
rep7.17完整100 am9999999993.1质粒传单器rep7.17 U repc（ps0385-1）_am99999999999999999993.3.17完整100 100 am99999999999999999993.1。1质粒传单器rep7.17.17 U repc（1
rep20.11完整的100 ap003367纤溶酶，位于rep20.11_repa（vrsap）中_AP003367
repus14.repus14.完整的100个AP003367纤溶酶。repus14.repa（vrsap）ap003367
````

uu gene：第一列是产品名称的第一部分。

完整性：如果基因中的所有k-mers都在reads中找到，完整性被标记为"full"，否则如果缺少一些k-mers，则被标记为"partial"。

100表示基因中的每一个k-mer都被覆盖。不显示低覆盖率结果（由--min_perc_coverage参数控制）。

你可以在NCBI或EBI上查到这一点。

lmonella需要80mb内存，不到1分钟。

欢迎加入QQ群-->： 979659372

plasmidpredictor 0.1.0

plasmidpredictor的Python项目详细描述

推荐PyPI第三方库

contentai-metadata-flatten

principal-fft

rqams_client

stackfuelpippip

nmtlab

python2pythondialog

flaskstaticdigest

dsnd-distributions-turuu

intents-classifier-beta4

django-mp-invoices

distributions-BOUNTY

hipay-python-sdk

my-py-rim-repo

geogr

lostruct

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

plasmidpredictor 0.1.0

plasmidpredictor的Python项目详细描述

推荐PyPI第三方库

contentai-metadata-flatten

principal-fft

rqams_client

stackfuelpippip

nmtlab

python2pythondialog

flaskstaticdigest

dsnd-distributions-turuu

intents-classifier-beta4

django-mp-invoices

distributions-BOUNTY

hipay-python-sdk

my-py-rim-repo

geogr

lostruct

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签