柏拉图:质粒的分类与表征
cb-platon的Python项目详细描述
说明
platon从细菌wgs短读程序集中检测质粒contigs。 因此,柏拉图计算复制子分布得分(rds)或标记蛋白 基于预先计算的蛋白质分布统计的每个帐户的序列(mps) 并根据特定的阈值测试它们。平均rds达不到的contigs 对所定义的阈值进行综合表征并最终分类 通过启发式过滤器。
柏拉图进行了三个分析步骤。首先,它预测并搜索编码 针对包含MPS和RD的自定义和预计算数据库的序列。 这些分数表达了质粒/染色体分布的测量偏差 基于完整的ncbi refseq基因组和质粒。 然后,柏拉图计算每个contig的平均rds,并对它们进行分类 如果rds低于敏感度临界值(95%敏感度)或 质粒如果rds高于特异性界限(99.99%特异性)。 这些阈值是基于蒙特卡罗模拟人工 从完整的refseq染色体和质粒序列创建的子序列。在第二 通过灵敏度滤波器的阶跃变换得到综合特征。 因此,柏拉图试图循环的连续序列,搜索rrna, 复制、动员、接合基因及不亲和群 DNA探针,最后对NCBI质粒数据库执行BLAST+搜索。 在第三步中,柏拉图最终根据一个启发式方法对所有剩余的contig进行分类。 方法,即遵循一组启发式过滤器。
输入/输出
输入
柏拉图接受固定格式的草稿程序集。如果组件已与 黑桃,platon能够从contig名称中提取覆盖信息。
输出
对于每个分类为质粒序列的contig,打印以下列 以制表符分隔值的方式输出:
- contig id
- 长度
- 覆盖范围
- #ORF
- 蛋白质评分
- 圆度
- 不兼容类型
- #复制基因
- #动员基因
- #结合基因
- #rrna基因
- #质粒数据库点击数
此外,柏拉图还将以下文件写入输出目录:
<;prefix>;
.plastium.fasta:contigs分类为质粒或疟原虫来源<;prefix>;
。染色体。fasta:分类为染色体起源的染色体<;prefix>;
.tsv:打印到标准输出的密集信息(见上文)<;prefix>;
.json:关于每个质粒contig的综合结果和信息。 所有文件都有前缀(<;prefix>;
)作为输入基因组fasta文件。
安装
柏拉图可以用两种不同的方式安装/使用。
Github
- 克隆存储库
- 下载并提取数据库 < > >
- 通过conda安装platon
- 下载并提取数据库 < > >
- 根据pip安装platon
- 下载并提取数据库
- 安装第三方二进制文件 < > >
- 浪子(2.6.3)https://www.ncbi.nlm.nih.gov/pmc/articles/pmc2848648" rel="nofollow">https://www.ncbi.nlm.nih.gov/pmc/articles/pmc28486448https://github.com/hyattpd/prodigal
- Ghostz(1.0.2)http://www.bi.cs.titech.jp/ghostz" rel="nofollow">
- blast+(2.7.1)https://www.ncbi.nlm.nih.gov/pubmed/2231712https://blast.ncbi.nlm.nih.gov
- mummer(4.0.0-beta2)https://www.ncbi.nlm.nih.gov/pmc/articles/pmc395750/https://github.com/gmarcais/mummer
- hmmer(3.2.1)http://hmmer.org/
- 无间道(1.1.2)https://www.ncbi.nlm.nih.gov/pmc/articles/pmc3810854" rel="nofollow">https://www.ncbi.nlm.nih.gov/pmc/articles/pmc381085054http://eddylab.org/inneral
示例:
$ git clone git@github.com:oschwengers/platon.git
$ wget https://zenodo.org/record/3349652/files/db.tar.gz
$ tar -xzf db.tar.gz
$ rm db.tar.gz
$ platon/bin/platon --db ./db genome.fasta
信息:只需将提取的数据库目录移到platon目录中。 柏拉图会自动识别它,因此,数据库路径不需要 待指定:
$ git clone git@github.com:oschwengers/platon.git
$ wget https://zenodo.org/record/3349652/files/db.tar.gz
$ tar -xzf db.tar.gz
$ rm db.tar.gz
$ mv db/ platon
$ platon/bin/platon genome.fasta
条件a
示例:
$ conda install -c conda-forge -c bioconda -c defaults platon
$ wget https://zenodo.org/record/3349652/files/db.tar.gz
$ tar -xzf db.tar.gz
$ rm db.tar.gz
$ platon --db ./db genome.fasta
Pip
柏拉图/数据库(1/2.):
$ pip3 install cb-platon
$ wget https://zenodo.org/record/3349652/files/db.tar.gz
$ tar -xzf db.tar.gz
$ rm db.tar.gz
$ platon --db ./db genome.fasta
第三方对ubuntu的依赖性(3.):
$ sudo apt install ncbi-blast+ prodigal infernal hmmer mummer
$ wget http://www.bi.cs.titech.ac.jp/ghostz/releases/ghostz-1.0.2.tar.gz
$ tar -xzf ghostz-1.0.2.tar.gz
$ cd ghostz-1.0.2/
$ make
$ sudo cp ghostz /usr/bin/
如果编译鬼怪有任何问题,请确保您拥有所有
正确设置,例如$sudo apt install build essential
用法
用法:
usage: platon [-h] [--threads THREADS] [--verbose] [--output OUTPUT]
[--version]
<genome>
Plasmid contig classification and characterization
positional arguments:
<genome> draft genome in fasta format
optional arguments:
-h, --help show this help message and exit
--threads THREADS, -t THREADS
number of threads to use (default = number of
available CPUs)
--verbose, -v print verbose information
--output OUTPUT, -o OUTPUT
output directory (default = current working directory)
--version show program's version number and exit
示例
简单:
$ platon genome.fasta
专家:将结果写入results
目录,使用8个线程进行详细输出:
$ platon -db ~/db --output results/ --verbose --threads 8 genome.fasta
数据库
柏拉图依赖于一个基于MPS,rds,refseq质粒数据库的自定义数据库, 纤溶酶的数据库以及自定义的hmm模型。此数据库基于 RefSeq 95版可在以下位置下载: (压缩1.8 GB,解压缩2.6 GB)
依赖关系
柏拉图是在python 3.5中开发和测试的,依赖于biopython(>;=1.71)。
此外,它还取决于以下第三方可执行文件:
引文
手稿正在准备中…敬请期待! 要临时引用我们的工作,请过渡到:
< Buff行情>Schwengers O.,Barth P.,Falgenhauer L.,Hain T.,Chakraborty T.,Goesmann A.(2019年),《柏拉图:短读草图组装的质粒分类和表征》。githubhttps://github.com/oschwengers/platon
由于柏拉图利用了plastidfinder的不兼容数据库,请同时引用:
< Buff行情>Carattoli A.,Zankari E.,Garcia Fernandez A.,Voldby Larsen M.,Lund O.,Villa L.,Aarestrup F.M.,Hasman H.(2014)质粒和PMLST:质粒的硅胶检测和分型。抗菌药物和化疗,https://doi.org/10.1128/aac.02412-14