phigaro是一个可扩展的命令行工具,用于从核酸序列(包括亚基因组)预测噬菌体和前噬菌体,它基于噬菌体基因hmms和平滑窗口算法。
phigaro的Python项目详细描述
功率因数V 0.2.1.8
Phigaro是一个从核酸序列(包括亚基因组集合)预测和注释噬菌体和原噬菌体的命令行工具,它基于通过PVOG轮廓HMMS和平滑窗口算法识别噬菌体基因。https://doi.org/10.1101/598243
要求
为了运行phigaro,需要安装prodigal和hmmer。
要安装Prodigal,请在https://github.com/hyattpd/Prodigal/wiki/installation下载并按照说明进行操作。
要安装HMMER,请在http://hmmer.org/下载它。
你还需要locate
。它已经预先安装在最新的ubuntu发行版中,但是如果没有,请运行sudo apt-get install locate
。
安装
sudo -H pip3 install phigaro
然后使用以下命令创建配置文件:
phigaro-setup
可能需要一些时间,因为您正在下载数据库
权限
默认情况下,安装需要根权限但您可以通过在“phigaro-setup”中添加标志来禁用它:
phigaro-setup --no-updatedb
此外,您可能希望更改配置安装文件的路径,或者重新配置ypur phigaro-也可以通过添加特殊标志来完成这些操作:
phigaro-setup --help
usage: phigaro-setup [-h] [-c CONFIG] [-p PVOG] [-f] [--no-updatedb]
Phigaro setup helper
optional arguments:
-h, --help show this help message and exit
-c CONFIG, --config CONFIG
Path to a config.yml, default is
/home/polly/.phigaro/config.yml (default:
/home/polly/.phigaro/config.yml)
-p PVOG, --pvog PVOG pvogs directory, default is /home/polly/.phigaro/pvog
(default: /home/polly/.phigaro/pvog)
-f, --force Force configuration and rewrite config.yml if exists
(default: False)
--no-updatedb Do not run sudo updatedb (default: False)
用法
phigaro -h 15:04:32
usage: phigaro [-h] [-V] -f FASTA_FILE [-c CONFIG] [-p] [-e EXTENSION [EXTENSION ...]] [-o OUTPUT] [--not-open] [-t THREADS]
optional arguments:
-h, --help show this help message and exit
-f FASTA_FILE, --fasta-file FASTA_FILE
Assembly scaffolds\contigs or full genomes
-c CONFIG, --config CONFIG
config file
-v, --verbose
-t THREADS, --threads THREADS
num of threads (default is num of CPUs)
-o, --output OUTPUT
output filename for html and txt outputs. Required by default, but not required for stdout only output
-p, --print-vogs
print phage vogs for each region
--no-html
do not generate output html file
--not-open
do not open automatically html file
-e, --extension
type of the output: html, txt or stdout. Default is html. You can specify several file formats with a space as a separator. Example: -e txt html stdout
--not-open
do not open html file automatically, if html output type is specified
运行时间取决于输入数据的大小和使用的CPU数量。 150MB的元基因组汇编文件的运行时间约为20分钟。
输出
输出可以是带注释的前噬菌体基因组图谱(html)或表格格式(文本或stdout)。
试验数据
测试数据位于test_data
文件夹中。
要在测试数据上运行phigaro,请从phigaro文件夹中输入以下命令:
phigaro -f test_data/Bacillus_anthracis_str_ames.fna -o test_data/Bacillus_anthracis_str_ames.phg -p --not-open
此命令在test_data
文件夹中生成Bacillus_anthracis_str_ames.phg
和Bacillus_anthracis_str_ames.phg.html
文件。
如果输出文件不是用-o
指定的,则生成以下输出:
scaffold begin end taxonomy
NC_003997.3 451613 457261 Siphoviridae
NC_003997.3 460328 482139 Siphoviridae
NC_003997.3 3460450 3482979 Siphoviridae
NC_003997.3 3495703 3505502 Siphoviridae
NC_003997.3 3749518 3776811 Siphoviridae
NC_003997.3 3779698 3784171 Siphoviridae
方法概述
使用prodigal从输入的fasta文件预测打开的读取帧(即蛋白质)。噬菌体基因用原核病毒同源群(pvogs)轮廓隐马尔可夫模型(hmms)进行注释,可从http://dmk-brain.ecn.uiowa.edu/pVOGs/独立下载。每个contig被表示为一个噬菌体和非噬菌体基因序列。平滑窗算法(三角窗函数)考虑到pVOG注释和GC含量,确定噬菌体基因密度高的区域,从而确定前噬菌体区域和边界
已知问题
Phigaro在Linux系统上进行了测试对于macos,您可能需要添加以下软链接ln -s /usr/libexec/locate.updatedb /usr/local/bin/updated
,然后运行brew install wget
。如果在对测试数据运行Phigaro时遇到任何问题,请在estarikova@rcpcm.org向我们报告
出版物
Elizaveta V. Starikova,Polina O. Tikhonova,Nikita A. Prianichnikov,Chris M. Rands,Evgeny M. Zdobnov,Vadim M. Govorun(2019),PigARO:高通量噬菌体序列注释,BioXIV 598243;DOI:https://doi.org/10.1101/598243
(c)E.Starikova,P.Tikhonova,N.Pryanichnikov,2019年