deepbgc-生物合成基因簇检测与分类
deepbgc的Python项目详细描述
deepbgc:生物合成基因簇检测与分类
deepbgc利用深度学习检测细菌和真菌基因组中的bgc。 deepbgc采用双向长短期记忆递归神经网络 以及一种类似于word2vec的pfam蛋白结构域载体包埋。 使用随机森林分类器预测检测到的bgc的产品类别和活性。
使用Bioconda安装(推荐)
- 按照以下步骤1和2安装bioconda:https://bioconda.github.io/
- 运行
conda install deepbgc
安装deepbgc及其所有依赖项
使用PIP安装
如果您不介意手动安装hmmer和prodigal依赖项,也可以使用pip:
- 安装python版本2.7+或3.4+
- 安装prodigal并将
prodigal
二进制文件放在路径上:https://github.com/hyattpd/Prodigal/releases - 安装hmmer并将
hmmscan
和hmmpress
二进制文件放在路径上:http://hmmer.org/download.html - 运行
pip install deepbgc
安装deepbgc
使用deepbgc
下载模型和pfam数据库
在使用deepbgc之前,请下载经过培训的模型和pfam数据库:
deepbgc download
您可以使用以下命令显示下载的依赖项和模型:
deepbgc info
检测和分类
在基因组序列中检测和分类bgcs。 如果还没有注释,蛋白质和pfam结构域将被自动检测(需要hmmer和prodigal)
# Show command help docs deepbgc pipeline --help # Detect and classify BGCs in mySequence.fa using DeepBGC algorithm and save the output to mySequence directory. deepbgc pipeline mySequence.fa
这将生成包含多个文件的目录和包含文件说明的readme.txt。
示例输出
请参阅DeepBGC Example Result Notebook。 数据可以在releases page上下载
模特训练
您可以培训自己的bgc检测和分类模型,有关文档和示例,请参见deepbgc train --help
。
deepbgc的积极、消极和其他培训和验证数据可以在releases page上找到。