一个在具有敲除控件的芯片序列数据集中发现基序的包
peako的Python项目详细描述
豌豆
什么是豆子?
Peako在芯片序列数据集中发现了具有敲除控件的基序。peako将成对的wild-type/knockout bam文件以及几个引用文件作为输入。它返回一个排序主题的文件(请参阅我们的论文了解更多详细信息)。
快速启动
依赖性
- 康达(小康达或水蟒)
- Meme Suite 4.12.0版,带Centrimo二进制文件*(见下文)
安装
- 下载peako的environment文件。
- 打开终端并在下载目录中运行
conda env create -f peako-env.yml
。这将创建一个名为“peako”的conda环境。 - 运行
conda activate peako
或source activate peako
激活此环境。 - 通过运行
python3 -m pip install peako
,从pypi安装peako。 - 您可以通过运行
peako --help
来测试这是否有效。
修改后的centrimo二进制文件的说明
*我们修改后的centrimo应用程序将并入meme套件的下一个主要版本中。 在此之前,您可以从源代码安装meme套件,并使用我们自己的peako替换它的二进制文件。
- 从MEME Suite Download page下载meme发行版4.12.0。
- 按照MEME Suite Installation page上的“快速安装”步骤进行操作,直到
make install
。 - 在运行
make install
之后,将$HOME/meme/bin/centrimo
替换为modified CentriMo binary。 - 确保
$HOME/meme/bin
位于$PATH
上。现在您应该可以调用centrimo --help
。
用法
peako使用snakemake,这是一个工作流管理系统。
您可以使用slurm作业调度系统在本地或计算集群上运行peako。
要在slurm上运行,必须创建自己的cluster.config
文件(template),并通过--sm-cluster-config
将其提供给peako。
工作流的每个步骤要么继承自主激活conda环境(“peako”),要么使用自己的独立环境。
如果正在处理计算群集,请首先在具有Internet访问权限的节点上使用--sm-build-envs
运行peako,以创建这些附加的conda环境。
然后,您可以在没有Internet的集群上运行它,提供一个slurm配置文件(见上文)。
激活peako的conda环境(conda activate peako
或source activate peako
)后,可以按如下方式运行peako:
peako <outdir> <wt-bam> <ko-bam> <organism> <chr-sizes> <trf-masked-genome> <motif-database> [options]
有7个必需的参数。请提供文件和目录的完整路径。
wt-bam
:野生类型的bam示例文件ko-bam
:敲除BAM示例文件organism
:有机体的名称(必须是mouse
或human
)chr-sizes
:参考基因组的染色体大小文件(txt)trf-masked-genome
:trf屏蔽参考基因组文件(fasta)- ^
}:JasPar基序数据库(MEME)
以下是可选参数:
概述:
- {< CD27 > }或^ {CD28>}:访问帮助消息并退出
Peako子模块:
-m <MOTIF>
:转录因子基序公共名(如srf)--extra
:输出所有用于打印的中间peako文件--pickle
:使用上次运行的pickled peako字典
蛇食动物:
- {CD14> }:为工作流创建CONDA环境并退出(要求Internet连接)
--sm-cluster-config
:snakemake集群配置文件(json)
输出
目前,peako为每个步骤生成输出目录和文件。
这些都可以在您提供的outdir
目录下找到。
peako的主要输出文件是<outdir>/peako_out/peaKO-rankings.txt
,其中包含一个排序的基序列表。
其他资源
源代码位于:https://github.com/hoffmangroup/peako。
我们已经把current version of the code,example HTML and TXT CentriMo outputs,和modified CentriMo binary放在泽诺多。
引文
如果您觉得peako有用,请引用:
丹尼斯科D,维纳C,霍夫曼M。具有敲除控制的芯片序列数据集中的基序说明。biorxiv<;id>;[预印本]。2019年提供自:https://doi.org/<;id>;