没有项目描述
MAmotif的Python项目详细描述
简介
mamotif用于比较来自不同细胞类型或条件的相同蛋白质的两个芯片序列样本 (例如突变型与野生型)和识别与细胞型偏向结合相关的转录因子(tfs) 利用从基序分析中获得的tf结合信息,将其作为co因子。 (或来自其他芯片序列数据)。
mamotif自动组合manorm模型对给定的芯片序列样本进行定量比较 使用motif scan toolkit扫描芯片序列中tf结合基序的峰值,并使用系统的综合分析 寻找其结合位点与两个芯片序列样本之间的细胞类型偏向峰显著相关的tfs。
当应用于调控元件组蛋白标记的芯片序列数据时(如活性启动子的H3K4ME3和 h3k9/27ac(对于活性启动子/增强子)或dnase/atac-seq数据,mamotif可用于检测细胞类型特异性调节因子。
工作流程
文档
要查看mamotif的完整文档,请参阅:http://mamotif.readthedocs.io/en/latest/
安装
mamotif的最新版本可在PyPI:
$ pip install mamotif
或者您可以通过conda安装mamotif:
$ conda install -c bioconda mamotif
mamotif使用setuptools从源代码安装。 mamotif的源代码托管在github上:https://github.com/shao-lab/MAmotif
您可以克隆repo并在源目录下执行以下命令:
$ python setup.py install
Galaxy安装
wip!
用法
在运行mamotif之前,您需要构建一些先决条件:
构建基因组
为相应的基因组组合预处理序列和全基因组核苷酸频率。
$ genomecompile [-h] [-v] -G hg19.fa -o hg19_genome
注意:对于每个基因组,只需运行此命令一次
构建主题(可选)
注意:mamotif在motisscan包的data/motif下提供一些预处理的motif pwm文件。
您可以通过以下方式下载:
$wget --no-check-certificate https://github.com/shao-lab/MAmotif/raw/master/data/motif.tar.gz
为未包含在我们预编译的motif系列中的自定义motif创建motif pwm/motif分数截止:
$ motifcompile [-h] [-v] –M motif_pwm_demo.txt –g hg19_genome -o hg19_motif
运行mamotif
$ mamotif --p1 sample1_peaks.bed --p2 sample2_peaks.bed --r1 sample1_reads.bed --r2 sample2_reads.bed -g hg19_genome –m hg19_motif_p1e-4.txt -o sample1_vs_sample2
注意:使用-h/–帮助获取所有参数的详细信息。
mamotif的输出
运行完mamotif之后,所有输出文件都将写入您使用“-o”参数指定的目录。
主输出
1.Motif Name 2.Target Number: Number of motif-present peaks 3.Average of Target M-value: Average M-value of motif-present peaks 4.Deviation of Target M-value: M-value Std of motif-present peaks 5.Non-target Number: Number of motif-absent peaks 6.Average of Non-target M-value: Average M-value of motif-absent peaks 7.Deviation of Non-target M-value: M-value Std of motif-absent peaks 8.T-test Statistics: T-Statistics for M-values of motif-present peaks against motif-absent peaks 9.T-test P-value: Right-tailed P-value of T-test 10.T-test P-value By Benjamin correction 11.RanSum-test Statistics 12.RankSum-test P-value 13.RankSum-test P-value By Benjamin correction 14.Maximal P-value: Maximal corrected P-value of T-test and RankSum-test
压力输出
mamotif将调用manorm并输出标准化结果和比较样本的ma图。
Motif扫描输出
马莫蒂夫还将输出表格,总结母题的丰富程度以及母题目标数和母题分数。 每个峰区。
如果你用mamotif指定“-s”,它还会输出每个基序目标位点的基因组坐标。
示例用法
在这里,我们提供一个关于如何使用mamotif来寻找候选细胞类型特异性调节器的分步指导。 与某些组蛋白修饰有关。
我们以mamotif论文中成人和胎儿之间的h3k4me3分析为例:
安装mamotif:
$pip install mamotif $conda install -c bioconda mamotif
下载所有需要的数据:
$mkdir MAmotif_demo $cd MAmotif_demo $wget ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM908nnn/GSM908038/suppl/GSM908038_H3K4me3-F_peaks.bed.gz $wget ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM908nnn/GSM908039/suppl/GSM908039_H3K4me3-A_peaks.bed.gz $wget ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM908nnn/GSM908038/suppl/GSM908038_H3K4me3-F.bed.gz $wget ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM908nnn/GSM908039/suppl/GSM908039_H3K4me3-A.bed.gz $gzip -d *gz Remove the header line and ribosomal reads (You do not need to do this for modern ChIP-seq mapping softwares) $sed -i '1d' GSM908038_H3K4me3-F.bed $sed -i '1d' GSM908039_H3K4me3-A.bed $sed -i '8986927,$d' GSM908039_H3K4me3-F.bed $sed -i '14916308,$d' GSM908039_H3K4me3-A.bed Substitute space into tab for bed files (You do not need to do this for your own bed files are tab-separated) $sed -i "s/ /\t/g" GSM908038_H3K4me3-F.bed $sed -i "s/ /\t/g" GSM908039_H3K4me3-A.bed
为基因组序列构建:
$mkdir genome $cd genome $wget http://hgdownload.cse.ucsc.edu/goldenPath/hg18/bigZips/chromFa.zip $unzip chromFa.zip $cat *fa > hg18.fa $genomecompile -G hg18.fa -o hg18 $cd ..
为Motif PWM构建(可选)
motif matrix文件包含motif score cutoff,它已经打包到motif scan包下的/data目录下。
您可以通过以下方式下载:
$wget --no-check-certificate https://github.com/shao-lab/MAmotif/raw/master/data/motif.tar.gz
如果要编译自定义图案,请运行以下命令:
$mkdir motif $cd motif $wget http://jaspar2016.genereg.net/html/DOWNLOAD/JASPAR_CORE/pfm/nonredundant.tar.gz $tar -xzvf nonredundant.tar.gz $motifcompile -M nonredundant/pfm_vertebrates.txt -g ../genome/hg18 -o hg18_jaspar2016_nonredundant_vertebrates $cd ..
运行mamotif:
$mamotif --p1 GSM908039_H3K4me3-A_peaks.bed --p2 GSM908038_H3K4me3-F_peaks.bed --r1 GSM908039_H3K4me3-A.bed --r2 GSM908038_H3K4me3-F.bed -g genome/hg18 -m motif/hg18_jaspar2016_nonredundant_vertebrates_1e-4.txt -o AvsF_H3K4me3_MAmotif
检查mamotif的输出