从编码细胞系预测新细胞类型ChIPseq峰的ML模型
epitome的Python项目详细描述
缩影
从表观遗传数据集学习TFB的完整管道。在
表位利用染色质可及性数据预测新细胞类型上的转录因子结合位点。表位计算编码区11种细胞类型与新细胞类型之间的染色质相似性,并利用染色质相似性将已知细胞类型中的结合信息传递给感兴趣的新细胞类型。在
要求:
- conda
- python>;3.6
设置和安装:
- 创建并激活conda venv:
conda create --name EpitomeEnv python=3.6 pip
source activate EpitomeEnv
- 安装缩影:
安装用于开发的缩影:
pip install -e .
注:表位配置为tensorflow 1.12/Cuda 9。如果你有不同的 cuda版本,相应更新tensorflow gpu版本。在
要检查您的Cuda版本:
nvcc --version
训练模特
assays=list_assays()[0:3]# list of available ChIP-seq targets epitome can predict onfromepitome.modelsimport*model=VLP(['CTCF','SMC3','RAD21'])model.train(5000)# train for 5000 iterations
评估模型:
model.test(1000)# evaluate how well the model performs on a validation set
使用模型预测:
表位可以进行全基因组预测或区域特异性预测 新的DNase-seq或ATAC-seq样本。在
要对特定区域评分:
chromatin_peak_file=...# path to peak called ATAC-seq or DNase-seq in bed formatregions_file=...# path to bed file of regions to scoreresults=model.score_peak_file(chromatin_peak_file,regions_file)
对整个基因组进行评分:
chromatin_peak_file=...# path to peak called ATAC-seq or DNase-seq in bed formatfile_prefix=...# file to save compressed numpy predictions to.model.score_peak_file(chromatin_peak_file,file_prefix)
- 项目
标签: