提示——用于拷贝数变异和易位检测的HIC
HiNT-Package的Python项目详细描述
提示
从hi-c数据中检测拷贝数变化和移位的计算方法
摘要
hi n t(hi-c用于拷贝n数量变化和t传输检测),一种从hi-c数据检测cnv和传输的计算方法。hint有三个主要组件:hint pre,hint cnv,和hint tl。hint预处理hi-c数据并计算接触矩阵,该矩阵存储任何两个基因组位点之间的接触频率;hint-cnv和hint-tl分别从hi-c接触矩阵开始,预测拷贝数片段和染色体间易位
提示工作流概述:
安装
依赖性
R和R包
python和python包
- python >= 3.5
- pyparix >= 0.3.0,cooler >= 0.7.4,pairtools >= 0.2.2,numpy,scipy,pandas,sklearn,multiprocessing
Java和相关工具(可选:需要用榨汁机工具处理HI-C数据时需要)
Perl
其他依赖项
- samtools(1.3.1+)
- BIC-seq2(0.7.3)!这是可选的:如果你不想运行提示cnv,你不需要这个包。无需安装,只需下载bicseq2,解压缩,并给出存储的路径以提示。
- bwa(0.7.16+)!这是可选的:仅当输入为fastq时才需要
- tabix(0.2.6)
安装提示
方法1:使用pip从pypi安装。
$ pip install HiNT-Packages
方法2:使用conda安装(强烈建议)
$ conda install hint
方法3:手动安装
- 安装提示依赖项
- 下载提示
git clone https://github.com/parklab/HiNT.git
- 转到提示目录,通过
$ python setup.py install
安装
***键入$ hint
测试是否成功安装提示
下载hint
中使用的参考文件- 下载提示引用HERE。目前只有HG19、HG38和MM10可用。解压缩
$ unzip hg19.zip
- 将引用文件放入提示目录
$ mv hg19/* where_you_put_HiNT/HiNT/HiNT/references/
快速启动
- 从HERE 下载测试数据集
提示pre
提示pre:预处理hi-c数据。提示在一个命令行中预先执行对齐、接触矩阵创建和规范化。
$ hint pre -d /path/to/hic_1.fastq.gz,/path/to/hic_2.fastq.gz -i /path/to/bwaIndex --informat fastq --outformat cooler -g hg19 -n test -o /path/to/outputdir --pairsampath /path/to/pairsamtools
查看详细信息和更多选项
$ hint pre -h
提示cnv
提示cnv:拷贝数信息的预测,以及hi-c的分割。
$ hint cnv -m contactMatrix.mcool -f cooler -r 50 -g hg19 -n test -o /path/to/outputDir
查看详细信息和更多选项
$ hint cnv -h
提示tl
提示tl:染色体间易位和断点检测 hi-c染色体间相互作用矩阵。
$ hint tl -m /path/to/data_1Mb.cool,/path/to/data_100kb.cool -c chimericReads.pairsam -f cooler -g hg19 -n test -o /path/to/outputDir
查看详细信息和更多选项
$ hint tl -h
提示输出
提示预输出
在提示预输出目录中,您将找到
jobname.bam
以BAM格式对齐的无损文件jobname_merged_valid.pairs.gz
以对格式读取对jobname_chimeric.sorted.pairsam.gz
以pairsam格式用于断点检测的不明确的嵌合体读取对jobname_valid.sorted.deduped.pairsam.gz
用于以pairsam格式创建hi-c接触矩阵的有效读对jobname.mcool
采用cool格式的hi-c接触矩阵jobname.hic
采用hic格式的hi-c接触矩阵
提示CNV输出
在提示cnv output目录中,您将找到
jobname_GAMPoisson.pdf
gam回归结果segmentation/jobname_bicsq_allchroms.txt
文本文件中具有log2拷贝比和p值的cnv段segmentation/jobname_resolution_CNV_segments.png
图显示cnv段segmentation/jobname_bicseq_allchroms.l2r.pdf
图显示每个存储箱中的log2拷贝比率(存储箱大小=您设置的分辨率)segmentation/other_files
用于运行bic seq的中间文件jonname_dataForRegression/*
日期a用于消除hi-c偏差后的回归和残差
提示tl输出
在hint tl output目录中,您将找到
jobname_Translocation_IntegratedBP.txt
最终整合易位断点jobname_chrompairs_rankProduct.txt
秩积预测潜在易位染色体对otherFolders
用于标识移位断点的中间文件