提示——用于拷贝数变异和易位检测的HIC

HiNT-Package的Python项目详细描述


提示

从hi-c数据中检测拷贝数变化和移位的计算方法

摘要

hi n thi-c用于拷贝n数量变化和t传输检测),一种从hi-c数据检测cnv和传输的计算方法。hint有三个主要组件:hint prehint cnv,和hint tl。hint预处理hi-c数据并计算接触矩阵,该矩阵存储任何两个基因组位点之间的接触频率;hint-cnv和hint-tl分别从hi-c接触矩阵开始,预测拷贝数片段和染色体间易位

提示工作流概述:

安装

依赖性

R和R包

  1. R >= 3.4
  2. mgcvstrucchangedoParallelCairoforeach

python和python包

  1. python >= 3.5
  2. pyparix >= 0.3.0cooler >= 0.7.4pairtools >= 0.2.2numpyscipypandassklearnmultiprocessing

Java和相关工具(可选:需要用榨汁机工具处理HI-C数据时需要)

  1. Java (version >= 1.7)
  2. Juicer tools (1.8.9 is recommended)

Perl

  1. Perl (version >= 5)

其他依赖项

  1. samtools(1.3.1+)
  2. BIC-seq2(0.7.3)!这是可选的:如果你不想运行提示cnv,你不需要这个包。无需安装,只需下载bicseq2,解压缩,并给出存储的路径以提示。
  3. bwa(0.7.16+)!这是可选的:仅当输入为fastq时才需要
  4. tabix(0.2.6)

安装提示

  • 方法1:使用pip从pypi安装。

    $ pip install HiNT-Packages

  • 方法2:使用conda安装(强烈建议)

    $ conda install hint

  • 方法3:手动安装

    1. 安装提示依赖项
    2. 下载提示git clone https://github.com/parklab/HiNT.git
    3. 转到提示目录,通过$ python setup.py install
    4. 安装

***键入$ hint测试是否成功安装提示

下载hint

中使用的参考文件
  1. 下载提示引用HERE。目前只有HG19、HG38和MM10可用。解压缩$ unzip hg19.zip
  2. 将引用文件放入提示目录$ mv hg19/* where_you_put_HiNT/HiNT/HiNT/references/

快速启动

  • HERE
  • 下载测试数据集

提示pre

提示pre:预处理hi-c数据。提示在一个命令行中预先执行对齐、接触矩阵创建和规范化。

$ hint pre -d /path/to/hic_1.fastq.gz,/path/to/hic_2.fastq.gz -i /path/to/bwaIndex --informat fastq --outformat cooler -g hg19 -n test -o /path/to/outputdir --pairsampath /path/to/pairsamtools

查看详细信息和更多选项

$ hint pre -h

提示cnv

提示cnv:拷贝数信息的预测,以及hi-c的分割。

$ hint cnv -m contactMatrix.mcool -f cooler -r 50 -g hg19 -n test -o /path/to/outputDir

查看详细信息和更多选项

$ hint cnv -h

提示tl

提示tl:染色体间易位和断点检测 hi-c染色体间相互作用矩阵。

$ hint tl -m /path/to/data_1Mb.cool,/path/to/data_100kb.cool -c chimericReads.pairsam -f cooler -g hg19 -n test -o /path/to/outputDir

查看详细信息和更多选项

$ hint tl -h

提示输出

提示预输出

在提示预输出目录中,您将找到

  1. jobname.bam以BAM格式对齐的无损文件
  2. jobname_merged_valid.pairs.gz以对格式读取对
  3. jobname_chimeric.sorted.pairsam.gzpairsam格式用于断点检测的不明确的嵌合体读取对
  4. jobname_valid.sorted.deduped.pairsam.gz用于以pairsam格式创建hi-c接触矩阵的有效读对
  5. jobname.mcool采用cool格式的hi-c接触矩阵
  6. jobname.hic采用hic格式的hi-c接触矩阵

提示CNV输出

在提示cnv output目录中,您将找到

  1. jobname_GAMPoisson.pdfgam回归结果
  2. segmentation/jobname_bicsq_allchroms.txt文本文件中具有log2拷贝比和p值的cnv段
  3. segmentation/jobname_resolution_CNV_segments.png图显示cnv段
  4. segmentation/jobname_bicseq_allchroms.l2r.pdf图显示每个存储箱中的log2拷贝比率(存储箱大小=您设置的分辨率)
  5. segmentation/other_files用于运行bic seq的中间文件
  6. jonname_dataForRegression/*日期a用于消除hi-c偏差后的回归和残差

提示tl输出

在hint tl output目录中,您将找到

  1. jobname_Translocation_IntegratedBP.txt最终整合易位断点
  2. jobname_chrompairs_rankProduct.txt秩积预测潜在易位染色体对
  3. otherFolders用于标识移位断点的中间文件

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java创建猜谜游戏程序   JavaWebSocketContainer。connectToServer似乎挂起了   如何在java中中断函数   java c#socket client multiple BeginSend()未到达服务器   不可见的组件然后在Java中的窗格之间切换   java在应用程序类中使用静态接口安全吗?   java等待函数完成,直到回调到来   使用DataOutputStream时的java新行,Android   java服务对象的定义是什么?   基于视图的javahibernate复合密钥   java将varchar连接到char在JPA(oracle)中不起作用   如何在java中通过point类读取多个点?