全外显子组测序数据的自动化处理工具

HPexome的Python项目详细描述


一种处理整个外显子序列数据的自动化工具

全外显子组测序在临床上广泛应用于多种疾病的基因病因鉴定。 hpexome为大规模队列的exome测序数据分析自动化了许多数据处理任务。 给定现成的分析比对文件,它能够将输入数据分解成小的基因组区域,以便在集群计算环境中高效地并行处理。 它依赖于队列工作流执行引擎和gatk变量调用工具及其最佳实践来输出高度可信的统一变量调用文件。 我们的工作流程以python命令行工具的形式提供,使安装和使用变得容易。

要求

  • BAM文件必须以coordinate模式排序。请参阅sort bam files脚本。
  • BAM文件必须有带ID, SM, LB, PL and PU信息的@RG标记。请参阅fix rg tag脚本。

示例

以下命令行获取存储在alignment_files目录中的就绪分析BAM文件列表和参考基因组文件(版本B37)。 然后它将输入数据分解成更小的部分(--scatter_count 16),并提交给sge批处理系统(--job_runner PbsEngine)。 所有示例将合并到单个VCF文件(--unified_vcf)中,输出文件将写入result_files目录中。

hpexome \
    --bam alignment_files \
    --genome references/b37/human_g1k_v37_decoy.fasta  \
    --dbsnp references/b37/dbsnp_138.b37.vcf \
    --indels references/b37/Mills_and_1000G_gold_standard.indels.b37.vcf \
    --indels references/b37/1000G_phase1.indels.b37.vcf \
    --sites references/b37/1000G_phase1.snps.high_confidence.b37.vcf \
    --sites references/b37/1000G_omni2.5.b37.vcf \
    --unified_vcf \
    --scatter_count 16\
    --job_runner GridEngine \
    result_fies

有关详细信息,请参见http://bcblab.org/hpexome

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
用于切换状态结果的枚举的java输入   检测*NIX上打开的端口时出现java问题   java捕获和保存屏幕截图   java SLF4JLogback:基于日志级别的多模式   Java从字符串中删除动态子字符串   在spring引导中contextLoads测试时运行java Liquibase   基于规则集的任意嵌套POJO的java任意就地转换   java如何做,边做边循环这段代码?   java是什么导致jmh测量中的错误?   java Spring RabbitTemplate执行方法可见性   java jms创建连接http超时weblogic   java如何在JMapViewer中的两点之间放置像箭头一样的图像   在我的形状计算器Java程序中使用带有Switch/Case语句的循环   字符串如何在Java中比较字符和数字