全外显子组测序数据的自动化处理工具
HPexome的Python项目详细描述
一种处理整个外显子序列数据的自动化工具
全外显子组测序在临床上广泛应用于多种疾病的基因病因鉴定。 hpexome为大规模队列的exome测序数据分析自动化了许多数据处理任务。 给定现成的分析比对文件,它能够将输入数据分解成小的基因组区域,以便在集群计算环境中高效地并行处理。 它依赖于队列工作流执行引擎和gatk变量调用工具及其最佳实践来输出高度可信的统一变量调用文件。 我们的工作流程以python命令行工具的形式提供,使安装和使用变得容易。
要求
- BAM文件必须以
coordinate
模式排序。请参阅sort bam files脚本。 - BAM文件必须有带
ID, SM, LB, PL and PU
信息的@RG
标记。请参阅fix rg tag脚本。
示例
以下命令行获取存储在alignment_files
目录中的就绪分析BAM文件列表和参考基因组文件(版本B37)。
然后它将输入数据分解成更小的部分(--scatter_count 16
),并提交给sge批处理系统(--job_runner PbsEngine
)。
所有示例将合并到单个VCF文件(--unified_vcf
)中,输出文件将写入result_files
目录中。
hpexome \ --bam alignment_files \ --genome references/b37/human_g1k_v37_decoy.fasta \ --dbsnp references/b37/dbsnp_138.b37.vcf \ --indels references/b37/Mills_and_1000G_gold_standard.indels.b37.vcf \ --indels references/b37/1000G_phase1.indels.b37.vcf \ --sites references/b37/1000G_phase1.snps.high_confidence.b37.vcf \ --sites references/b37/1000G_omni2.5.b37.vcf \ --unified_vcf \ --scatter_count 16\ --job_runner GridEngine \ result_fies
有关详细信息,请参见http://bcblab.org/hpexome。