从bam或sam文件调用体细胞突变的python实用程序
SomVarIUS的Python项目详细描述
未配对样本的体细胞变异鉴定
数据格式
映射读取的输入文件必须采用sam或bam格式。
要排除的已知生殖系突变位置必须在词典的pickled字典中:
record[(chromosome, position)] = (reference, alternate)
包含一个内置函数,用于从床文件创建此文件(请参阅调用)
用于先前分布的已知种系突变必须是bed格式:
https://raw.githubusercontent.com/kylessmith/SomVarIUS/master/example/chr20_dbsnp.bed
引用fasta必须采用fasta格式。
拷贝号段文件必须是bed格式(第一列是chrome、start、stop):
chr1 11873 14409
- 注意:假设bam和bed文件以同样的方式被排序,但是a
- 内置函数用于执行此操作(请参见调用)
调用
运行以下命令将实现以下功能:
$ SomVarIUS -h
给出:
positional arguments: {call_mutations,sort,pickle,clones,query_mutations} call_mutations flag to call mutations sort flag to sort bam file and bed file by name pickle flag to store the pickled germline positions from bed clones flag to classify as clone or sub-clone query_mutations flag to query given mutations in the bam optional arguments: -h, --help show this help message and exit
要调用突变,以下命令将显示可用的输入:
$ SomVarIUS call_mutations -h
给出:
--bam BAM input bam file --ref REF reference fasta file --out OUT output file --rna_seq RNA_SEQ RNA-seq bam file name --germ_pos GERM_POS pickled hapmap file --dbsnp_bed DBSNP_BED dbsnp bed file name --copy_bed COPY_BED copy number bed file name --min_reads MIN_READS minimum base coverage (default=10) --min_support MIN_SUPPORT minimum number of reads supported alternate allele (default=4) --min_af MIN_AF minimum allele frequency (default=0.05) --min_pvalue MIN_PVALUE minimum pvalue (default=0.001) --min_fr MIN_FR minimum reverse/forward read ratio (default=0.05) --min_qual MIN_QUAL minimum mean quality for alternate allele (default=25) --min_se MIN_SE minimum probability not sequencing error (default=0.999) --min_hetero MIN_HETERO minimum probability not germline (default=0.95) --ref_filter flag to filter by reference fasta (default=False) --binom flag to use binomial test instead of beta-binomial (default=False) --min_mapq MIN_MAPQ minimum mapping quality (default=55) --min_baseq MIN_BASEQ minimum base quality (default=13) --chrom CHROM Chromosome name to look at --start START starting position --end END ending position --dist DIST write the beta binomial parameters to a file
要按名称对BAM文件和BED文件进行排序,以下命令将显示可用的输入:
$ SomVarIUS sort -h
给出:
--bam BAM input bam file --bam_out BAM_OUT name of sorted bam file --dbsnp DBSNP input dbsnp bed file --dbsnp_out DBSNP_OUT name of sorted dbsnp file
要创建床文件位置的pickle,以下命令将显示可用的输入:
$ SomVarIUS pickle -h
给出:
--dbsnp DBSNP input dbsnp bed file --dbsnp_out DBSNP_OUT name of pickled dbsnp file
将突变分为克隆或亚克隆:
$ SomVarIUS clones -h
给出:
--vcf VCF vcf file --t T tumor purity (default=1.0) --gmm flag to classify by gaussian mixture model (default=False)
查询床格式的突变列表(chrom start end ref alt):
$ SomVarIUS query_mutations -h
给出:
--bam BAM input bam file --out OUT output file --muts MUTS mutation bed file --min_reads MIN_READS minimum base coverage (default=10) --min_support MIN_SUPPORT minimum number of reads supported alternate allele (default=4) --min_mapq MIN_MAPQ minimum mapping quality (default=55) --min_baseq MIN_BASEQ minimum base quality (default=13)
快速启动
如果你的文件是以同样的方式排序的,你想调用所有染色体上的体细胞突变。
体细胞突变
$ SomVarIUS call_mutations \ --bam test.bam \ --ref test.fa \ --out test_output.txt \ --germ_pos dbsnp_pos.pickle \ --dbsnp_bed test_dbsnp.bed \ --ref_filter
输出将以VCF格式显示。
示例
要运行示例文件,请首先从examples目录运行:
$ SomVarIUS pickle \ --dbsnp chr20_dbsnp.bed --dbsnp_out chr20_dbsnp.pickle
然后运行:
$ SomVarIUS call_mutations \ --bam chr20.bam \ --ref chr20.fa \ --out chr20.vcf \ --germ_pos chr20_dbsnp.pickle \ --dbsnp_bed chr20_dbsnp.bed \ --dist dist.txt \ --min_pvalue 0.05 \ --ref_filter
第一次运行时,程序将检测到文件未被索引并对其进行索引。 结果将显示在chr20.vcf文件中,dist.txt将具有估计的参数 对于拟合的β二项分布。使用的参数记录在chr20_args.txt 文件。
安装
pip可用于安装:
$ pip install SomVarIUS
或者从github下载并运行:
$ python setup.py install
如果你还没有安装numpy和scipy,最好下载 anaconda,包含它们的python发行版。
https://continuum.io/downloads
依赖项可以通过以下方式安装:
pip install -r requirements.txt
程序还依赖于samtools,samtools可以从https://github.com/samtools/samtools