从bam或sam文件调用体细胞突变的python实用程序

SomVarIUS的Python项目详细描述


未配对样本的体细胞变异鉴定

数据格式

映射读取的输入文件必须采用sam或bam格式。

要排除的已知生殖系突变位置必须在词典的pickled字典中:

record[(chromosome, position)] = (reference, alternate)

包含一个内置函数,用于从床文件创建此文件(请参阅调用)

用于先前分布的已知种系突变必须是bed格式:

https://raw.githubusercontent.com/kylessmith/SomVarIUS/master/example/chr20_dbsnp.bed

引用fasta必须采用fasta格式。

拷贝号段文件必须是bed格式(第一列是chrome、start、stop):

chr1    11873   14409
注意:假设bam和bed文件以同样的方式被排序,但是a
内置函数用于执行此操作(请参见调用)

调用

运行以下命令将实现以下功能:

$ SomVarIUS -h

给出:

positional arguments:
  {call_mutations,sort,pickle,clones,query_mutations}
    call_mutations      flag to call mutations
    sort                flag to sort bam file and bed file by name
    pickle              flag to store the pickled germline positions from bed
        clones              flag to classify as clone or sub-clone
        query_mutations     flag to query given mutations in the bam

optional arguments:
  -h, --help            show this help message and exit

要调用突变,以下命令将显示可用的输入:

$ SomVarIUS call_mutations -h

给出:

--bam BAM             input bam file
--ref REF             reference fasta file
--out OUT             output file
--rna_seq RNA_SEQ     RNA-seq bam file name
--germ_pos GERM_POS   pickled hapmap file
--dbsnp_bed DBSNP_BED
                      dbsnp bed file name
--copy_bed COPY_BED   copy number bed file name
--min_reads MIN_READS
                      minimum base coverage (default=10)
--min_support MIN_SUPPORT
                      minimum number of reads supported alternate allele
                      (default=4)
--min_af MIN_AF       minimum allele frequency (default=0.05)
--min_pvalue MIN_PVALUE
                      minimum pvalue (default=0.001)
--min_fr MIN_FR       minimum reverse/forward read ratio (default=0.05)
--min_qual MIN_QUAL   minimum mean quality for alternate allele (default=25)
--min_se MIN_SE       minimum probability not sequencing error
                      (default=0.999)
--min_hetero MIN_HETERO
                      minimum probability not germline (default=0.95)
--ref_filter          flag to filter by reference fasta (default=False)
--binom               flag to use binomial test instead of beta-binomial
                      (default=False)
--min_mapq MIN_MAPQ   minimum mapping quality (default=55)
--min_baseq MIN_BASEQ
                      minimum base quality (default=13)
--chrom CHROM         Chromosome name to look at
--start START         starting position
--end END             ending position
--dist DIST           write the beta binomial parameters to a file

要按名称对BAM文件和BED文件进行排序,以下命令将显示可用的输入:

$ SomVarIUS sort -h

给出:

--bam BAM             input bam file
--bam_out BAM_OUT     name of sorted bam file
--dbsnp DBSNP         input dbsnp bed file
--dbsnp_out DBSNP_OUT
                      name of sorted dbsnp file

要创建床文件位置的pickle,以下命令将显示可用的输入:

$ SomVarIUS pickle -h

给出:

--dbsnp DBSNP         input dbsnp bed file
--dbsnp_out DBSNP_OUT
                      name of pickled dbsnp file

将突变分为克隆或亚克隆:

$ SomVarIUS clones -h

给出:

--vcf VCF   vcf file
--t T       tumor purity (default=1.0)
--gmm       flag to classify by gaussian mixture model (default=False)

查询床格式的突变列表(chrom start end ref alt):

$ SomVarIUS query_mutations -h

给出:

--bam BAM             input bam file
--out OUT             output file
--muts MUTS           mutation bed file
--min_reads MIN_READS
                      minimum base coverage (default=10)
--min_support MIN_SUPPORT
                      minimum number of reads supported alternate allele
                      (default=4)
--min_mapq MIN_MAPQ   minimum mapping quality (default=55)
--min_baseq MIN_BASEQ
                      minimum base quality (default=13)

快速启动

如果你的文件是以同样的方式排序的,你想调用所有染色体上的体细胞突变。

体细胞突变

$ SomVarIUS call_mutations \
        --bam test.bam \
        --ref test.fa \
        --out test_output.txt \
        --germ_pos dbsnp_pos.pickle \
        --dbsnp_bed test_dbsnp.bed \
        --ref_filter

输出将以VCF格式显示。

示例

要运行示例文件,请首先从examples目录运行:

$ SomVarIUS pickle \
        --dbsnp chr20_dbsnp.bed
        --dbsnp_out chr20_dbsnp.pickle

然后运行:

$ SomVarIUS call_mutations \
        --bam chr20.bam \
        --ref chr20.fa \
        --out chr20.vcf \
        --germ_pos chr20_dbsnp.pickle \
        --dbsnp_bed chr20_dbsnp.bed \
        --dist dist.txt \
        --min_pvalue 0.05 \
        --ref_filter

第一次运行时,程序将检测到文件未被索引并对其进行索引。 结果将显示在chr20.vcf文件中,dist.txt将具有估计的参数 对于拟合的β二项分布。使用的参数记录在chr20_args.txt 文件。

安装

pip可用于安装:

$ pip install SomVarIUS

或者从github下载并运行:

$ python setup.py install

如果你还没有安装numpy和scipy,最好下载 anaconda,包含它们的python发行版。

https://continuum.io/downloads

依赖项可以通过以下方式安装:

pip install -r requirements.txt

程序还依赖于samtools,samtools可以从https://github.com/samtools/samtools

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
具有未知数量条件的java If语句   java如何在Spark中使用两个“条件”进行过滤?   雅加达ee为ColdFusion提供的最佳Java ee服务器   java如何在jersey的MessageBodyWriter方法中获取writeTo中的anotations值?   java从脚本文件调用jar文件中的函数   java在执行insert语句后,如何获得id值为的语句?   在OS X上设置OpenCV Java绑定   java使用for循环遍历数组x。以字符串形式返回x的元素,其中每个元素由一个空格分隔   ApacheiClientBuilder为Algolia Java创建的APIClient是线程安全的吗?   java在DFS/BFS算法中获取邻居时避免内存分配?   java使用AES/CBC/PKCS5P加密大文件(2GB)   允许保存/加载列布局的Java DB网格组件   队列大小为1的java Spring调度   跑步带有Java参数的exe   java正则表达式将所有“<”和“>”标记替换为“&lt;”及“&gt;”在<<![CDATA]>标签?   java何时同步变量?