从bam或sam文件调用体细胞突变的python实用程序

SomVarIUS的Python项目详细描述


未配对样本的体细胞变异鉴定

数据格式

映射读取的输入文件必须采用sam或bam格式。

要排除的已知生殖系突变位置必须在词典的pickled字典中:

record[(chromosome, position)] = (reference, alternate)

包含一个内置函数,用于从床文件创建此文件(请参阅调用)

用于先前分布的已知种系突变必须是bed格式:

https://raw.githubusercontent.com/kylessmith/SomVarIUS/master/example/chr20_dbsnp.bed

引用fasta必须采用fasta格式。

拷贝号段文件必须是bed格式(第一列是chrome、start、stop):

chr1    11873   14409
注意:假设bam和bed文件以同样的方式被排序,但是a
内置函数用于执行此操作(请参见调用)

调用

运行以下命令将实现以下功能:

$ SomVarIUS -h

给出:

positional arguments:
  {call_mutations,sort,pickle,clones,query_mutations}
    call_mutations      flag to call mutations
    sort                flag to sort bam file and bed file by name
    pickle              flag to store the pickled germline positions from bed
        clones              flag to classify as clone or sub-clone
        query_mutations     flag to query given mutations in the bam

optional arguments:
  -h, --help            show this help message and exit

要调用突变,以下命令将显示可用的输入:

$ SomVarIUS call_mutations -h

给出:

--bam BAM             input bam file
--ref REF             reference fasta file
--out OUT             output file
--rna_seq RNA_SEQ     RNA-seq bam file name
--germ_pos GERM_POS   pickled hapmap file
--dbsnp_bed DBSNP_BED
                      dbsnp bed file name
--copy_bed COPY_BED   copy number bed file name
--min_reads MIN_READS
                      minimum base coverage (default=10)
--min_support MIN_SUPPORT
                      minimum number of reads supported alternate allele
                      (default=4)
--min_af MIN_AF       minimum allele frequency (default=0.05)
--min_pvalue MIN_PVALUE
                      minimum pvalue (default=0.001)
--min_fr MIN_FR       minimum reverse/forward read ratio (default=0.05)
--min_qual MIN_QUAL   minimum mean quality for alternate allele (default=25)
--min_se MIN_SE       minimum probability not sequencing error
                      (default=0.999)
--min_hetero MIN_HETERO
                      minimum probability not germline (default=0.95)
--ref_filter          flag to filter by reference fasta (default=False)
--binom               flag to use binomial test instead of beta-binomial
                      (default=False)
--min_mapq MIN_MAPQ   minimum mapping quality (default=55)
--min_baseq MIN_BASEQ
                      minimum base quality (default=13)
--chrom CHROM         Chromosome name to look at
--start START         starting position
--end END             ending position
--dist DIST           write the beta binomial parameters to a file

要按名称对BAM文件和BED文件进行排序,以下命令将显示可用的输入:

$ SomVarIUS sort -h

给出:

--bam BAM             input bam file
--bam_out BAM_OUT     name of sorted bam file
--dbsnp DBSNP         input dbsnp bed file
--dbsnp_out DBSNP_OUT
                      name of sorted dbsnp file

要创建床文件位置的pickle,以下命令将显示可用的输入:

$ SomVarIUS pickle -h

给出:

--dbsnp DBSNP         input dbsnp bed file
--dbsnp_out DBSNP_OUT
                      name of pickled dbsnp file

将突变分为克隆或亚克隆:

$ SomVarIUS clones -h

给出:

--vcf VCF   vcf file
--t T       tumor purity (default=1.0)
--gmm       flag to classify by gaussian mixture model (default=False)

查询床格式的突变列表(chrom start end ref alt):

$ SomVarIUS query_mutations -h

给出:

--bam BAM             input bam file
--out OUT             output file
--muts MUTS           mutation bed file
--min_reads MIN_READS
                      minimum base coverage (default=10)
--min_support MIN_SUPPORT
                      minimum number of reads supported alternate allele
                      (default=4)
--min_mapq MIN_MAPQ   minimum mapping quality (default=55)
--min_baseq MIN_BASEQ
                      minimum base quality (default=13)

快速启动

如果你的文件是以同样的方式排序的,你想调用所有染色体上的体细胞突变。

体细胞突变

$ SomVarIUS call_mutations \
        --bam test.bam \
        --ref test.fa \
        --out test_output.txt \
        --germ_pos dbsnp_pos.pickle \
        --dbsnp_bed test_dbsnp.bed \
        --ref_filter

输出将以VCF格式显示。

示例

要运行示例文件,请首先从examples目录运行:

$ SomVarIUS pickle \
        --dbsnp chr20_dbsnp.bed
        --dbsnp_out chr20_dbsnp.pickle

然后运行:

$ SomVarIUS call_mutations \
        --bam chr20.bam \
        --ref chr20.fa \
        --out chr20.vcf \
        --germ_pos chr20_dbsnp.pickle \
        --dbsnp_bed chr20_dbsnp.bed \
        --dist dist.txt \
        --min_pvalue 0.05 \
        --ref_filter

第一次运行时,程序将检测到文件未被索引并对其进行索引。 结果将显示在chr20.vcf文件中,dist.txt将具有估计的参数 对于拟合的β二项分布。使用的参数记录在chr20_args.txt 文件。

安装

pip可用于安装:

$ pip install SomVarIUS

或者从github下载并运行:

$ python setup.py install

如果你还没有安装numpy和scipy,最好下载 anaconda,包含它们的python发行版。

https://continuum.io/downloads

依赖项可以通过以下方式安装:

pip install -r requirements.txt

程序还依赖于samtools,samtools可以从https://github.com/samtools/samtools

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用CSPRNG中的序列种子PRNG安全吗?   java如何使JTable列大小与内容精确(或紧密)匹配?   java Android textview具有两种不同大小的文本   java在任意事物的列表(数组)中创建关联的最佳方法是什么?   java保存可扩展字符串?   java成员类(内部类)如何访问外部类的实例变量?   java使用Android 6.0(API级别23)使用rest的最佳方式是什么   java为什么我会收到“学习记录”。Student@25a43blb'尝试显示链接列表中的所有对象时?   java如何将SVG文本转换为SVG路径?   java Paypal返回URL参数支付状态   java Libgdx:导出到可运行Jar   java JPA获取连接实体的最小/最大属性   附加到类型变量的java编号?   java Object[]到底是什么?   java如何在安卓中的片段和活动之间共享数据   java使用MinGW为windows构建linux库   java将变量值传递给eval函数   java仅在转换完成时使方法返回   Java二维数组对角线