CMDB工具:用于CMDB变体浏览器的命令行工具。

cmdbtools的Python项目详细描述


简介

中国是世界上人口最多的国家和第二大经济体。然而, 中国基因组数据库建设进展缓慢。目前,在 世界大型国际和国家基因组测序项目,如1KGP, 英国基因组学、荷兰基因组学、exac大多偏向于构建 欧洲人群的基因组基线。在那些项目中,当样本量 数据库中有数十万欧洲血统的样本- 中国的样品不超过一千个。

因为高质量的基因组基线数据库是医学的重要控制手段 中国毫微子的研究和面向人群的临床和药物应用 开发数据库(CMDB)是为了填补这一空白。

Chinese Millionome Database(CMDB)是一个独特的大规模 中国基因组学数据库由bgi制作,国家基因库托管。CMDB提供 从分析 数以百万计的中国测序数据。研究结果旨在促进基因研究和精确性 中国的医学活动。

传递信息包括任何检测到的变体和相应的等位基因频率, 注释、与现有数据库中全局种群的频率比较等

基准测试的细节和方法在我们的cell论文中有描述:

Liu,S.等人(2018)非侵入性产前检测的基因组分析揭示了基因关联, 病毒感染模式与中国人口史。细胞,2347-359。 DOI:https://doi.org/10.1016/j.cell.2018.08.016

cmdbtools是此CMDB变体浏览器的命令行工具。

快速启动

CMDB变体浏览器允许授权通过基因组学API和CMDB工具访问其数据 是一个方便的命令行工具。

安装

通过pip

安装发布的版本
pip install cmdbtools

您可能希望通过运行:

pip install git+git://github.com/ShujiaHuang/cmdbtools.git#egg=cmdbtools

设置

在使用cmdbtools之前,请从CMDB browser中的配置文件启用API访问。

登录

使用CMDB API访问密钥使用cmdbtools登录,如果您已经申请,可以从profile->;genomics API中找到该密钥。

cmdb_genomics_api
cmdbtools login -k your-genomics-api-key

如果一切顺利,意味着您可以在命令行模式下使用CMDB作为varaints数据库之一。

注销

退出cmdbtools,只需运行下面的命令:

cmdbtool logout

查询单个变量

可以使用query-varaint从CMDB检索变量。

运行cmdbtools query-variant-h查看所有可用选项。有两种不同的方法来检索变体。

一种是对单个变量使用-c-p参数,另一种是对多个位置使用-l

下面是按染色体名称和位置查询单个油漆的示例。

cmdbtools query-variant -c chr17 -p 41234470

您将得到如下信息:

##fileformat=VCFv4.2
##FILTER=<ID=LowQual,Description="Low quality">
##INFO=<ID=CMDB_AN,Number=1,Type=Integer,Description="Number of Alleles in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AC,Number=A,Type=Integer,Description="Alternate Allele Counts in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AF,Number=A,Type=Float,Description="Alternate Allele Frequencies from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_FILTER,Number=A,Type=Float,Description="Filter from CMDB_hg19_v1.0">
#CHROM  POS ID  REF ALT QUAL    FILTER  INFO
1741234470    rs1060915&CD086610&COSM4416375  A   G   74.38   PASS    CMDB_AF=0.361763,CMDB_AC=4625,CMDB_AN=12757

查询多个变量。

当由query-varaint应用时,可以使用-l的参数从CMDB检索变量列表。

cmdbtools query-variant -l positions.list > result.vcf

positions.list的格式可以是chrom   positionchrom    start   end的混合,即使在 染色体id列:

#CHROM  POS
chr22   17662378
chr22   17662408
22  17662442
22  17662444
22  17662699
22  17662729
22  17690496
22  17662353    17663671
22  17669209    17669357

result.vcf是VCF格式,如下所示:

##fileformat=VCFv4.2
##FILTER=<ID=LowQual,Description="Low quality">
##INFO=<ID=CMDB_AN,Number=1,Type=Integer,Description="Number of Alleles in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AC,Number=A,Type=Integer,Description="Alternate Allele Counts in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AF,Number=A,Type=Float,Description="Alternate Allele Frequencies from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_FILTER,Number=A,Type=Float,Description="Filter from CMDB_hg19_v1.0">
#CHROM  POS ID  REF ALT QUAL    FILTER  INFO
chr22   17662699    rs58754958  A   G   59.86   PASS    CMDB_AF=0.031047,CMDB_AC=441,CMDB_AN=13553
chr22   17662793    rs7289170   A   G   64.23   PASS    CMDB_AF=0.050419,CMDB_AC=842,CMDB_AN=16135
chr22   17669245    rs116020027 G   T   30.3    PASS    CMDB_AF=0.003453,CMDB_AC=43,CMDB_AN=11280
chr22   17690409    rs362129    G   A   32.3    PASS    CMDB_AF=0.065438,CMDB_AC=686,CMDB_AN=10236

实际上,如果您愿意,可以同时使用-c-p-l。而positions.list只能包含一个位置。

cmdbtools query-variant -c 22 -p 46616520 -l positions.list > result.vcf

为VCF文件添加批注

使用cmdbtools annotate命令用CMDB注释VCF文件。

下载VCF中的示例变量列表来自multiple_samples.vcf.gz的垫子。 要使用CMDB中的等位基因频率注释此变体列表,只需在Linux或Mac OS中运行以下命令。

cmdbtools annotate -i multiple_samples.vcf.gz > multiple_samples_CMDB.vcf

完成3000多个变体的注释大约需要2到3分钟。然后您将在VCF信息中获得4个包含CMDB信息的新字段:

  • CMDB_AF:CMDB中的等位基因频率;
  • CMDB_AN:CMDB在填充级别的覆盖率;
  • CMDB_AC:CMDB中群体水平的等位基因计数;
  • CMDB_FILTER:CMDB中的筛选器状态。
##fileformat=VCFv4.2
##ALT=<ID=NON_REF,Description="Represents any possible alternative allele at this location">
##FILTER=<ID=LowQual,Description="Low quality">
##INFO=<ID=AC,Number=A,Type=Integer,Description="Allele count in genotypes, for each ALT allele, in the same order as listed">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency, for each ALT allele, in the same order as listed">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=BaseQRankSum,Number=1,Type=Float,Description="Z-score from Wilcoxon rank sum test of Alt Vs. Ref base qualities">
##reference=file:///home/tools/hg19_reference/ucsc.hg19.fasta
##INFO=<ID=CMDB_AN,Number=1,Type=Integer,Description="Number of Alleles in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AC,Number=A,Type=Integer,Description="Alternate Allele Counts in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AF,Number=A,Type=Float,Description="Alternate Allele Frequencies from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_FILTER,Number=A,Type=Float,Description="Filter from CMDB_hg19_v1.0">
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
chr21   9413612 .       C       T       6906.62 .       AC=25;AF=0.313;AN=80;BaseQRankSum=0.425;CMDB_AC=2459;CMDB_AF=0.207525;CMDB_AN=11834;CMDB_FILTER=PASS
chr21   9413629 .       C       T       8028.88 .       AC=30;AF=0.375;AN=80;BaseQRankSum=-1.200e+00;CMDB_AC=6906;CMDB_AF=0.305445;CMDB_AN=22406;CMDB_FILTER=PASS
chr21   9413700 .       G       A       7723.82 .       AC=30;AF=0.375;AN=80;BaseQRankSum=-9.000e-02
chr21   9413735 .       C       A       10121.72        .       AC=35;AF=0.438;AN=80;BaseQRankSum=0.977;CMDB_AC=2385;CMDB_AF=0.283965;CMDB_AN=8382;CMDB_FILTER=PASS
chr21   9413839 .       C       T       8192.08 .       AC=28;AF=0.350;AN=80;BaseQRankSum=-5.200e-02
chr21   9413840 .       C       A       11514.35        .       AC=38;AF=0.475;AN=80;BaseQRankSum=0.253
chr21   9413870 .       T       C       7390.60 .       AC=26;AF=0.325;AN=80;BaseQRankSum=-4.270e-01
chr21   9413880 .       T       A       146.96  .       AC=1;AF=0.013;AN=80;BaseQRankSum=2.12;ClippingRankSum=0.00
chr21   9413909 .       G       A       1131.78 .       AC=10;AF=0.125;AN=80;BaseQRankSum=0.549;CMDB_AC=209;CMDB_AF=0.01507;CMDB_AN=13683;CMDB_FILTER=PASS
chr21   9413913 .       C       T       8120.65 .       AC=28;AF=0.350;AN=80;BaseQRankSum=-4.390e-01;CMDB_AC=2870;CMDB_AF=0.205597;CMDB_AN=13955;CMDB_FILTER=PASS
chr21   9413945 .       T       C       43787.68        .       AC=71;AF=0.888;AN=80;BaseQRankSum=0.089
chr21   9413995 .       C       T       9632.44 .       AC=29;AF=0.363;AN=80;BaseQRankSum=0.747
chr21   9413996 .       A       G       41996.48        .       AC=71;AF=0.888;AN=80;BaseQRankSum=-1.242e+00;CMDB_AC=3308;CMDB_AF=0.688533;CMDB_AN=4790;CMDB_FILTER=PASS
chr21   9414003 .       T       C       4256.54 .       AC=19;AF=0.238;AN=80;BaseQRankSum=-6.030e-01

引文

如果您在科学出版物中使用CMDB,我们将非常感谢您引用本文:

刘思阳,黄舒佳。等(2018)非侵入性产前检测的基因组分析揭示了基因关联, 病毒感染模式与中国人口史。细胞,2347-359。 DOI:https://doi.org/10.1016/j.cell.2018.08.016

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
web爬虫读取网站内容的Java代码   在jenkins插件的类路径中找不到java Maven依赖项   XChange bitfinex ticker Java示例代码不工作   java如何在NetBeans中安装jBox2d?   java进程无法访问该文件,因为其他进程正在使用该文件   java如何知道要设置的长度和宽度?   java更改生成的jaxb类的类名和包结构   java使用JavaFX多次拖动节点   java如何编写按钮onclick事件?   java Couchbaselite更新操作导致行为不一致   java如何在没有keymanager的情况下使用TrueVFS(was TrueZip)ZipoutStream创建密码保护的Zip流?   ApacheSpark如何使用Java读取Hadoop序列文件   使用PDFBox PDFPagePanel时java IndexOutOfBounds异常   java为什么插值搜索如果是手动计算的,那么它只执行2个步骤,但编程时超过2个步骤