CMDB工具:用于CMDB变体浏览器的命令行工具。
cmdbtools的Python项目详细描述
简介
中国是世界上人口最多的国家和第二大经济体。然而, 中国基因组数据库建设进展缓慢。目前,在 世界大型国际和国家基因组测序项目,如1KGP, 英国基因组学、荷兰基因组学、exac大多偏向于构建 欧洲人群的基因组基线。在那些项目中,当样本量 数据库中有数十万欧洲血统的样本- 中国的样品不超过一千个。
因为高质量的基因组基线数据库是医学的重要控制手段 中国毫微子的研究和面向人群的临床和药物应用 开发数据库(CMDB)是为了填补这一空白。
Chinese Millionome Database(CMDB)是一个独特的大规模 中国基因组学数据库由bgi制作,国家基因库托管。CMDB提供 从分析 数以百万计的中国测序数据。研究结果旨在促进基因研究和精确性 中国的医学活动。
传递信息包括任何检测到的变体和相应的等位基因频率, 注释、与现有数据库中全局种群的频率比较等
基准测试的细节和方法在我们的cell论文中有描述:
Liu,S.等人(2018)非侵入性产前检测的基因组分析揭示了基因关联, 病毒感染模式与中国人口史。细胞,2347-359。 DOI:https://doi.org/10.1016/j.cell.2018.08.016
cmdbtools是此CMDB变体浏览器的命令行工具。
快速启动
CMDB变体浏览器允许授权通过基因组学API和CMDB工具访问其数据 是一个方便的命令行工具。
安装
通过pip:
安装发布的版本pip install cmdbtools
您可能希望通过运行:
pip install git+git://github.com/ShujiaHuang/cmdbtools.git#egg=cmdbtools
设置
在使用cmdbtools之前,请从CMDB browser中的配置文件启用API访问。
登录
使用CMDB API访问密钥使用cmdbtools登录,如果您已经申请,可以从profile->;genomics API中找到该密钥。
cmdbtools login -k your-genomics-api-key
如果一切顺利,意味着您可以在命令行模式下使用CMDB作为varaints数据库之一。
注销
退出cmdbtools,只需运行下面的命令:
cmdbtool logout
查询单个变量
可以使用query-varaint从CMDB检索变量。
运行cmdbtools query-variant-h查看所有可用选项。有两种不同的方法来检索变体。
一种是对单个变量使用-c和-p参数,另一种是对多个位置使用-l。
下面是按染色体名称和位置查询单个油漆的示例。
cmdbtools query-variant -c chr17 -p 41234470
您将得到如下信息:
##fileformat=VCFv4.2 ##FILTER=<ID=LowQual,Description="Low quality"> ##INFO=<ID=CMDB_AN,Number=1,Type=Integer,Description="Number of Alleles in Samples with Coverage from CMDB_hg19_v1.0"> ##INFO=<ID=CMDB_AC,Number=A,Type=Integer,Description="Alternate Allele Counts in Samples with Coverage from CMDB_hg19_v1.0"> ##INFO=<ID=CMDB_AF,Number=A,Type=Float,Description="Alternate Allele Frequencies from CMDB_hg19_v1.0"> ##INFO=<ID=CMDB_FILTER,Number=A,Type=Float,Description="Filter from CMDB_hg19_v1.0"> #CHROM POS ID REF ALT QUAL FILTER INFO 1741234470 rs1060915&CD086610&COSM4416375 A G 74.38 PASS CMDB_AF=0.361763,CMDB_AC=4625,CMDB_AN=12757
查询多个变量。
当由query-varaint应用时,可以使用-l的参数从CMDB检索变量列表。
cmdbtools query-variant -l positions.list > result.vcf
positions.list的格式可以是chrom position和chrom start end的混合,即使在 染色体id列:
#CHROM POS chr22 17662378 chr22 17662408 22 17662442 22 17662444 22 17662699 22 17662729 22 17690496 22 17662353 17663671 22 17669209 17669357
result.vcf是VCF格式,如下所示:
##fileformat=VCFv4.2 ##FILTER=<ID=LowQual,Description="Low quality"> ##INFO=<ID=CMDB_AN,Number=1,Type=Integer,Description="Number of Alleles in Samples with Coverage from CMDB_hg19_v1.0"> ##INFO=<ID=CMDB_AC,Number=A,Type=Integer,Description="Alternate Allele Counts in Samples with Coverage from CMDB_hg19_v1.0"> ##INFO=<ID=CMDB_AF,Number=A,Type=Float,Description="Alternate Allele Frequencies from CMDB_hg19_v1.0"> ##INFO=<ID=CMDB_FILTER,Number=A,Type=Float,Description="Filter from CMDB_hg19_v1.0"> #CHROM POS ID REF ALT QUAL FILTER INFO chr22 17662699 rs58754958 A G 59.86 PASS CMDB_AF=0.031047,CMDB_AC=441,CMDB_AN=13553 chr22 17662793 rs7289170 A G 64.23 PASS CMDB_AF=0.050419,CMDB_AC=842,CMDB_AN=16135 chr22 17669245 rs116020027 G T 30.3 PASS CMDB_AF=0.003453,CMDB_AC=43,CMDB_AN=11280 chr22 17690409 rs362129 G A 32.3 PASS CMDB_AF=0.065438,CMDB_AC=686,CMDB_AN=10236
实际上,如果您愿意,可以同时使用-c-p和-l。而positions.list只能包含一个位置。
cmdbtools query-variant -c 22 -p 46616520 -l positions.list > result.vcf
为VCF文件添加批注
使用cmdbtools annotate命令用CMDB注释VCF文件。
下载VCF中的示例变量列表来自multiple_samples.vcf.gz的垫子。 要使用CMDB中的等位基因频率注释此变体列表,只需在Linux或Mac OS中运行以下命令。
cmdbtools annotate -i multiple_samples.vcf.gz > multiple_samples_CMDB.vcf
完成3000多个变体的注释大约需要2到3分钟。然后您将在VCF信息中获得4个包含CMDB信息的新字段:
- CMDB_AF:CMDB中的等位基因频率;
- CMDB_AN:CMDB在填充级别的覆盖率;
- CMDB_AC:CMDB中群体水平的等位基因计数;
- CMDB_FILTER:CMDB中的筛选器状态。
##fileformat=VCFv4.2 ##ALT=<ID=NON_REF,Description="Represents any possible alternative allele at this location"> ##FILTER=<ID=LowQual,Description="Low quality"> ##INFO=<ID=AC,Number=A,Type=Integer,Description="Allele count in genotypes, for each ALT allele, in the same order as listed"> ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency, for each ALT allele, in the same order as listed"> ##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes"> ##INFO=<ID=BaseQRankSum,Number=1,Type=Float,Description="Z-score from Wilcoxon rank sum test of Alt Vs. Ref base qualities"> ##reference=file:///home/tools/hg19_reference/ucsc.hg19.fasta ##INFO=<ID=CMDB_AN,Number=1,Type=Integer,Description="Number of Alleles in Samples with Coverage from CMDB_hg19_v1.0"> ##INFO=<ID=CMDB_AC,Number=A,Type=Integer,Description="Alternate Allele Counts in Samples with Coverage from CMDB_hg19_v1.0"> ##INFO=<ID=CMDB_AF,Number=A,Type=Float,Description="Alternate Allele Frequencies from CMDB_hg19_v1.0"> ##INFO=<ID=CMDB_FILTER,Number=A,Type=Float,Description="Filter from CMDB_hg19_v1.0"> #CHROM POS ID REF ALT QUAL FILTER INFO chr21 9413612 . C T 6906.62 . AC=25;AF=0.313;AN=80;BaseQRankSum=0.425;CMDB_AC=2459;CMDB_AF=0.207525;CMDB_AN=11834;CMDB_FILTER=PASS chr21 9413629 . C T 8028.88 . AC=30;AF=0.375;AN=80;BaseQRankSum=-1.200e+00;CMDB_AC=6906;CMDB_AF=0.305445;CMDB_AN=22406;CMDB_FILTER=PASS chr21 9413700 . G A 7723.82 . AC=30;AF=0.375;AN=80;BaseQRankSum=-9.000e-02 chr21 9413735 . C A 10121.72 . AC=35;AF=0.438;AN=80;BaseQRankSum=0.977;CMDB_AC=2385;CMDB_AF=0.283965;CMDB_AN=8382;CMDB_FILTER=PASS chr21 9413839 . C T 8192.08 . AC=28;AF=0.350;AN=80;BaseQRankSum=-5.200e-02 chr21 9413840 . C A 11514.35 . AC=38;AF=0.475;AN=80;BaseQRankSum=0.253 chr21 9413870 . T C 7390.60 . AC=26;AF=0.325;AN=80;BaseQRankSum=-4.270e-01 chr21 9413880 . T A 146.96 . AC=1;AF=0.013;AN=80;BaseQRankSum=2.12;ClippingRankSum=0.00 chr21 9413909 . G A 1131.78 . AC=10;AF=0.125;AN=80;BaseQRankSum=0.549;CMDB_AC=209;CMDB_AF=0.01507;CMDB_AN=13683;CMDB_FILTER=PASS chr21 9413913 . C T 8120.65 . AC=28;AF=0.350;AN=80;BaseQRankSum=-4.390e-01;CMDB_AC=2870;CMDB_AF=0.205597;CMDB_AN=13955;CMDB_FILTER=PASS chr21 9413945 . T C 43787.68 . AC=71;AF=0.888;AN=80;BaseQRankSum=0.089 chr21 9413995 . C T 9632.44 . AC=29;AF=0.363;AN=80;BaseQRankSum=0.747 chr21 9413996 . A G 41996.48 . AC=71;AF=0.888;AN=80;BaseQRankSum=-1.242e+00;CMDB_AC=3308;CMDB_AF=0.688533;CMDB_AN=4790;CMDB_FILTER=PASS chr21 9414003 . T C 4256.54 . AC=19;AF=0.238;AN=80;BaseQRankSum=-6.030e-01
引文
如果您在科学出版物中使用CMDB,我们将非常感谢您引用本文:
刘思阳,黄舒佳。等(2018)非侵入性产前检测的基因组分析揭示了基因关联, 病毒感染模式与中国人口史。细胞,2347-359。 DOI:https://doi.org/10.1016/j.cell.2018.08.016