与DBSNP VCF数据接口

pydbsnp的Python项目详细描述


PYDBSNP

与DBSNP VCF数据接口

安装

step 0(可选):如果不想使用环境变量 不要在意pydbsnp在引擎盖下是如何工作的,跳过这一步。

如果愿意,可以确定pydbsnp查找相关内容的位置 使用四个环境变量的数据:PYDBSNP_VCF_GRCH37PYDBSNP_RSID_GRCH37PYDBSNP_VCF_GRCH38PYDBSNP_RSID_GRCH38。这个VCF 变量决定vcf数据的位置,RSID变量 确定rsid指数的位置。例如,您可以添加 致您的.bash_profile

exportPYDBSNP_VCF_GRCH37=<path of your choice>
exportPYDBSNP_RSID_GRCH37=<path of your choice>
exportPYDBSNP_VCF_GRCH38=<path of your choice>
exportPYDBSNP_RSID_GRCH38=<path of your choice>

如果在继续下一步之前设置这些变量,pydbsnp将 使用它们来确定它放置下载的VCF文件和RSID索引的位置。

步骤1:通过pip3安装python包

pip3 install pydbsnp

pip3 install --user pydbsnp

step 2:安装python包后,下载dbsbp并为其编制索引 VCF数据:

pydbsnp-download
pydbsnp-index

对于HG19/GRCH37坐标:

pydbsnp-download --reference-build GRCh37
pydbsnp-index

命令行用法

pydbsnp-query -h
pydbsnp-query rs231361
pydbsnp-query chr8:118184783
pydbsnp-query --reference-build GRCh37 rs231361
pydbsnp-query rs231361 chr8:118184783 rs7903146

API

提供了两个类:VariantGeneralizedVariant

Variant类的对象对每个相关字段都有一个属性 VCF的。

frompydbsnpimportVariantv=Variant(id='rs8056814')print(v.chrom,v.pos,v.id,v.ref,v.alt)print(v.info)w=Variant(id='rs8056814',reference_build='GRCh37')print(w.chrom,w.pos)x=Variant('chr16',75218429)print(x)help(Variant)

GeneralizedVariant类的对象类似,但是每个属性 可能有多个项的元组。例如,一个rsid可以映射 两组坐标。

gv=GeneralizedVariant(id='rs8056814')print(gv.chrom,gv.pos,gv.id,gv.ref,gv.alt)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
这是一个很好的开放源代码库,可以让我们在。net/java?   sql将表从Postgres数据库(在服务器上)导出到java中的csv文件(在本地)   如何使用Java11运行JavaJAR<jarfile>?   为什么我的问题和照片没有相同的结果   使用JDBC的SQL过程中的java开始日期和结束日期   java希望通过createChooser方法中的sms选项添加共享   java将包含大量列的html表导出为PDF   java如何在几分钟内检索两个日期实例之间的差异?   将Java FX表单数据添加到ArrayList   java如何在安卓上制作使用json数据的按钮   java XML DOM名称空间   java如何从json对象获取密钥   java我不知道如何实现ItemListener和ActionListener   java如何能够声明一个类(而不是抽象类)并只编写方法签名而不进行任何实现   Java:数组类型的javadocs   java二维数组结构算法   枚举类型的java JSP Bean集属性诉诸字符串   java根据iText中的大小或颜色从PDF中提取文本