用于从Leiden开放式变体数据库安装中提取变体的工具。
lovd的Python项目详细描述
=============
莱顿SC
===========
图片::https://badge.fury.io/py/lovd.png
:目标:http://badge.fury.io/py/lovd
…图片:https://travis-ci.org/andrewhill157/leiden_sc.png?branch=master
:目标:https://travis ci.org/andrewhill157/lovd
…图片::https://pypip.in/d/lovd/badge.png
:目标:https://crate.io/packages/lovd?version=latest
用于从Leiden开放式变体数据库安装中提取、重新映射和验证变体的工具。
*免费软件:BSD许可证
*文档:http://lovd.rtfd.org。(未完成)
数据库)和来自任何Leiden开放变体数据库安装的其他有用信息,如http://www.dmd.nl/nmdb2/。不幸的是,有必要通过下载数据库中相关页面的html并解析出必要的数据来做到这一点,因为它们没有一种简单的方法来访问数据。因此,我添加了一个外部依赖项-beautifulsoup4-用于HTML解析。
基本上,这些类的用法如下:
```
leiden_url='http://www.dmd.nl/nmdb2/'
gene_id='acta1'
database.set_gene_id(gene_id)
column_labels=leiden_database.get_table_headers()
table_entries=leiden_database.get_table_data()
…
````
请注意,make_leiden_database充当工厂方法,为检测到的版本号生成leidendatabase的正确子类。
macarthur-core/lovd/utilities.py:
hgvs是紧凑的,它有自己的(相对复杂的)语法来描述突变。然而,对于大型分析项目,由于许多原因,hgvs很难有效地使用。我们有兴趣将莱顿开放变异数据库中的数据从一种格式转换为另一种格式。这是一个非常重要的转换。
macarthur core/remapping/remapping.py``中的类``variantremapper``包装了第三方模块(hgvs),使其更易于在此项目中使用。这里描述了第三方模块文档和说明hgvs.vcf表示法:https://github.com/consyl/hgvs
不幸的是,第三方工具依赖于两个相对较大的文件,我无法轻松地在github上托管它们。它们通常位于模块中名为resources的文件夹中。一个是人类基因组参考序列(``macarthur廑core/remapping/resources/hg19.fa````),另一个是包含转录序列定义的文件,这些转录序列用于促进hgvs和vcf之间的转换
(``macarthur廑core/remapping/resources/genes.refseq````)。这两个文件位于:http://www.broadinstitute.org/~ahill。请注意,这些文件需要使用gunzip解压并放在"macarthur-core/remapping/resources/``"中。第一次使用这些函数时,将生成两个附加文件(需要一些时间)。后续运行不需要重复此过程。
io
macarthur_core/io/file_io.py
此模块具有在二维列表中读写分隔文件的功能,其中第一个维度是行,第二个维度是列。它还包含一个用于格式化文件格式的输出文本的函数,名为<;a href='http://www.1000genomes.org/wiki/analysis/variant%20call%20format/vcf-variant-call-format-version-41'>;vcf<;/a>;,来自2d
数据列表。
并验证lovd数据库中的数据。
extract_data.py
这是我在整个项目中使用的一个脚本,该脚本使用macarthur_core/lovd和macarthur_core/web戡io从给定的lovd url中提取所有数据。
脚本使用argparse提供用户界面。为命令行接口提供的字符串应该能够解释如何使用它。它应该为每个基因的表数据保存一个制表符分隔的文件,其中每个输出文件根据基因名命名。
使用:
``
python extract_data.py--可用的基因--Leiden_URL http://www.dmd.nl/nmdb2/
```
history
----
<0.1.0(2014-3-12)
++++++++++++br/>
*pypi上的第一个版本。
莱顿SC
===========
图片::https://badge.fury.io/py/lovd.png
:目标:http://badge.fury.io/py/lovd
…图片:https://travis-ci.org/andrewhill157/leiden_sc.png?branch=master
:目标:https://travis ci.org/andrewhill157/lovd
…图片::https://pypip.in/d/lovd/badge.png
:目标:https://crate.io/packages/lovd?version=latest
用于从Leiden开放式变体数据库安装中提取、重新映射和验证变体的工具。
*免费软件:BSD许可证
*文档:http://lovd.rtfd.org。(未完成)
数据库)和来自任何Leiden开放变体数据库安装的其他有用信息,如http://www.dmd.nl/nmdb2/。不幸的是,有必要通过下载数据库中相关页面的html并解析出必要的数据来做到这一点,因为它们没有一种简单的方法来访问数据。因此,我添加了一个外部依赖项-beautifulsoup4-用于HTML解析。
基本上,这些类的用法如下:
```
leiden_url='http://www.dmd.nl/nmdb2/'
gene_id='acta1'
column_labels=leiden_database.get_table_headers()
table_entries=leiden_database.get_table_data()
…
````
请注意,make_leiden_database充当工厂方法,为检测到的版本号生成leidendatabase的正确子类。
macarthur-core/lovd/utilities.py:
hgvs是紧凑的,它有自己的(相对复杂的)语法来描述突变。然而,对于大型分析项目,由于许多原因,hgvs很难有效地使用。我们有兴趣将莱顿开放变异数据库中的数据从一种格式转换为另一种格式。这是一个非常重要的转换。
macarthur core/remapping/remapping.py``中的类``variantremapper``包装了第三方模块(hgvs),使其更易于在此项目中使用。这里描述了第三方模块文档和说明hgvs.vcf表示法:https://github.com/consyl/hgvs
不幸的是,第三方工具依赖于两个相对较大的文件,我无法轻松地在github上托管它们。它们通常位于模块中名为resources的文件夹中。一个是人类基因组参考序列(``macarthur廑core/remapping/resources/hg19.fa````),另一个是包含转录序列定义的文件,这些转录序列用于促进hgvs和vcf之间的转换
(``macarthur廑core/remapping/resources/genes.refseq````)。这两个文件位于:http://www.broadinstitute.org/~ahill。请注意,这些文件需要使用gunzip解压并放在"macarthur-core/remapping/resources/``"中。第一次使用这些函数时,将生成两个附加文件(需要一些时间)。后续运行不需要重复此过程。
io
macarthur_core/io/file_io.py
此模块具有在二维列表中读写分隔文件的功能,其中第一个维度是行,第二个维度是列。它还包含一个用于格式化文件格式的输出文本的函数,名为<;a href='http://www.1000genomes.org/wiki/analysis/variant%20call%20format/vcf-variant-call-format-version-41'>;vcf<;/a>;,来自2d
数据列表。
并验证lovd数据库中的数据。
extract_data.py
这是我在整个项目中使用的一个脚本,该脚本使用macarthur_core/lovd和macarthur_core/web戡io从给定的lovd url中提取所有数据。
脚本使用argparse提供用户界面。为命令行接口提供的字符串应该能够解释如何使用它。它应该为每个基因的表数据保存一个制表符分隔的文件,其中每个输出文件根据基因名命名。
使用:
``
python extract_data.py--可用的基因--Leiden_URL http://www.dmd.nl/nmdb2/
```
history
----
<0.1.0(2014-3-12)
++++++++++++br/>
*pypi上的第一个版本。