蟒蛇基因组
genomep的Python项目详细描述
#基因拷贝
[![Bioconda徽章](https://img.shields.io/badge/install%20with-bioconda-brightgreen.svg?style=flat)(http://bioconda.github.io)
[![PYPI版本](https://badge.fury.io/py/genomepy.svg)(https://badge.fury.io/py/genomepy)
[![构建状态](https://travis-ci.org/simonvh/genomepy.svg?branch=master)(https://travis ci.org/simonvh/genomepy)
[![代码运行状况](https://landscape.io/github/simonvh/genomepy/master/landscape.svg?style=flat)(https://landscape.io/github/simonvh/genomepy/master)
[![状态](http://joss.theoj.org/papers/df434a15edd00c8c2f407668575d1cd/status.svg)(http://joss.theoj.org/papers/df434a15edd00c8c2f40766575d1cd)
[![doi](https://zenodo.org/badge/doi/10.5281/zenodo.831969.svg)](https://doi.org/10.5281/zenodo.831969)
在python和其他地方轻松安装和使用基因组!
我们的目标是用一种简单明了的方式下载和使用基因组序列。
目前,genomepy支持ucsc、ensembl和ncbi。< BR>[asciicast](https://asciinema.org/a/ezttbuf5ly0anjfvbbieiybjs.png)](https://asciinema.org/a/ezttbuf5ly0anjfvbbieiybjs)
\
您可以通过[bioconda]安装它(https://bioconda.github.io/):
`````
$conda install genomepy
````
注解下载功能。
您必须安装以下
实用程序并确保它们在您的路径中:
*`genepredtobed`
*`genepredtogtf`
*`bedtogenepred`
*`gtftogenepred`
*`gff3togenepred`
您可以在[此处]找到二进制文件(http://hgdownload.cse.ucsc.edu/admin/exe/)。
插件和索引
对于某些基因组,genomepy可以下载黑名单文件(由kundaje实验室生成)。这只会在从加州大学安装这些基因组时起作用。启用此插件以使用它。
```
$genomepy plugin enable blacklist
````
您还可以为一些广泛使用的对齐器创建索引。目前,genomepy支持:
*[bowtie2](http://bowtie bio.sourceforge.net/bowtie2/index.shtml)
*[bwa](http://bio-bwa.sourceforge.net/)
*[gmap](http://research pub.gene.com/gmap/)
*[hisat2](https://ccb.jhu.edu/software/hisat2/index.shtml)
*[minimap2](https://github.co)m/lh3/minimap2)
注1:这些程序不是由genomepy安装的,需要单独安装才能使索引工作。
使用"genomepy plugin"命令创建(见下文)
若要更改配置,请生成个人配置文件:
```
$genomepy config generate
created config file/home/simon/.config/genomepy/genomepy.yaml
```
若要将默认基因组目录设置为`/data/genomes',例如,编辑` ~/.config/genomepy/genomepy.yaml`并更改以下行:
```
genome目录:~/.local/share/genomes/
````
ge
/install install genome
插件管理插件
提供程序列出可用的提供程序
搜索基因组
`````
最简单的形式是:
```
$genomepy install hg38 ucsc
下载…
完成…
名称:hg38
fasta:/data/genomes/hg38/hg38.fa
````
要选择不同的目录,请使用"-g"选项。
```
$genomepy install saccer3 ucsc-g~/genomes/
从http://hgdownload.soe.ucsc.edu/goldenpath/saccer3/bigzips/chromfa.tar.gz下载…
完成…
名称:saccer3
本地名称:saccer3
fasta:/home/simon/genomes/saccer3/saccer3.fa
``
您可以使用正则表达式筛选匹配序列
(或使用"--no-match"选项筛选不匹配的序列)。例如,
以下命令下载hg38并仅保存主要染色体:
````
$genomepy install hg38 ucsc-r'chr[0-9xy]+$'
从http://hgdownload.soe.ucsc.edu/goldenpath/hg38/bigzips/hg38.fa.gz下载…
完成…
名称:hg38
本地名称:hg38
FastA:/数据/基因组/HG38/HG38.fa
$grep">;"/数据/基因组/HG38/HG38.fa
>>chr1
>;chr10
>;chr11
>>;chr12
>;chr12
>;chr13
>;ch chr14
>;chr15
>;chr16
>>;chr17
>>;chr18
>>;ch chr19
>>>;ch chr2
>;chr2
;chr18
>;chchr18
>>chr18>>;chr20
>;chr21
>;chr22
>;chr3
>;chr4
>;chr5
>;chr6
>;chr7
>;chr8
>;chr9
>;chrx
>;chry
````
使用"-m hard"进行硬屏蔽。
染色体大小保存在名为"<;genome廑name>;.fa.sizes"的文件中。
对于来自ucsc和ensembl的基因组,您可以选择使用"-annotation"选项下载基因注释文件。
这些将以bed和gtf格式保存。
```
$genomepy install hg38 ucsc--annotation
```
最后,本着可重复性的精神,所有选择的选项都存储在"readme.txt"中。
包括原始名称和下载位置。
/>minimap2
大小*
```
启用插件如下:
````
$genomepy plugin启用bwa hisat2
启用的插件:bwa,gaps,hisat2,大小
````
hisat2,大小
```
```
$基因组搜索非洲爪蟾
```
$genomepy search非洲爪蟾
ncbi非洲爪蟾9.1热带爪蟾;doe联合基因组研究所
ncbi viralproj30173非洲爪蟾内源性逆转录病毒xen1;
ncbi非洲爪蟾v2非洲爪蟾laevis;interna国家爪蟾测序协会c
ucsc-xentro7 x.tropicalis 2012年9月(jgi 7.0/xentro7)ucsc基因组
ucsc-xentro3 x.tropicalis 2009年11月(jgi 4.2/xentro3)ucsc基因组
ucsc-xentro2 x.tropicalis 2005年8月(jgi 4.1/xentro2)ucsc基因组
ucsc-xentro1 x.tropicalis 2004年10月(jgi 3.0/xentro1)ucsc基因组
```
请注意,搜索并非完美无缺,因此,如果
没有任何结果,请尝试一些变体。
搜索不区分大小写。
t available genomes
您可以使用"-p"选项来限制基因组列表,只搜索特定的提供者。
```
$GenomePy基因组-p ucsc
ucsc hg38人类2013年12月(grch38/hg38)ucsc基因组
ucsc hg19人类2009年2月(grch37/hg19)ucsc基因组
ucsc hg18人类2006年3月(ncbi36/hg18)ucsc基因组
…
ucsc danrer4斑马鱼2006年3月(zv6/danrer4)ucsc基因组
ucsc danrer3斑马鱼2005年5月(zv5/danrer3)在ucsc的基因组管理配置配置文件:
```
$genomepy config show
```
$genomepy config generate
创建了配置文件/home/simon/.config/genomepy/genomepy.yaml
````
请注意,第一次运行"genomepy search"或"list"命令需要很长时间,因为必须下载基因组列表。
列表在本地缓存,这将节省以后的时间。缓存的文件存储在
`~/.cache/genomepy`中,7天后过期。您还可以删除此目录以清除
缓存。
python
`python
>;>import genomepy
>;>genomepy中的行。search("grch38"):
…打印("\t.join(row))
…
ucsc hg38人类2013年12月(grch38/hg38)ucsc基因组
ncbi grch38.p10智人;基因组参考联合体
ncbi grch38智人;基因组参考联合体
ncbi grch38.p2智人ns;基因组参考联盟
ncbi grch38.p3智人;基因组参考联盟
ncbi grch38.p4智人;基因组参考联盟
ncbi grch38.p5智人;基因组参考联盟
ncbi grch38.p6智人;基因组参考联盟
ncbi grch38.p7智人智人;基因组参考联盟
ncbi grch38.p8智人;基因组参考联盟
ncbi grch38.p9智人;基因组参考联盟
ensembl grch38.p10人类ne…
名称:hg38
fasta:/data/genomes/hg38/hg38.fa
>;>g=genomepy.genome("hg38",genome-dir="/data/genomes")
>;>g["chr6"][166502000:166503000]
tgtatggtcactaggggggcagagagagagagagagagagagagagagagagagagagagagaggggggggcggggggggggggggggctagggagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagtctggagatgggggggggcccagcagatggagagagagagagagataagataagataagataagatacttcttggagccttggagataagataagataagataagataagataagataagataagataagataagataagataagataagatattctagttgaacacacacacacattccttccttcaagttgcaattaaagctattagttagctaaggatcacgtagccagagaggaccagagagacaggaccagagaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcagccagccaggcagccagccagcacagactcacaggcaggcaggcaggcaggcaggtaggcagagaggcagagagagccagagagccagagagagagccagagagagagccagagagagagagccagagagagagagagagagagagaccccaattaggagggaaggaagctccaggcagctagccggggttctagccgacccactttgaaatggccttggctgcttgggggaccagctgcggggaggtgcttgggatgatctggataaaagtttttttttgctctggcatccttagagagagctgaagagagagagagagaggatttggataaggatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgat/>
"genomepy.genome()"方法返回一个genome对象。它具有"pyfaidx.fasta"对象的所有
功能,
有关如何使用它的更多示例,请参见[文档](https://github.com/mdshw5/pyfaidx)。
问题
特定的基因组序列可能存在问题。
遗憾的是,并非所有的东西(命名、结构、文件名)在提供者端总是一致的。
如果您在某些下载中遇到问题,请告诉我。
研究,请引用它:[10.21105/joss.00320](http://dx.doi.org/10.21105/joss.00320)。
这是获得支持的首选方式。或者,您可以[给我发邮件](mailto:simon.vanheeringen@gmail.com)。
向我发送请求或进入[触摸](mailto:simon.vanheeringen@gmail.com)。
\license
此模块根据[麻省理工学院许可证](https://opensource.org/licenses/mit)的条款获得许可。
[![Bioconda徽章](https://img.shields.io/badge/install%20with-bioconda-brightgreen.svg?style=flat)(http://bioconda.github.io)
[![PYPI版本](https://badge.fury.io/py/genomepy.svg)(https://badge.fury.io/py/genomepy)
[![构建状态](https://travis-ci.org/simonvh/genomepy.svg?branch=master)(https://travis ci.org/simonvh/genomepy)
[![代码运行状况](https://landscape.io/github/simonvh/genomepy/master/landscape.svg?style=flat)(https://landscape.io/github/simonvh/genomepy/master)
[![状态](http://joss.theoj.org/papers/df434a15edd00c8c2f407668575d1cd/status.svg)(http://joss.theoj.org/papers/df434a15edd00c8c2f40766575d1cd)
[![doi](https://zenodo.org/badge/doi/10.5281/zenodo.831969.svg)](https://doi.org/10.5281/zenodo.831969)
在python和其他地方轻松安装和使用基因组!
我们的目标是用一种简单明了的方式下载和使用基因组序列。
目前,genomepy支持ucsc、ensembl和ncbi。< BR>[asciicast](https://asciinema.org/a/ezttbuf5ly0anjfvbbieiybjs.png)](https://asciinema.org/a/ezttbuf5ly0anjfvbbieiybjs)
\
您可以通过[bioconda]安装它(https://bioconda.github.io/):
`````
$conda install genomepy
````
注解下载功能。
您必须安装以下
实用程序并确保它们在您的路径中:
*`genepredtobed`
*`genepredtogtf`
*`bedtogenepred`
*`gtftogenepred`
*`gff3togenepred`
您可以在[此处]找到二进制文件(http://hgdownload.cse.ucsc.edu/admin/exe/)。
插件和索引
对于某些基因组,genomepy可以下载黑名单文件(由kundaje实验室生成)。这只会在从加州大学安装这些基因组时起作用。启用此插件以使用它。
```
$genomepy plugin enable blacklist
````
您还可以为一些广泛使用的对齐器创建索引。目前,genomepy支持:
*[bowtie2](http://bowtie bio.sourceforge.net/bowtie2/index.shtml)
*[bwa](http://bio-bwa.sourceforge.net/)
*[gmap](http://research pub.gene.com/gmap/)
*[hisat2](https://ccb.jhu.edu/software/hisat2/index.shtml)
*[minimap2](https://github.co)m/lh3/minimap2)
注1:这些程序不是由genomepy安装的,需要单独安装才能使索引工作。
使用"genomepy plugin"命令创建(见下文)
若要更改配置,请生成个人配置文件:
```
$genomepy config generate
created config file/home/simon/.config/genomepy/genomepy.yaml
```
若要将默认基因组目录设置为`/data/genomes',例如,编辑` ~/.config/genomepy/genomepy.yaml`并更改以下行:
```
genome目录:~/.local/share/genomes/
````
ge
/install install genome
插件管理插件
提供程序列出可用的提供程序
搜索基因组
`````
最简单的形式是:
```
$genomepy install hg38 ucsc
下载…
完成…
名称:hg38
fasta:/data/genomes/hg38/hg38.fa
````
要选择不同的目录,请使用"-g"选项。
```
$genomepy install saccer3 ucsc-g~/genomes/
从http://hgdownload.soe.ucsc.edu/goldenpath/saccer3/bigzips/chromfa.tar.gz下载…
完成…
名称:saccer3
本地名称:saccer3
fasta:/home/simon/genomes/saccer3/saccer3.fa
``
您可以使用正则表达式筛选匹配序列
(或使用"--no-match"选项筛选不匹配的序列)。例如,
以下命令下载hg38并仅保存主要染色体:
````
$genomepy install hg38 ucsc-r'chr[0-9xy]+$'
从http://hgdownload.soe.ucsc.edu/goldenpath/hg38/bigzips/hg38.fa.gz下载…
完成…
名称:hg38
本地名称:hg38
FastA:/数据/基因组/HG38/HG38.fa
$grep">;"/数据/基因组/HG38/HG38.fa
>>chr1
>;chr10
>;chr11
>>;chr12
>;chr12
>;chr13
>;ch chr14
>;chr15
>;chr16
>>;chr17
>>;chr18
>>;ch chr19
>>>;ch chr2
>;chr2
;chr18
>;chchr18
>>chr18>>;chr20
>;chr21
>;chr22
>;chr3
>;chr4
>;chr5
>;chr6
>;chr7
>;chr8
>;chr9
>;chrx
>;chry
````
使用"-m hard"进行硬屏蔽。
染色体大小保存在名为"<;genome廑name>;.fa.sizes"的文件中。
对于来自ucsc和ensembl的基因组,您可以选择使用"-annotation"选项下载基因注释文件。
这些将以bed和gtf格式保存。
```
$genomepy install hg38 ucsc--annotation
```
最后,本着可重复性的精神,所有选择的选项都存储在"readme.txt"中。
包括原始名称和下载位置。
/>minimap2
大小*
```
启用插件如下:
````
$genomepy plugin启用bwa hisat2
启用的插件:bwa,gaps,hisat2,大小
````
hisat2,大小
```
```
$基因组搜索非洲爪蟾
```
$genomepy search非洲爪蟾
ncbi非洲爪蟾9.1热带爪蟾;doe联合基因组研究所
ncbi viralproj30173非洲爪蟾内源性逆转录病毒xen1;
ncbi非洲爪蟾v2非洲爪蟾laevis;interna国家爪蟾测序协会c
ucsc-xentro7 x.tropicalis 2012年9月(jgi 7.0/xentro7)ucsc基因组
ucsc-xentro3 x.tropicalis 2009年11月(jgi 4.2/xentro3)ucsc基因组
ucsc-xentro2 x.tropicalis 2005年8月(jgi 4.1/xentro2)ucsc基因组
ucsc-xentro1 x.tropicalis 2004年10月(jgi 3.0/xentro1)ucsc基因组
```
请注意,搜索并非完美无缺,因此,如果
没有任何结果,请尝试一些变体。
搜索不区分大小写。
t available genomes
您可以使用"-p"选项来限制基因组列表,只搜索特定的提供者。
```
$GenomePy基因组-p ucsc
ucsc hg38人类2013年12月(grch38/hg38)ucsc基因组
ucsc hg19人类2009年2月(grch37/hg19)ucsc基因组
ucsc hg18人类2006年3月(ncbi36/hg18)ucsc基因组
…
ucsc danrer4斑马鱼2006年3月(zv6/danrer4)ucsc基因组
ucsc danrer3斑马鱼2005年5月(zv5/danrer3)在ucsc的基因组管理配置配置文件:
```
$genomepy config show
```
$genomepy config generate
创建了配置文件/home/simon/.config/genomepy/genomepy.yaml
````
请注意,第一次运行"genomepy search"或"list"命令需要很长时间,因为必须下载基因组列表。
列表在本地缓存,这将节省以后的时间。缓存的文件存储在
`~/.cache/genomepy`中,7天后过期。您还可以删除此目录以清除
缓存。
python
`python
>;>import genomepy
>;>genomepy中的行。search("grch38"):
…打印("\t.join(row))
…
ucsc hg38人类2013年12月(grch38/hg38)ucsc基因组
ncbi grch38.p10智人;基因组参考联合体
ncbi grch38智人;基因组参考联合体
ncbi grch38.p2智人ns;基因组参考联盟
ncbi grch38.p3智人;基因组参考联盟
ncbi grch38.p4智人;基因组参考联盟
ncbi grch38.p5智人;基因组参考联盟
ncbi grch38.p6智人;基因组参考联盟
ncbi grch38.p7智人智人;基因组参考联盟
ncbi grch38.p8智人;基因组参考联盟
ncbi grch38.p9智人;基因组参考联盟
ensembl grch38.p10人类ne…
名称:hg38
fasta:/data/genomes/hg38/hg38.fa
>;>g=genomepy.genome("hg38",genome-dir="/data/genomes")
>;>g["chr6"][166502000:166503000]
tgtatggtcactaggggggcagagagagagagagagagagagagagagagagagagagagagaggggggggcggggggggggggggggctagggagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagtctggagatgggggggggcccagcagatggagagagagagagagataagataagataagataagatacttcttggagccttggagataagataagataagataagataagataagataagataagataagataagataagataagataagatattctagttgaacacacacacacattccttccttcaagttgcaattaaagctattagttagctaaggatcacgtagccagagaggaccagagagacaggaccagagaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcagccagccaggcagccagccagcacagactcacaggcaggcaggcaggcaggcaggtaggcagagaggcagagagagccagagagccagagagagagccagagagagagccagagagagagagccagagagagagagagagagagagaccccaattaggagggaaggaagctccaggcagctagccggggttctagccgacccactttgaaatggccttggctgcttgggggaccagctgcggggaggtgcttgggatgatctggataaaagtttttttttgctctggcatccttagagagagctgaagagagagagagagaggatttggataaggatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgat/>
"genomepy.genome()"方法返回一个genome对象。它具有"pyfaidx.fasta"对象的所有
功能,
有关如何使用它的更多示例,请参见[文档](https://github.com/mdshw5/pyfaidx)。
问题
特定的基因组序列可能存在问题。
遗憾的是,并非所有的东西(命名、结构、文件名)在提供者端总是一致的。
如果您在某些下载中遇到问题,请告诉我。
研究,请引用它:[10.21105/joss.00320](http://dx.doi.org/10.21105/joss.00320)。
这是获得支持的首选方式。或者,您可以[给我发邮件](mailto:simon.vanheeringen@gmail.com)。
向我发送请求或进入[触摸](mailto:simon.vanheeringen@gmail.com)。
\license
此模块根据[麻省理工学院许可证](https://opensource.org/licenses/mit)的条款获得许可。