蟒蛇基因组

genomep的Python项目详细描述


#基因拷贝

[![Bioconda徽章](https://img.shields.io/badge/install%20with-bioconda-brightgreen.svg?style=flat)(http://bioconda.github.io)
[![PYPI版本](https://badge.fury.io/py/genomepy.svg)(https://badge.fury.io/py/genomepy)
[![构建状态](https://travis-ci.org/simonvh/genomepy.svg?branch=master)(https://travis ci.org/simonvh/genomepy)
[![代码运行状况](https://landscape.io/github/simonvh/genomepy/master/landscape.svg?style=flat)(https://landscape.io/github/simonvh/genomepy/master)

[![状态](http://joss.theoj.org/papers/df434a15edd00c8c2f407668575d1cd/status.svg)(http://joss.theoj.org/papers/df434a15edd00c8c2f40766575d1cd)
[![doi](https://zenodo.org/badge/doi/10.5281/zenodo.831969.svg)](https://doi.org/10.5281/zenodo.831969)


在python和其他地方轻松安装和使用基因组!

我们的目标是用一种简单明了的方式下载和使用基因组序列。
目前,genomepy支持ucsc、ensembl和ncbi。< BR>[asciicast](https://asciinema.org/a/ezttbuf5ly0anjfvbbieiybjs.png)](https://asciinema.org/a/ezttbuf5ly0anjfvbbieiybjs)


\
您可以通过[bioconda]安装它(https://bioconda.github.io/):

`````
$conda install genomepy
````

注解下载功能。
您必须安装以下
实用程序并确保它们在您的路径中:

*`genepredtobed`
*`genepredtogtf`
*`bedtogenepred`
*`gtftogenepred`
*`gff3togenepred`

您可以在[此处]找到二进制文件(http://hgdownload.cse.ucsc.edu/admin/exe/)。

插件和索引



对于某些基因组,genomepy可以下载黑名单文件(由kundaje实验室生成)。这只会在从加州大学安装这些基因组时起作用。启用此插件以使用它。

```
$genomepy plugin enable blacklist
````

您还可以为一些广泛使用的对齐器创建索引。目前,genomepy支持:

*[bowtie2](http://bowtie bio.sourceforge.net/bowtie2/index.shtml)
*[bwa](http://bio-bwa.sourceforge.net/)
*[gmap](http://research pub.gene.com/gmap/)
*[hisat2](https://ccb.jhu.edu/software/hisat2/index.shtml)
*[minimap2](https://github.co)m/lh3/minimap2)


注1:这些程序不是由genomepy安装的,需要单独安装才能使索引工作。

使用"genomepy plugin"命令创建(见下文)



若要更改配置,请生成个人配置文件:

```
$genomepy config generate
created config file/home/simon/.config/genomepy/genomepy.yaml
```

若要将默认基因组目录设置为`/data/genomes',例如,编辑` ~/.config/genomepy/genomepy.yaml`并更改以下行:

```
genome目录:~/.local/share/genomes/
````

ge

/install install genome
插件管理插件
提供程序列出可用的提供程序
搜索基因组
`````

最简单的形式是:

```
$genomepy install hg38 ucsc
下载…
完成…
名称:hg38
fasta:/data/genomes/hg38/hg38.fa
````


要选择不同的目录,请使用"-g"选项。

```
$genomepy install saccer3 ucsc-g~/genomes/
从http://hgdownload.soe.ucsc.edu/goldenpath/saccer3/bigzips/chromfa.tar.gz下载…
完成…
名称:saccer3
本地名称:saccer3
fasta:/home/simon/genomes/saccer3/saccer3.fa
``


您可以使用正则表达式筛选匹配序列
(或使用"--no-match"选项筛选不匹配的序列)。例如,
以下命令下载hg38并仅保存主要染色体:

````
$genomepy install hg38 ucsc-r'chr[0-9xy]+$'
从http://hgdownload.soe.ucsc.edu/goldenpath/hg38/bigzips/hg38.fa.gz下载…
完成…
名称:hg38
本地名称:hg38
FastA:/数据/基因组/HG38/HG38.fa
$grep">;"/数据/基因组/HG38/HG38.fa
>>chr1
>;chr10
>;chr11
>>;chr12
>;chr12
>;chr13
>;ch chr14
>;chr15
>;chr16
>>;chr17
>>;chr18
>>;ch chr19
>>>;ch chr2
>;chr2
;chr18
>;chchr18
>>chr18>;chr20
>;chr21
>;chr22
>;chr3
>;chr4
>;chr5
>;chr6
>;chr7
>;chr8
>;chr9
>;chrx
>;chry
````

使用"-m hard"进行硬屏蔽。

染色体大小保存在名为"<;genome廑name>;.fa.sizes"的文件中。

对于来自ucsc和ensembl的基因组,您可以选择使用"-annotation"选项下载基因注释文件。
这些将以bed和gtf格式保存。

```
$genomepy install hg38 ucsc--annotation
```

最后,本着可重复性的精神,所有选择的选项都存储在"readme.txt"中。
包括原始名称和下载位置。

/>minimap2
大小*
```

启用插件如下:

````
$genomepy plugin启用bwa hisat2
启用的插件:bwa,gaps,hisat2,大小
````

hisat2,大小
```

```
$基因组搜索非洲爪蟾

```
$genomepy search非洲爪蟾
ncbi非洲爪蟾9.1热带爪蟾;doe联合基因组研究所
ncbi viralproj30173非洲爪蟾内源性逆转录病毒xen1;
ncbi非洲爪蟾v2非洲爪蟾laevis;interna国家爪蟾测序协会c
ucsc-xentro7 x.tropicalis 2012年9月(jgi 7.0/xentro7)ucsc基因组
ucsc-xentro3 x.tropicalis 2009年11月(jgi 4.2/xentro3)ucsc基因组
ucsc-xentro2 x.tropicalis 2005年8月(jgi 4.1/xentro2)ucsc基因组
ucsc-xentro1 x.tropicalis 2004年10月(jgi 3.0/xentro1)ucsc基因组
```


请注意,搜索并非完美无缺,因此,如果
没有任何结果,请尝试一些变体。
搜索不区分大小写。

t available genomes

您可以使用"-p"选项来限制基因组列表,只搜索特定的提供者。

```
$GenomePy基因组-p ucsc
ucsc hg38人类2013年12月(grch38/hg38)ucsc基因组
ucsc hg19人类2009年2月(grch37/hg19)ucsc基因组
ucsc hg18人类2006年3月(ncbi36/hg18)ucsc基因组

ucsc danrer4斑马鱼2006年3月(zv6/danrer4)ucsc基因组
ucsc danrer3斑马鱼2005年5月(zv5/danrer3)在ucsc的基因组管理配置配置文件:

```
$genomepy config show
```
$genomepy config generate
创建了配置文件/home/simon/.config/genomepy/genomepy.yaml
````



请注意,第一次运行"genomepy search"或"list"命令需要很长时间,因为必须下载基因组列表。
列表在本地缓存,这将节省以后的时间。缓存的文件存储在
`~/.cache/genomepy`中,7天后过期。您还可以删除此目录以清除
缓存。


python
`python
>;>import genomepy
>;>genomepy中的行。search("grch38"):
…打印("\t.join(row))

ucsc hg38人类2013年12月(grch38/hg38)ucsc基因组
ncbi grch38.p10智人;基因组参考联合体
ncbi grch38智人;基因组参考联合体
ncbi grch38.p2智人ns;基因组参考联盟
ncbi grch38.p3智人;基因组参考联盟
ncbi grch38.p4智人;基因组参考联盟
ncbi grch38.p5智人;基因组参考联盟
ncbi grch38.p6智人;基因组参考联盟
ncbi grch38.p7智人智人;基因组参考联盟
ncbi grch38.p8智人;基因组参考联盟
ncbi grch38.p9智人;基因组参考联盟
ensembl grch38.p10人类ne…
名称:hg38
fasta:/data/genomes/hg38/hg38.fa
>;>g=genomepy.genome("hg38",genome-dir="/data/genomes")
>;>g["chr6"][166502000:166503000]
tgtatggtcactaggggggcagagagagagagagagagagagagagagagagagagagagagaggggggggcggggggggggggggggctagggagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagtctggagatgggggggggcccagcagatggagagagagagagagataagataagataagataagatacttcttggagccttggagataagataagataagataagataagataagataagataagataagataagataagataagataagatattctagttgaacacacacacacattccttccttcaagttgcaattaaagctattagttagctaaggatcacgtagccagagaggaccagagagacaggaccagagaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcaggcagccagccaggcagccagccagcacagactcacaggcaggcaggcaggcaggcaggtaggcagagaggcagagagagccagagagccagagagagagccagagagagagccagagagagagagccagagagagagagagagagagagaccccaattaggagggaaggaagctccaggcagctagccggggttctagccgacccactttgaaatggccttggctgcttgggggaccagctgcggggaggtgcttgggatgatctggataaaagtttttttttgctctggcatccttagagagagctgaagagagagagagagaggatttggataaggatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgatgat/>
"genomepy.genome()"方法返回一个genome对象。它具有"pyfaidx.fasta"对象的所有
功能,
有关如何使用它的更多示例,请参见[文档](https://github.com/mdshw5/pyfaidx)。


问题

特定的基因组序列可能存在问题。
遗憾的是,并非所有的东西(命名、结构、文件名)在提供者端总是一致的。
如果您在某些下载中遇到问题,请告诉我。


研究,请引用它:[10.21105/joss.00320](http://dx.doi.org/10.21105/joss.00320)。



这是获得支持的首选方式。或者,您可以[给我发邮件](mailto:simon.vanheeringen@gmail.com)。


向我发送请求或进入[触摸](mailto:simon.vanheeringen@gmail.com)。


\license

此模块根据[麻省理工学院许可证](https://opensource.org/licenses/mit)的条款获得许可。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
禁用Eclipse Java调试器的热代码替换   每次运行jUnit测试时,JavaIntelliJIDEA都会重建整个模块   java如何从InputStream对象读取特定数据?   java我想在每次从recyclerview中单击一个项目时将对象添加到领域数据库   安卓在C和系统中退出(0)的实践。在Java中退出(0)   azure如何将文本文件附加到java中现有的zip文件?   java Spring安全性工作在tomcat服务器(Eclipse)上,但当我将war文件放入tomcat webapp时,Spring安全性就不工作了   java为什么在提供lambda参数时必须捕获异常?   java公共类扩展了JPanel   java如何在SpringAspectJ中使用“declare”指令?   java是编写大量文件的最佳方式   java创建具有多个类依赖项的jar文件   面向对象方法在Java中模拟类分类   java未找到类型为com的返回值的转换器。春天mvc。模型用户]   vb。net在java中解压缩visual basic中压缩的字符串   java为什么我可以更改类中的private属性?   更新Android Studio后java Gradle不工作   图像Java帮助。不规则间隔的幻灯片放映