容易获得人类参考基因组序列
seqseek的Python项目详细描述
SeQueSo[![构建状态](https://travis-ci.org/23andme/seqseek.svg?branch=master)](https://travis ci.org/23andme/seqseek)
=======
轻松访问人类参考基因组序列。
此包调用ascii字符的fasta文件上的open(file).seek(range)以提供
序列字符串范围。不管好坏,它都和你的磁盘一样快。
>
>
>
安装
-
\
$dow下载构建构建,下载构建,下载构建,下载构建。u 38
```
这些命令检查需要下载染色体,获取任何丢失的
文件,删除换行符,并运行特定于构建的完整性测试。
序列文件从我们的Amazon S3 bucket下载,其中包含从NCBI的核苷酸数据库获取的FastA格式的序列文件
(例如[NC_.11](https://www.ncbi.nlm.nih.gov/nuccore/NC_.11))。
$test_build_38
```
这些命令运行特定于生成的测试,以确保染色体文件已正确下载。这些测试从每个染色体文件读取序列,并将提取的序列与从https://genome.ucsc.edu.
ge.
``python
染色体(17).sequence(141224141244)=>;tttcctagagttccagtgga
```
上面的命令将返回在17号染色体上的interbase
141224-141244位置之间发现的20个核苷酸的字符串。seqseek当前默认构建
37以匹配23andme网站和原始数据下载使用的坐标。
--
`` python
来自SeqSeek导入染色体,build37,build38
染色体(17,assembly=build38).sequence(141224141244)\=>;acctgggacatggg
```
您可以使用'build37'和'build38`
常量和` assembly`关键字参数。
--
``python
染色体('nc_.11'')。序列(141224141244)=>;acctgggggacatgg
```
您也可以通过登录名直接加载染色体,而不是同时指定
通用名和基因组集合。
这主要有助于提取线粒体末端3'和
5'区域附近设计寡核苷酸探针的
侧翼序列,但也可能有其他应用。
d这样的序列引发了toomanyloops异常
当按名称加载线粒体时,可以通过传递"loop=true"来请求此行为。这两个调用返回相同的序列:
`` python
染色体('mt',loop=true).序列(-5,5)`负起始坐标
染色体('mt',loop=true).序列(16564,16574)`越界结束坐标线粒体的NCE序列(RCRs)构建于37和38。如果您需要访问过时的rsrs序列以实现
向后兼容,则可以通过登录(`nc_001807.4`)直接加载它。
rcrs线粒体序列在3106-3107位置含有一个"n"碱基,以保留传统的核苷酸编号。这对于使用传统的
坐标是有用的,但是当使用
预期与观察到的hu对齐的序列时是不实际的。人类线粒体序列。seqseek
删除此"n",除非通过传递"rcrs_n_remove=false"明确请求此"n"。
``python
chromose('mt').sequence(31063107)"
"chromose('mt').sequence(31063108)"'t"
```
eqseek使用以下常见的染色体名称:
`1`、`2`、…、`22`、`x`、`y`和`mt`。
*nc-000001.10
*nc-000001.11
*nc-000002.11
*nc-000002.12
*nc-000003.11
*nc-000002.11
*nc-000002.12
*nc-000003.11
*nc-000003.12
*nc-000004.11
*nc-000004.12
*nc-000005.9
*nc-000005.10
*nc-000005.10
*nc-0.5.10
*nc-5.10
*数控000006.11
*数控000006.12
*数控_7.13
*NC-000007.14
*NC-000008.10
*NC-000008.11
*NC-000009.11
*NC-000009.12
*NC-000009.11
*NC-000009.12
*NC-0000010.10
*NC-0000010.11
*NC-0000011.9
*NC-0000011.10
*NC-0000011.11
*NC-NC-0000011.11
*NC-NC-0000012.12
*NC-NC-NC-000008.11
*NC-NC-NC-NC-NC-000008.11
*NC 13.10
*nc_.11
*nc_.8
*nc_.9
*nC_.9
*NC_.10
*NC_.9
*NC_.10
*NC_.10
*NC_.11
*NC_.9
*NC_.10
*NC_.9
*NC_.10
*NC_.9
*NC_.10
*NC_.11
*NC_.10
*NC_.10
*NC_.11
*NC_.11
*nc_.9
*nc_.10
*nc_.11
*nc_ 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 167249.1
*新台币167250.1
*新台币167251.1
=======
轻松访问人类参考基因组序列。
此包调用ascii字符的fasta文件上的open(file).seek(range)以提供
序列字符串范围。不管好坏,它都和你的磁盘一样快。
>
>
>
安装
-
\
$dow下载构建构建,下载构建,下载构建,下载构建。u 38
```
这些命令检查需要下载染色体,获取任何丢失的
文件,删除换行符,并运行特定于构建的完整性测试。
序列文件从我们的Amazon S3 bucket下载,其中包含从NCBI的核苷酸数据库获取的FastA格式的序列文件
(例如[NC_.11](https://www.ncbi.nlm.nih.gov/nuccore/NC_.11))。
$test_build_38
```
这些命令运行特定于生成的测试,以确保染色体文件已正确下载。这些测试从每个染色体文件读取序列,并将提取的序列与从https://genome.ucsc.edu.
ge.
``python
染色体(17).sequence(141224141244)=>;tttcctagagttccagtgga
```
上面的命令将返回在17号染色体上的interbase
141224-141244位置之间发现的20个核苷酸的字符串。seqseek当前默认构建
37以匹配23andme网站和原始数据下载使用的坐标。
--
`` python
来自SeqSeek导入染色体,build37,build38
染色体(17,assembly=build38).sequence(141224141244)\=>;acctgggacatggg
```
您可以使用'build37'和'build38`
常量和` assembly`关键字参数。
--
``python
染色体('nc_.11'')。序列(141224141244)=>;acctgggggacatgg
```
您也可以通过登录名直接加载染色体,而不是同时指定
通用名和基因组集合。
这主要有助于提取线粒体末端3'和
5'区域附近设计寡核苷酸探针的
侧翼序列,但也可能有其他应用。
d这样的序列引发了toomanyloops异常
当按名称加载线粒体时,可以通过传递"loop=true"来请求此行为。这两个调用返回相同的序列:
`` python
染色体('mt',loop=true).序列(-5,5)`负起始坐标
染色体('mt',loop=true).序列(16564,16574)`越界结束坐标线粒体的NCE序列(RCRs)构建于37和38。如果您需要访问过时的rsrs序列以实现
向后兼容,则可以通过登录(`nc_001807.4`)直接加载它。
rcrs线粒体序列在3106-3107位置含有一个"n"碱基,以保留传统的核苷酸编号。这对于使用传统的
坐标是有用的,但是当使用
预期与观察到的hu对齐的序列时是不实际的。人类线粒体序列。seqseek
删除此"n",除非通过传递"rcrs_n_remove=false"明确请求此"n"。
``python
chromose('mt').sequence(31063107)"
"chromose('mt').sequence(31063108)"'t"
```
eqseek使用以下常见的染色体名称:
`1`、`2`、…、`22`、`x`、`y`和`mt`。
*nc-000001.10
*nc-000001.11
*nc-000002.11
*nc-000002.12
*nc-000003.11
*nc-000002.11
*nc-000002.12
*nc-000003.11
*nc-000003.12
*nc-000004.11
*nc-000004.12
*nc-000005.9
*nc-000005.10
*nc-000005.10
*nc-0.5.10
*nc-5.10
*数控000006.11
*数控000006.12
*数控_7.13
*NC-000007.14
*NC-000008.10
*NC-000008.11
*NC-000009.11
*NC-000009.12
*NC-000009.11
*NC-000009.12
*NC-0000010.10
*NC-0000010.11
*NC-0000011.9
*NC-0000011.10
*NC-0000011.11
*NC-NC-0000011.11
*NC-NC-0000012.12
*NC-NC-NC-000008.11
*NC-NC-NC-NC-NC-000008.11
*NC 13.10
*nc_.11
*nc_.8
*nc_.9
*nC_.9
*NC_.10
*NC_.9
*NC_.10
*NC_.10
*NC_.11
*NC_.9
*NC_.10
*NC_.9
*NC_.10
*NC_.9
*NC_.10
*NC_.11
*NC_.10
*NC_.10
*NC_.11
*NC_.11
*nc_.9
*nc_.10
*nc_.11
*nc_ 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 167249.1
*新台币167250.1
*新台币167251.1