python格式的人类参考mtdna序列。
oldowan.mtdna的Python项目详细描述
mtdna包含人类修订的剑桥参考序列(rcrs)。 python友好格式。
安装说明
这个包是纯python的,没有标准之外的依赖项 图书馆。最简单的安装方法是使用 setuptools包。通常是这样的:
$ easy_install oldowan.mtdna
或者在类unix系统上,假设您正在安装到主python site-packages目录作为非特权用户,此:
$ sudo easy_install oldowan.mtdna
您还可以使用标准的python distutils设置方法。下载 从文件列表到本页底部的当前源存档, 把它拆开,然后安装。在MacOSX和许多其他类似Unix的系统上, 下载了存档并更改为包含此存档的目录 你的外壳,可能会像这样:
$ tar xvzf oldowan.mtdna* $ cd oldowan.mtdna* $ python setup.py install
快速启动
这个包以几种python友好格式提供了人工rcr。
>>> from oldowan.mtdna import rCRS >>> from oldowan.mtdna import rCRSlist >>> from oldowan.mtdna import rCRSplus >>> from oldowan.mtdna import rCRSplus_positions
rCRS是作为字符串的原始序列:
>>> len(rCRS) 16569 >>> rCRS[0:10] 'GATCACAGGT'
rCRSlist是被分解成列表的rcrs序列。注意这个列表是 在0位置填充了一个无意义字符,以便索引与 标准生物序列位置编号(即从1开始而不是 0):
>>> rCRSlist[0] '#' >>> rCRSlist[1] 'G'
rCRSplus是rcrs序列的部分重复。因为mtdna分子是圆形的,所以不能用线性字符串来正确地表示。如果实验获得的mtdna序列通常不跨越这个断裂,这可能不是一个大问题,但碰巧的是,线粒体基因组中最常见的测序区域(控制区域)跨越了线性序列的圆形序列通常被断裂的点。因此,rCRSplus在分子的任一端重复1000bp,以便于在断裂处进行序列比对。rCRSplus_positions列表将rCRSplus的索引重新映射到RCR的常规位置编号上。
>>> len(rCRSplus) 18638 >>> rCRSplus[1] 'A' >>> rCRSlist[1] 'G' >>> rCRSlist[rCRSplus_positions[1]] 'A'
最后,oldowan.mtdna包提供了从rcr中提取普通mtdna区域的索引。
>>> from oldowan.mtdna import HVR1_indices >>> from oldowan.mtdna import HVR2_indices >>> from oldowan.mtdna import HVR1and2_indices >>> from oldowan.mtdna import HVR1to2_indices >>> from oldowan.mtdna import coding_indices >>> from oldowan.mtdna import all_indices>>> hvr1 = ''.join(list(rCRSlist[x] for x in HVR1_indices))
发布历史记录
- 1.0.0(2009年3月25日)
- 模块的初始版本。
- 1.0.1(2009年3月25日)
- 次要版本报告修复程序
- 1.0.3(2015年8月4日)
- 这次实际修复了版本号问题