基因组数据的区间树便利类

intervaltree_bio的Python项目详细描述


用于将ucsc基因组注释记录加载到一组interval tree数据结构中的便利类。

安装

安装大多数python包的最简单方法是通过easy_installpip

$ pip install intervaltree-bio

包需要intervaltree包(通常在使用pipeasy_install时自动安装)。

用法

间隔树数据结构的主要用途之一是在生物信息学中,其中 间隔与基因或基因组的其他特征相对应。

由于基因组通常由一组染色体组成,因此每个染色体都有一个单独的间隔树。 必须保留染色体。因此,您通常使用 类似于defaultdict(IntervalTree)来索引基因组特征的数据。 模块intervaltree_bio提供了一个GenomeIntervalTree数据结构,这是一个类似的便利 数据结构。除了处理基因组区间的特定方法外 提供从UCSC读取床位文件和refgene表的工具。

核心示例是从ucsc网站加载knownGene表的转录区域:

>> from intervaltree_bio import GenomeIntervalTree
>> knownGene = GenomeIntervalTree.from_table()
>> len(knownGene)

然后可以使用数据结构在给定的时间间隔内搜索已知基因:

>> result = knownGene[b'chr1'].search(100000, 138529)

除了knownGene之外,还可以加载其他ucsc表,或者指定要从中读取表的自定义url或文件。 有关详细信息,请参阅GenomeIntervalTree.from_table方法的docstring。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Eclipse中使用多个调用在一行上打印java   javajackson序列化问题。只有同一实体的第一个对象可以很好地序列化   Java中Deflate函数的等价充气   使用customlitview的java Android actionbar搜索   java“<T>T get()”是什么意思?(它有用吗?)   目标c使用CommonCrypto使用AES256加密,使用OpenSSL或Java解密   java在运行时更新资源文件   fileinputstream在java中访问并将数据写入现有文件   带集群的java Android Mapbox我希望每个功能都有不同的标记图像   java JDK8>JDK10:PKIX路径生成失败:SunCertPathBuilderException:找不到请求目标的有效证书路径   java使用Hk2生成具有指定构造函数参数的实例   为什么这个系统。出来Java中的println()打印到控制台?   java目录和文件名连接不起作用   使用mockito和通配符绘图的java