基因组数据的区间树便利类
intervaltree_bio的Python项目详细描述
用于将ucsc基因组注释记录加载到一组interval tree数据结构中的便利类。
安装
安装大多数python包的最简单方法是通过easy_install或pip:
$ pip install intervaltree-bio
包需要intervaltree包(通常在使用pip或easy_install时自动安装)。
用法
间隔树数据结构的主要用途之一是在生物信息学中,其中 间隔与基因或基因组的其他特征相对应。
由于基因组通常由一组染色体组成,因此每个染色体都有一个单独的间隔树。 必须保留染色体。因此,您通常使用 类似于defaultdict(IntervalTree)来索引基因组特征的数据。 模块intervaltree_bio提供了一个GenomeIntervalTree数据结构,这是一个类似的便利 数据结构。除了处理基因组区间的特定方法外 提供从UCSC读取床位文件和refgene表的工具。
核心示例是从ucsc网站加载knownGene表的转录区域:
>> from intervaltree_bio import GenomeIntervalTree >> knownGene = GenomeIntervalTree.from_table() >> len(knownGene)
然后可以使用数据结构在给定的时间间隔内搜索已知基因:
>> result = knownGene[b'chr1'].search(100000, 138529)
除了knownGene之外,还可以加载其他ucsc表,或者指定要从中读取表的自定义url或文件。 有关详细信息,请参阅GenomeIntervalTree.from_table方法的docstring。
版权
- Copyright (c) Konstantin Tretyakov
- MIT license.
- Report issues via Github.