Ensembl格式GTF文件到Pandas数据帧的快速解析器
mbf_gtf的Python项目详细描述
mbf_gtf
可能是附近的fastes ensembl gtf解析器 (在我的系统上大约10秒内读取1GB人类GTF)。
用法:mbf_gtf.parse_ensembl_gtf(“filename.gtf”,[])->;数据帧的指令
该文件可以用gzip压缩,然后必须以“.gz”结尾。
第二个参数可能是要检索的“功能”列表-获取 仅仅一个子集就可以极大地提高性能。
请注意,这是非常具体的集成,它不涉及任何其他GTF 格式化,并丢弃在子元素上重复的属性- 即外显子只有基因id,没有基因名,基因版本,基因……
得到的坐标是pythonic,即从0开始(即从 gtf中的值)。
这是生物信息图书馆的mbf家族的一部分。