Ensembl格式GTF文件到Pandas数据帧的快速解析器

mbf_gtf的Python项目详细描述


mbf_gtf

可能是附近的fastes ensembl gtf解析器 (在我的系统上大约10秒内读取1GB人类GTF)。

用法:mbf_gtf.parse_ensembl_gtf(“filename.gtf”,[])->;数据帧的指令

该文件可以用gzip压缩,然后必须以“.gz”结尾。

第二个参数可能是要检索的“功能”列表-获取 仅仅一个子集就可以极大地提高性能。

请注意,这是非常具体的集成,它不涉及任何其他GTF 格式化,并丢弃在子元素上重复的属性- 即外显子只有基因id,没有基因名,基因版本,基因……

得到的坐标是pythonic,即从0开始(即从 gtf中的值)。

这是生物信息图书馆的mbf家族的一部分。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java错误:无法找到或加载主类   Base85又名ASCI85 java项目   在Java oracle过程中创建Clob对象时引发AbstractMethodError   访问布尔Java时出现NullPointerException   在Java中压缩和解压缩字符串的调试程序   java了解JavaMail下未读消息的不同方法   java Vaadin 10网格样式基于内容的单个行   java使用Sparql查询识别实体的类别/分类   java如何在组件的设计阶段防止内存泄漏?   java使用共享首选项在应用程序上保存更改的语言   Spring数据jpa中具有复合PK的表的java本机查询   java复选框节点树