使用索引文件加速基因组学的工具包。

indextools的Python项目详细描述


索引工具

常见索引格式,如BAM索引(BAI)和Tabix(TBI),包含沿基因组的NGS读取的密度的粗粒度信息,其可用于基于读取深度的度量的快速近似。indextools是一个基于索引文件的非常快速的ngs分析工具。

安装

pip install indextools

命令

分区

partition命令处理BAM索引文件,并生成一个BED格式的文件,该文件包含的间隔在“volume”中大致相等。此分区BAM文件可用于更有效地并行化辅助分析工具(而不是通过染色体或统一窗口并行化)。

# Generate a BED with 10 partitions
indextools partition -I tests/data/small.bam.bai \
  -z tests/data/contig_sizes.txt \
  -n 10\
  -o small.partitions.bed

限制

indextools正在积极开发中。请参阅issue trackerroad map以查看即将推出的功能。

一些最常见的请求功能尚未提供:

  • 支持cram文件和cram索引(.crai)。
  • 通过uri支持非本地文件。

开发

我们欢迎社会各界的贡献。详情请参阅developer README

技术细节

体积

在生物信息学背景下,“大小”这个词被重载了。它用来指基因组区域的线性大小(bp数)、磁盘大小(字节数)或特征数(例如读取计数)。索引工具估计在给定基因组区域中存储特征的未压缩数据所需的字节数。为了避免与“大小”的任何含义混淆或混淆,我们选择使用“体积”一词来指给定基因组区域的近似大小(以字节为单位)。能够解释一个给定体积的含义几乎从来都不重要或有用,也不能有意义地将体积转换为其他单位;体积主要用作一种相对的度量。因此,当提到任何特定体积时,我们使用组成单位“v”。

许可证

indextools版权所有(c)2019 dnanexus,inc.;并在MIT License下提供。

indextools是not官方支持的dnanexus产品。所有错误报告和功能请求都应该通过issue tracker处理。请不要联系dnanexus支持部门了解此软件。

致谢

indextools最初的灵感来自@brentp的indexcov

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
带EJB的java JPA:无持久性提供程序   检查数字最后一位的java If语句   java解除对象在字符串池中驻留时的字符串类型分配   java如何在Android中使用堆栈?   java删除字符串中数字之后的任何内容   JAVA 7中消除StringBuilder对象(在循环中运行)最后一个逗号的json方法?   字典将值放入Java*中的映射,而不更新现有值(如果存在)   Java中加法和乘法的基本词法分析器   ExoPlayer2中的java检查视频对象   java向HashMap添加对象   java如何配置JavaMelody以监视C3p0数据源中的Jdbc连接   java“Xlint:unchecked”在Intellij中配置后不工作   悬停时将java滑块元素移出   c如何在SWIG生成的Java绑定中转换为SWIGTYPE_p_void类型?   Ant的java代码未在Maven中运行   字典使用公共键创建两个映射值的映射java   java Tomcat 8元空间OutOfMemory问题