从读取密度估计基因组特征的丰度

rnacounter的Python项目详细描述


欢迎!

rnaccounter估算基因及其不同转录本的丰度 从读取对齐。外显子和内含子也可以量化。

它在注释的基因组特征中提供了快速的读取计数,并且简单, 从rna序列数据中量化亚型的有效方法。 使用的方法在[<;ref>;]中有说明。 对于来自鼠标的1GB BAM文件,典型的运行时间预计不到2分钟 rna测序,随bam大小线性增加。

对于所有这些任务,它只需要一个来自基因组上读取映射的BAM文件, 以及一个描述外显子结构的gtf/gff文件 例如由Ensembl或Genrep提供的。

它不是用来作为一个库,而是通过它的命令行工具“rnaccounter”

代码项目托管在github(https://github.com/delafont/rnacounter)中,获得gpl-2许可。

用法:

请参阅“rnaccounter–help”和教程 http://bbcf.epfl.ch/bbcflib/tutorial_rnacounter.html, 也可以在doc/文件夹中找到。

最小示例:

rnacounter test.bam test.gtf

安装:

首先确保安装了numpy,然后安装rnaccounter。 使用简易安装:

sudo easy_install numpy
sudo easy_install rnacounter

或者更好的是,使用pip:

sudo pip install numpy
sudo pip install rnacounter

它作为标准Python库安装,但包含可执行文件 把它放在你的钱路的某个地方将添加依赖项 自动

检查它是否与测试一起工作命令:

rnacounter test

它应该显示类似的内容:

ID  Count   RPKM    Chrom   Start   End     Strand  GeneName        Type    Sense   Synonym
ENSMUSG00000038271  0.0     0.0     chr6    125095258       125111800       1       Iffo1   Gene    .       .
ENSMUSG00000057666  3956.87179487   434612.223694   chr6    125111870       125116485       -1      Gapdh   Gene    .       .
ENSMUSG00000038252  0.0     0.0     chr6    125118026       125141613       -1      Ncapd2  Gene    .       .

要使用pip卸载:

sudo pip uninstall rnacounter

代码与Python2.7和Python3完全兼容。

从源构建:

这允许在重建之前修改Cython源代码(rnaccounter.pyx)

https://github.com/delafont/rnacounter克隆或下载存储库。

您需要安装cython(pip install cython)。

从rnaccounter.pyx所在位置(rnaccounter/rnaccounter/)运行:

sudo python setup.py build_ext

它将重新编译以创建rnaccounter.c并构建它。 然后将可执行文件(rnaccounter/bin/rnaccounter)添加到$PATH, 或者从包根目录(rnaccounter/)安装:

sudo python setup.py install

依赖关系:

测试使用以下库版本运行,但可能使用早期版本。

  • setuptools 7.0+(安装)
  • pysam 0.7.5+(samtools包装器)
  • numpy 1.6.2+(高效数字数组)
  • scipy 0.9.0+(nnls算法)
  • docopt 0.6.1+(命令行参数解析)
  • cython 0.20+(将python代码转换为c)

测试:

测试testfiles/文件夹中的文件: -gapdhko.bam:在mm9上对齐,仅覆盖gapdh。 -mm9_3genes_renamed.gtf:用gapdh提取的ensembl-gtf,其前后的基因。 -mm9_gapdh_renamed.gtf:仅用gapdh提取ensembl gtf。

示例:

rnacounter testfiles/gapdhKO.bam testfiles/mm9_3genes_renamed.gtf

(相当于test命令的作用):

rnacounter test

BAM包含4041个完全对齐Gapdh(ENSMUSG00000057666)外显子的读操作, 主要在ENSMUSE00000487077上,也有ENSMUSE00000751942和ENSMUSE00000886744。 其他外显子上什么都没有,这使得它成为条件恶劣的输入数据的一个很好的例子

最小二乘法返回以下文本的计数: 恩斯穆斯特00000117757,恩斯穆斯特00000118875,恩斯穆斯特00000147954 在ENSMUST00000073605,ENSMUST00000144205,ENSMUST00000144588上没有

故障排除:

以下未列出的任何错误报告、使用问题或功能请求均可发送至 julien.delafontaine@epfl.chwebmaster.bbcf@epfl.ch

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使图像以正确的速度在屏幕上移动,以适应所有显示   内存Java分配:从预先存在/分配的池中分配对象   java这种书写方式?   Java正则表达式查找字符串的开头   java是否可以创建一个类来处理安卓中的所有日志代码(例如log.d(TAG,message))   如何使用Selenium和java单击WebTable任意页面上的WebElement   java解析字符串中的文件名   java刷新JTree内容   java如何覆盖RequestMappingHandler   爪哇数石头、布、剪刀赢了多少   struts中的java无效令牌   swing JTree,优化算法,Java   java Tomcat和SSL:密钥库格式无效