用于ngs对齐文件的质量控制工具

ezBAMQC的Python项目详细描述


“ezbamqc,一个检查映射的下一代测序文件质量的工具。”

Codeology Icon:generated at codeology.braintreepayments.com/mhammell-laboratory/bamqc
Description:

ezBAMQC is a tool to check the quality of either one or many mapped next-generation-sequencing datasets. It conducts comprehensive evaluations of aligned sequencing data from multiple aspects including: clipping profile, mapping quality distribution, mapped read length distribution, genomic/transcriptomic mapping distribution, inner distance distribution (for paired-end reads), ribosomal RNA contamination, transcript 5’ and 3’ end bias, transcription dropout rate, sample correlations, sample reproducibility, sample variations. It outputs a set of tables and plots and one HTML page that contains a summary of the results. Many metrics are designed for RNA-seq data specifically, but ezBAMQC can be applied to any mapped sequencing dataset such as RNA-seq, CLIP-seq, GRO-seq, ChIP-seq, DNA-seq and so on.

Links:

Github Page

Pypi Page

MHammell Lab

Authors:

Ying Jin, David Molik, and Molly Hammell

Version:

0.6.7

Contact:

Ying Jin (yjin@cshl.edu)

用于源安装的ezbamqc的安装指南

安装EZBAMQC时,有几个选项,但主要的要点是:由于EZAMQQC使用C++ STD 11,您需要一个GCC版本,可以支持这一点,这意味着4.8或4.9。除此之外,您还需要python、r和corrplot来与c代码交互。

Intallation:

Source Code

Pypi

Prerequisites:
Notes:
  • While there are multiple methods of installing the prerequistes it may help to look at (if using a yum based linux distro):*
  • Devtoolset-3 for GCC compilers
  • IUS for Python2.7
  • Software Collections for collections of software (like devtoolset 3 or python)
  • rpmfinder for searching rpms across mutliple systems

设置

  1. 确保GCC Comiler在您的路径中:
export PATH=/path/to/gcc:$PATH
  1. 确保python2.7在您的pythonpath中:
export PYTHONPATH=/path/to/python2.7/site-packages:$PYTHONPATH
  1. 安装ezbamqc有三种方法,分别来自source、setup.py和pypi,前提条件一旦设置好。

来源

  1. 下载源代码
  2. 打开tarball并转到包的目录:
tar xvfz bamqc-0.6.7.tar.gz

cd bamqc-0.6.7
  1. 运行make:
make

从setup.py

python2.7 setup.py install

来自Pypi

pip2.7 install BAMqc

用法

ezBAMQC [-h] -i alignment_files [alignment_files ...] -r [refgene]
[-f [attrID]] [--rRNA [rRNA]] -o [dir] [--stranded [stranded]]
[-q [mapq]] [-l labels [labels ...]] [-t NUMTHREADS]

可选参数:

-h, --help               show this help message and exit.
-i, --inputFile          alignment files. Could be multiple SAM/BAM files separated by space. Required.
-r, --refgene            gene annotation file in GTF format. Required
-f                       the read summation at which feature level in the GTF file. DEFAULT: gene_id.
--rRNA                   rRNA coordinates in BED format.
-o, --outputDir          output directory. Required.
--stranded               strandness of the library?
                         yes : sense stranded
                         reverse : reverse stranded
                         no : not stranded
                         DEFAULT: yes.
-q, --mapq               Minimum mapping quality (phred scaled) for an alignment to be called uniquely mapped. DEFAULT:30
-l, --label              Labels of input files. DEFAULT:smp1 smp2 ...
-t, --threads            Number of threads to use. DEFAULT:1

示例:

ezBAMQC -i test-data/exp_data/treat1.bam test-data/exp_data/treat2.bam test-data/exp_data/treat3.bam -r test-data/exp_data/hg9_refGene.gtf -q 30 --rRNA test-data/exp_data/hg19_rRNA.bed -o exp_output2

Please find the example output from folder test-data.

演示

想先试试Ezbamqc再试试吗?现在,您可以使用我们的Yabi Demo上托管的工具演示来执行此操作。

To login use username and password:
  • username: tdemo
  • password: tdemo
The BSR/MHammell lab yabi installation

登录屏幕、用户名和密码位于右上角。

The BSR/MHammell lab yabi installation

在“设计”框架中,使用“全部显示”按钮使ezbamqc工具可见。

The BSR/MHammell lab yabi installation

在ezbamqc工具页面中,从s3实例中选择适当的文件或上载自己的文件。

A note on Yabi, Yabi was created by the Centre For Comparative Genomics, https://ccg.murdoch.edu.au/ . You can check our their more extensive Yabi Demo, https://ccgapps.com.au/yabi/ or their Yabi Wiki, https://bitbucket.org/ccgmurdoch/yabi/wiki/Home for more information.

常见问题解答

问:为什么使用ezbamqc?

A:Ezbamqc高效易用。在一个命令行中,它用一组图和表来报告对数据的综合评估,这种评估多个样本的能力和高效性使它特别适用于有大量来自相同条件、基因型或治疗的样本的情况。EZBAMQC是用C++编写的,支持多线程。一个120m比对的小鼠rna序列样本可以在8分钟内用5条线完成。

问:为什么ezbamqc报告的读取总数与samtools flagstat不匹配?

答:区别在于非唯一映射读取或多重对齐读取(多重读取)。samtools flagstat将每个多个对齐计数为不同的读取,但是ezbamqc根据读取id对读取计数,即,无论是唯一映射读取还是多个读取,每个单独的读取都将计数一次。

问:什么是“低质量阅读”?

答:标记为qc的读取无法符合sam格式,或映射质量低于选项设置值的读取-q将被视为“低质量读取”。

问:选项-q的设置如何改变结果?

A:低质量的读取,即没有通过-Q截止,仅通过映射质量图计算在总读取、映射读取和可映射性中。报告的其余部分不包括低质量的阅读。

问:在阅读分布和基因量化中是否考虑了多重阅读(非唯一映射阅读)?

A:没有。只计算唯一映射的读取数。

致谢

  1. samtools贡献者
  2. 用户的宝贵反馈

复制和分发

ezbamqc是免费软件:您可以重新分发和/或修改它 根据由 自由软件基金会,或者许可证的第3版,或者 (由您选择)任何更高版本。

这个程序的发布是希望它能有用, 但是没有任何保证,甚至没有 {EM1}适销性或适合特定用途的EEM>。见 GNU MOR通用公共许可证e细节。

你应该收到GNU通用公共许可证的副本 以及Ezbamqc。如果没有,请参见this website

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为什么即使我已经给出了代码中的所有权限,该代码也没有在emulator中运行?   java Android Studio正在抛出“线程中的异常”main“javax.net.ssl.SSLException:收到致命警报:协议\版本”   java中的for循环嵌套foreach语句   java读取/src/main/resources和/webinf/classes下的文件   java无法以此格式构造JSON响应   身份验证尝试从CAS secure rest api获取响应,但从java客户端获取登录页面作为响应   如何在java中使用excel从第1列和第3列获取单元格值,并将其作为键值对放入map中   在Java程序中打开Windows虚拟键盘   java有没有递归调用findMatch的方法?   java Pig脚本/命令,用于根据多个字符串筛选文件   java最小数量应匹配,应与POST匹配   java打开/关闭声音按钮不工作   Java嵌入式数据库持久性   java在方法调用时引发异常   java文本文件被覆盖而不是保存的问题   java Hibernate sql注释