用于ngs对齐文件的质量控制工具
ezBAMQC的Python项目详细描述
“ezbamqc,一个检查映射的下一代测序文件质量的工具。”
Codeology Icon: | |
---|---|
Description: | ezBAMQC is a tool to check the quality of either one or many mapped next-generation-sequencing datasets. It conducts comprehensive evaluations of aligned sequencing data from multiple aspects including: clipping profile, mapping quality distribution, mapped read length distribution, genomic/transcriptomic mapping distribution, inner distance distribution (for paired-end reads), ribosomal RNA contamination, transcript 5’ and 3’ end bias, transcription dropout rate, sample correlations, sample reproducibility, sample variations. It outputs a set of tables and plots and one HTML page that contains a summary of the results. Many metrics are designed for RNA-seq data specifically, but ezBAMQC can be applied to any mapped sequencing dataset such as RNA-seq, CLIP-seq, GRO-seq, ChIP-seq, DNA-seq and so on. |
Links: | |
Authors: | Ying Jin, David Molik, and Molly Hammell |
Version: | 0.6.7 |
Contact: | Ying Jin (yjin@cshl.edu) |
用于源安装的ezbamqc的安装指南
安装EZBAMQC时,有几个选项,但主要的要点是:由于EZAMQQC使用C++ STD 11,您需要一个GCC版本,可以支持这一点,这意味着4.8或4.9。除此之外,您还需要python、r和corrplot来与c代码交互。
Intallation: | |
---|---|
Prerequisites: |
|
Notes: |
|
设置
- 确保GCC Comiler在您的路径中:
export PATH=/path/to/gcc:$PATH
- 确保python2.7在您的pythonpath中:
export PYTHONPATH=/path/to/python2.7/site-packages:$PYTHONPATH
- 安装ezbamqc有三种方法,分别来自source、setup.py和pypi,前提条件一旦设置好。
来源
- 下载源代码
- 打开tarball并转到包的目录:
tar xvfz bamqc-0.6.7.tar.gz cd bamqc-0.6.7
- 运行make:
make
从setup.py
python2.7 setup.py install
来自Pypi
pip2.7 install BAMqc
用法
ezBAMQC [-h] -i alignment_files [alignment_files ...] -r [refgene] [-f [attrID]] [--rRNA [rRNA]] -o [dir] [--stranded [stranded]] [-q [mapq]] [-l labels [labels ...]] [-t NUMTHREADS]
可选参数:
-h, --help show this help message and exit. -i, --inputFile alignment files. Could be multiple SAM/BAM files separated by space. Required. -r, --refgene gene annotation file in GTF format. Required -f the read summation at which feature level in the GTF file. DEFAULT: gene_id. --rRNA rRNA coordinates in BED format. -o, --outputDir output directory. Required. --stranded strandness of the library? yes : sense stranded reverse : reverse stranded no : not stranded DEFAULT: yes. -q, --mapq Minimum mapping quality (phred scaled) for an alignment to be called uniquely mapped. DEFAULT:30 -l, --label Labels of input files. DEFAULT:smp1 smp2 ... -t, --threads Number of threads to use. DEFAULT:1
示例:
ezBAMQC -i test-data/exp_data/treat1.bam test-data/exp_data/treat2.bam test-data/exp_data/treat3.bam -r test-data/exp_data/hg9_refGene.gtf -q 30 --rRNA test-data/exp_data/hg19_rRNA.bed -o exp_output2 Please find the example output from folder test-data.
演示
想先试试Ezbamqc再试试吗?现在,您可以使用我们的Yabi Demo上托管的工具演示来执行此操作。
To login use username and password: |
---|
|
登录屏幕、用户名和密码位于右上角。
在“设计”框架中,使用“全部显示”按钮使ezbamqc工具可见。
在ezbamqc工具页面中,从s3实例中选择适当的文件或上载自己的文件。
A note on Yabi, Yabi was created by the Centre For Comparative Genomics, https://ccg.murdoch.edu.au/ . You can check our their more extensive Yabi Demo, https://ccgapps.com.au/yabi/ or their Yabi Wiki, https://bitbucket.org/ccgmurdoch/yabi/wiki/Home for more information.
常见问题解答
问:为什么使用ezbamqc?
A:Ezbamqc高效易用。在一个命令行中,它用一组图和表来报告对数据的综合评估,这种评估多个样本的能力和高效性使它特别适用于有大量来自相同条件、基因型或治疗的样本的情况。EZBAMQC是用C++编写的,支持多线程。一个120m比对的小鼠rna序列样本可以在8分钟内用5条线完成。
问:为什么ezbamqc报告的读取总数与samtools flagstat不匹配?
答:区别在于非唯一映射读取或多重对齐读取(多重读取)。samtools flagstat将每个多个对齐计数为不同的读取,但是ezbamqc根据读取id对读取计数,即,无论是唯一映射读取还是多个读取,每个单独的读取都将计数一次。
问:什么是“低质量阅读”?
答:标记为qc的读取无法符合sam格式,或映射质量低于选项设置值的读取-q将被视为“低质量读取”。
问:选项-q的设置如何改变结果?
A:低质量的读取,即没有通过-Q截止,仅通过映射质量图计算在总读取、映射读取和可映射性中。报告的其余部分不包括低质量的阅读。
问:在阅读分布和基因量化中是否考虑了多重阅读(非唯一映射阅读)?
A:没有。只计算唯一映射的读取数。
致谢
- samtools贡献者
- 用户的宝贵反馈
复制和分发
ezbamqc是免费软件:您可以重新分发和/或修改它 根据由 自由软件基金会,或者许可证的第3版,或者 (由您选择)任何更高版本。
这个程序的发布是希望它能有用, 但是没有任何保证,甚至没有 {EM1}适销性或适合特定用途的EEM>。见 GNU MOR通用公共许可证e细节。
你应该收到GNU通用公共许可证的副本 以及Ezbamqc。如果没有,请参见this website