多样本覆盖率浏览器
covviz的Python项目详细描述
covviz
覆盖可视化;多示例覆盖率浏览器。
covviz
的目的是突出有意义的区域
(通过用户的z-score阈值)并持续(超过用户指定的
距离)与大多数样品的偏差。重要性已确定
使用所有点的所有样本的z-得分,使用中位数绝对偏差,
但要突出重点,要点必须是连续的
通过用户指定的距离。
如果你分析的样本数量很少,偏差可能就无关紧要了。在
在这种情况下,我们可以将--min-samples
设置为大于样本总数
跳过z阈值计算并绘制所有样本的覆盖率
要点。
python包
covviz
可通过pip install -U covviz
安装并分析BED3+
输出格式。
用法
要分析覆盖率数据,它需要采用bed3+格式,并包括 带有样本ID的标题。前三列标题是不可知的,但是 对于样本test_sample1、test_sample2和test_sample3,如下所示:
#chrom start end test_sample1 test_sample2 test_sample3
那么cli的用法是:
covviz $bed
自定义元数据(.ped)
支持非indexcov.ped文件,但可能需要更改 与包含示例ID的列相关的默认列ID 以及样本的性别。
covviz --ped $ped --sample-col sample_col --sex sex_col $bed
下一个工作流
如果从对齐索引开始,此工作流旨在 获取覆盖率并生成覆盖率浏览器的过程。
我们用indexcov 为了快速估计样本的覆盖率然后找到大的区域, 基于覆盖的异常。
然后将indexcov
的输出直接输入到covviz
。
用法
安装nextflow
:
curl -s https://get.nextflow.io | bash
完整的NextFlow安装说明可在以下位置获得: https://www.nextflow.io/
为了简化必备的软件安装和软件版本跟踪,
我们强烈建议使用docker或singularity运行covviz
。码头工人
有关操作系统的安装说明,请访问:
https://docs.docker.com/install/
然后,使用Docker或Singularity我们运行:
nextflow run brwnj/covviz -latest -profile docker \
--indexes 'data/indexes/*.crai' \
--fai data/g1k_v37_decoy.fa.fai \
--gff data/Homo_sapiens.GRCh37.82.gff3.gz
这给了我们./results/covviz_report.html
。
必需参数
--indexes
- 带通配符('*.crai')的带引号的文件路径,用于CRAM或BAM索引
--fai
- .fai引用索引的文件路径
--gff
- gff匹配基因组构建的文件路径
--indexes
- gff匹配基因组构建的文件路径
工作流选项
--outdir
- 结果的输出目录
- 默认值:“./results”
--sexchroms
- 性染色体在
--indexes
- 默认值:“X,Y”
- 性染色体在
--exclude
- 染色体的正则表达要跳过
- 默认值:“^gl ^hs ^chrebv$m$mt$^nc{em1}$random$un^hla-u alt$hap\d+$”
--zthreshold
- 样本必须大于此多个标准差,才能发现显著性
- 默认值:3.5
--distancethreshold
- 连续有效点必须跨越此距离才能通过此筛选
- 默认值:150000
--slop
- 将前导段和尾随段添加到有效区域以使其更可见
- 默认值:500000
--ped
- 将与indexcov的.ped输出合并的自定义元数据
- 默认值:false
--samplecol
- 自定义PED文件中示例ID的列标题
- 默认值:“sample_id”
报告
交互式示例
见:https://brwnj.github.io/covviz/
染色体比例覆盖率
重要区域将以颜色显示在灰色区域的顶部 表示给定点的上下限减去任何值 被认为是重要的。
绘制较少的样本时比--min-samples
,灰色区域图
将不显示。相反,将显示所有采样点轨迹。
覆盖比例
元数据表将显示在绘图下面。
相互作用
单击plot traces将亮显该行并搜索元数据。 双击“取消选择线”,重置绘图,然后取消选择 桌子上的样品。点击基因轨迹启动搜索 基因的基因卡。在基因重叠的情况下, 将打开多个窗口/选项卡。
许可证
covviz是免费和不受限制的非商业用途。用于商业用途, 请联系[bpedersen@base2genomics.com]。