一个从纳米孔测序数据增强SNV调用的补充工具。
snvoter的Python项目详细描述
投票人
从低覆盖率纳米孔测序数据(30倍)改进SNV检测。在
安装
使用pypi存储库。在
pip install snvoter
来源。在
^{pr2}$创建专门的康达环境
snvotter使用其依赖项的几个固定版本。鼓励用户 使用conda或类似环境将包与 默认python实例。GitHub中提供了一个环境文件 存储库。在
git clone https://github.com/vahidAK/SNVoter.git
conda env create -f SNVoter/env/environment.yaml
conda activate snvoter
教程
变量调用
首先需要使用Clair调用变量
您可以使用以下命令和 连接所有文件:
for i in chr{1..22} chrX chrY; do callVarBam --chkpnt_fn <path to model file> --ref_fn <reference_genome.fa> --bam_fn <sorted_indexed.bam> --ctgName $i --sampleName <your sample name> --call_fn $i".vcf" --threshold 0.2 --samtools <path to executable samtools software> --pypy <path to executable pypy > --threads <number of threads>
完整教程请参考Clair GitHub上的页面。在
使用克莱尔的改进型sn呼叫:
snvoter prediction -i <SNVs_Clair.vcf> -b <sorted_indexed.bam> -mf <path to model file (model.h5)> -r <reference_genome.fa> -t number_of_threads -o output_prefix
它将生成两个文件。在
1-预测文件,包括每个5-mer的每个预测。前10名 列来自vcf文件,最后七列表示:
- chrom:染色体名
- pos_start:从0开始的5-mer开始位置
- pos_end:5-mer端的基于0的位置
- pos:基于0的SNV位置
- 5-mer序列:5-mer序列
- Coverage:这可能与Clair的Coverage不同 snvotter使用不同的映射质量阈值
- 预测
第二个文件是具有加权质量的现成vcf文件。你可以策划 加权质量的分布以获得最佳的滤波阈值。 曲线图通常如下所示: ^{1}$
最佳阈值是第一个峰值的结束和谷的开始 (突出显示的区域)。在
训练一个新的模型
- 项目
标签: