在示例cnv调用中
wisestork的Python项目详细描述
Wisecondor程序。 其最初的目的是检测三体和较小的CNV 使用低覆盖WGS的母体血浆样本。
WiseStork增加了对小型垃圾箱的实用支持, 而且对于常规的wgs和外显子组测序也很有用。
为了全面了解与原来的WiseCondor的区别, 参见章节差异。
安装
PYPI
从pypi安装wisestork,方法很简单:
pip install wisestork
手动(开发版本)
需要以下系统依赖项
- 巨蟒3.5+
此外,还需要以下python包:
- 努比
- matplotlib
- 生物圈
- 统计模型
- sklearn
- 皮萨姆
- Pyfaidx
- 单击
建议您使用virtualenv。
要安装WiseStork,创建一个virtualenv,安装python
使用pip install-r requirements.txt的需求,然后运行
python setup.py开发
输入
WiseStork将BAM文件作为输入。必须为这些BAM文件编制索引。
另外,您必须提供一个引用fasta文件,它应该
同样,使用samtools faidx<;fasta>;
索引
运行
典型的工作流从BAM文件开始。那些bam文件必须是 排序和索引。
WiseStork分析的第一步是计数
步骤。这个
生成每个bin的读取计数,并将其写入bed文件。这个
命令,如下所示:
wisestork count-i<;input.bam>;-r<;fasta.fa>;-o<;out.bed>;-b<;binszise>;
-b
标志可以省略:wisestork默认为50kb的binsize。
但是,您可能需要不同的箱子大小。
一旦你有了盘点床文件,我们必须纠正GC偏差。这个 命令如下:
wisestork gc correct-i<;input.bed>;-r<;fasta.fa>;-o<;out.gc.bed>;-b<;binsize>;
下一步,我们需要对结果进行bgzipped和tabixed,这样您就可以
必须执行bgzip<;out.gc.bed>&;tabix-pbed<;out.gc.bed.gz>;
最后一步,zscore
步骤计算每个箱子的z分数。
它要求您事先生成一个参考字典。
再次创建z-scores的命令看起来与
前两个:
wisestork zscore-i<;input.bed.gz>;-r<;fasta.fa>;-o<;out.z.bed>;-d<;dictionary.bed.gz>;-b<;binsize>;
用户提供的箱子
除了为每个步骤提供binsize,还可以提供 bin文件。这个文件应该是一个(最好是分类的)带有区域的床文件 存在于输入BAM文件中的。此选项主要用于 wes分析,bin文件将在哪里更正响应目标/诱饵区域 文件。请注意,contigs必须与 输入BAM文件。
您可以为任何子命令使用-l
标志来提供bin文件。
这将取代-b
标志的任何用法。
创建引用词典
以上假设您已经创建了一个引用字典。 如果不是这样,则必须生成此文件。
要创建引用字典,需要更正一组gc
常规样本的bed文件(来自wisestork gc correct
),并输入
要wisestork newref
。rewref命令将找到最近的
每个垃圾箱的邻居。稍后,在zscore命令中,
信息用于从查询中获取一组"引用容器"
样品:
要使用的命令:
wisestork newref-i<;input.gz.bed>;-i<;input2.gz.bed>;[…]-o<;out.ref.bed>;-r<;fasta.fa>;-b<;binsize>;
这个的输出必须用bedtools排序,然后bgzipped 和tabixed。
用法
Usage: wisestork [OPTIONS] COMMAND [ARGS]...
Discover CNVs from BAM files.
A typical workflow first extracts regions from a BAM file
The resulting BED tracks must then be GC-corrected.
Using a reference track of region similarity,
One can then calculate Z-scores for every region.
The following sub-commands are supported:
- count: count coverage per bin
- gc-correct: GC-correct bins
- zscore: calculate Z-scores
- newref: Generate a new reference dictionary of bin similarities
Options:
--version Show the version and exit.
--help Show this message and exit.
Commands:
count Count coverages
gc-correct GC correct
newref Create new reference
zscore Calculate Z-scores
您可以通过键入 这种重新实现之间有几个重要的区别
和原来的怀斯康多尔。 你可能会想,为什么要给这个工具起名叫怀斯托克?
嗯,秃鹰是一种鸟。因为这是
聪明的秃鹰,我想另一只鸟会是个好名字。我住在海牙,
海牙有一只鹳作为城市的象征,我把一只和一只放在一起。
因此,怀斯托克诞生了。 GPLV3wisestork<;command>;--help来获得其他帮助
差异
statsmodels
lowess函数,而不是biopython函数。
这将显著加快GC校正速度。命名
许可证
推荐PyPI第三方库