在示例cnv调用中

wisestork的Python项目详细描述


构建状态codecovdoiWisecondor程序。 其最初的目的是检测三体和较小的CNV 使用低覆盖WGS的母体血浆样本。

WiseStork增加了对小型垃圾箱的实用支持, 而且对于常规的wgs和外显子组测序也很有用。

为了全面了解与原来的WiseCondor的区别, 参见章节差异。

安装

PYPI

从pypi安装wisestork,方法很简单:

pip install wisestork

手动(开发版本)

需要以下系统依赖项

  • 巨蟒3.5+

此外,还需要以下python包:

  • 努比
  • matplotlib
  • 生物圈
  • 统计模型
  • sklearn
  • 皮萨姆
  • Pyfaidx
  • 单击

建议您使用virtualenv。

要安装WiseStork,创建一个virtualenv,安装python 使用pip install-r requirements.txt的需求,然后运行 python setup.py开发

输入

WiseStork将BAM文件作为输入。必须为这些BAM文件编制索引。

另外,您必须提供一个引用fasta文件,它应该 同样,使用samtools faidx<;fasta>;索引

运行

典型的工作流从BAM文件开始。那些bam文件必须是 排序和索引。

WiseStork分析的第一步是计数步骤。这个 生成每个bin的读取计数,并将其写入bed文件。这个 命令,如下所示:

wisestork count-i<;input.bam>;-r<;fasta.fa>;-o<;out.bed>;-b<;binszise>;

-b标志可以省略:wisestork默认为50kb的binsize。 但是,您可能需要不同的箱子大小。

一旦你有了盘点床文件,我们必须纠正GC偏差。这个 命令如下:

wisestork gc correct-i<;input.bed>;-r<;fasta.fa>;-o<;out.gc.bed>;-b<;binsize>;

下一步,我们需要对结果进行bgzipped和tabixed,这样您就可以 必须执行bgzip<;out.gc.bed>&;tabix-pbed<;out.gc.bed.gz>;

最后一步,zscore步骤计算每个箱子的z分数。 它要求您事先生成一个参考字典。 再次创建z-scores的命令看起来与 前两个:

wisestork zscore-i<;input.bed.gz>;-r<;fasta.fa>;-o<;out.z.bed>;-d<;dictionary.bed.gz>;-b<;binsize>;

用户提供的箱子

除了为每个步骤提供binsize,还可以提供 bin文件。这个文件应该是一个(最好是分类的)带有区域的床文件 存在于输入BAM文件中的。此选项主要用于 wes分析,bin文件将在哪里更正响应目标/诱饵区域 文件。请注意,contigs必须与 输入BAM文件。

您可以为任何子命令使用-l标志来提供bin文件。 这将取代-b标志的任何用法。

创建引用词典

以上假设您已经创建了一个引用字典。 如果不是这样,则必须生成此文件。

要创建引用字典,需要更正一组gc 常规样本的bed文件(来自wisestork gc correct),并输入 要wisestork newref。rewref命令将找到最近的 每个垃圾箱的邻居。稍后,在zscore命令中, 信息用于从查询中获取一组"引用容器" 样品:

要使用的命令:

wisestork newref-i<;input.gz.bed>;-i<;input2.gz.bed>;[…]-o<;out.ref.bed>;-r<;fasta.fa>;-b<;binsize>;

这个的输出必须用bedtools排序,然后bgzipped 和tabixed。

用法

Usage: wisestork [OPTIONS] COMMAND [ARGS]...

  Discover CNVs from BAM files.

  A typical workflow first extracts regions from a BAM file
  The resulting BED tracks must then be GC-corrected.
  Using a reference track of region similarity,
  One can then calculate Z-scores for every region.

  The following sub-commands are supported:
   - count: count coverage per bin
   - gc-correct: GC-correct bins
   - zscore: calculate Z-scores
   - newref: Generate a new reference dictionary of bin similarities

Options:
  --version  Show the version and exit.
  --help     Show this message and exit.

Commands:
  count       Count coverages
  gc-correct  GC correct
  newref      Create new reference
  zscore      Calculate Z-scores

您可以通过键入wisestork<;command>;--help来获得其他帮助

差异

这种重新实现之间有几个重要的区别 和原来的怀斯康多尔。

  • 这个重新实现被组织为一个普通的python包, 同时公开几个命令行工具。
  • 支持Python3。实际上,它只在Python3上测试过。
  • 现在,所有命令行工具都具有unix风格的参数解析功能
  • 现在可以在 更少的时间。
  • pickle文件不再使用。输出格式现在是普通床, 可能还有一列。这意味着结果可以由 常见的下游工具,如床具。
  • 用户提供的常规床格式的BIN文件。
  • countgc步骤现在是多余的。其功能现已集成 在GCC步骤中。
  • 修改了参考仓选择方法。这个 最初的怀斯康德计算了每一个垃圾箱与每一个垃圾箱之间的差异 每个样本的箱,然后对每个 染色体.因为这是一个指数运算,所以 参考仓选择速度太慢,占用内存太多 小箱子。新方法代替了计算差异 在所有样本的同一个容器上应用一种方法(如中值法)。 然后对结果箱列表进行排序。类似的箱子可以是 使用常规列表切片选择。这意味着时间的复杂性 创建一个新的引用集现在只是loglinear。附加的 过滤器保持不变。
  • 使用statsmodelslowess函数,而不是biopython函数。 这将显著加快GC校正速度。

命名

你可能会想,为什么要给这个工具起名叫怀斯托克? 嗯,秃鹰是一种鸟。因为这是 聪明的秃鹰,我想另一只鸟会是个好名字。我住在海牙, 海牙有一只鹳作为城市的象征,我把一只和一只放在一起。 因此,怀斯托克诞生了。

许可证

GPLV3

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JPA。Eclipselink没有为mySQL提供密码,但它应该提供   我的Servlet和@FormDataParam存在java问题   java将什么作为上下文参数传递到文件I/O方法中?   如果两个值相同,java无法找到其中一个单选按钮   java在变量和方法名中使用下划线   JavaSpringMVC单线程安全?   klazz类的java Arraylist(反射Api)   java如何在数字字符串中查找最频繁的数字?   JavaAPI设计:使数据更易于阅读与强制更多API调用   JavaHadoopMapReduceforGoogleWebGraph   java无法启动gauge API:Runner意外退出   java如何在bluemix上使用ibm工作负载调度器?   拉取一年中某一周特定日期的所有日期   java为什么是我的角节点。js应用程序将图像上传到S3� 邮递员正确上传时的符号?   在不使用任何第三方jar的情况下将文件从本地传输到linux系统(java代码)   java将现有文件夹复制到Eclipse工作区中新创建的项目中   Java中的regex RegExp帮助   当使用“系统”外观时,Java组合框setSelectedItem会出现故障   JavaASM:在类的方法中获取局部变量名和值