simlord是一个读取模拟器,用于从第三代测序中进行长时间读取,目前专注于太平洋生物科学smrt错误模型。

simlord的Python项目详细描述


Simlord是第三代测序读取的读取模拟器, 目前主要研究太平洋生物科学SMRT误差模型。

从提供的或随机的 生成的引用序列。

功能

  • 引用可以从fasta文件中读取,也可以随机生成 具有给定的GC内容。它可以由几个染色体组成 结构在图纸读取时得到尊重。(基因组模拟 重新安排可在后期进行。)
  • 读取长度可以通过四种方式确定:从 对数正态分布(典型的基因组DNA),从 现有的FASQ文件(典型的RNA),从一个文本文件中取样 使用整数(RNA),或使用固定长度
  • 质量值和通过次数取决于片段长度。
  • 如果子读取错误概率是根据数字修改的 通过次数
  • 以fastq格式读取输出,以sam格式对齐

系统要求

我们建议使用 miniconda和 为Simlord创造环境

# Create and activate a new environment called simlord
conda create -n simlord python=3 pip numpy scipy cython
source activate simlord

# Install packages that are not available with conda from pip
pip install pysam
pip install dinopy
pip install simlord

# You now have a 'simlord' script; try it:
simlord --help

# In case of a new version update as follows:
pip install simlord --upgrade

# To switch back to your normal environment, use
source deactivate

平台支架

simlord是一个纯python程序。这意味着它在任何 python 3和其他包所针对的操作系统(os) 可用。

示例用法

示例1:模拟引用ref.fasta的10000次读取,使用 模拟和存储读取的默认选项myreads.fastq 以及myreads.sam中的对齐方式。

simlord  --read-reference ref.fasta -n 10000  myreads

示例2:生成一个引用,其中包含1000万个基GC内容0.6 (即C和G的概率均为0.3;因此A和G的概率均为0.2 和t),将引用存储为random.fasta,并模拟10000次读取 使用默认选项时,存储读取为myreads.fastq,不存储 对准。

simlord --generate-reference 0.6 10000000 --save-reference random.fasta\
        -n 10000 --no-sam  myreads

示例3:使用 固定读取长度5000和自定义子读取错误概率(12% 插入,12%删除,2%替换)。与以前一样,保存读取为 myreads.fastqmyreads.sam

simlord --read-reference reference.fasta  -n 10000 -fl 5000\
        -pi 0.12 -pd 0.12 -ps 0.02  myreads

可以找到参数的完整列表及其文档here

上次更改

1.0.2版(2017-03-17)

新功能

  • 绘制染色体,使其与长度加权,而不是均匀分布。这将导致染色体上的平均分布读覆盖率。以前每个染色体的概率相等的行为可以通过参数-一致的染色体概率来激活。
  • 参数-覆盖率:根据整个参考基因组的期望读取覆盖率来确定读取次数。
  • 参数–不带ns:sample只从完全不带ns的区域读取数据。

警告:根据不带ns的contigs的大小和预期的readlength,使用–不带ns可能导致有偏的读取覆盖率。

bugs已修复

  • 由于删除后的错误扩展,雪茄字符串有时错误地计算了最后一个匹配项。

1.0.1版(2017-01-03)

bugs已修复

  • 删除参数处的Nargs=1–更改参数时导致错误的概率阈值。

1.0.0版(2016-07-13)

api更改

  • 将sam文件中的seq更改为反向补码读取,而不是映射到引用的反向补码的原始读取。

示例:

reference       ATCG     read   CAAT
true alignment  ||X|
                ATTG

Before: SEQ CAAT and CIGAR string 2=1X1=
Now:    SEQ ATTG and CIGAR string 2=1X1=

许可证

simlord是开源的,并在MIT License下获得许可。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
netbeans根据命名约定返回布尔类的getter的Java名称   java如何在MessageFormat中使用单引号   java如何在整数数组中只对奇数排序,而将偶数保留在其原始位置?   自定义ArrayAdapter中未定义java构造函数   java joda时间格式化程序解析yyyyymmdd(额外一小时)   java Spring引导控制器测试始终返回404   java如何提取类文件以获取该类文件中的类?   JTable java列不会显示   java Selenium Web驱动程序输出错误的Web表行数   当应用程序在mac上打开时,java SWT选项卡项会从页面上消失   java如何将html文件映射到过滤器   swing Java计算一段时间内两点之间的转换   javawebsphere和javax。xml。ws。spi。提供者:提供者组织。阿帕奇。axis2。jaxws。spi。提供者不是子类型   For循环在Java中没有按预期继续?   java如何配置gson以排除0个整数值   java读取一个由tab分隔的文件,并将单词放入ArrayList中   java我需要做什么才能让LiveConnect重新工作?   sqlservermerge2xml&使用java提取这些数据并将其存储在db表中   java如何在模型中添加新对象时通知网格