“genbank基因组的自动化质量控制。”

GenBankQC的Python项目详细描述


https://api.travis-ci.org/andrewsanchez/GenBankQC.svg?branch=master

genbank质量控制

完整的文档保存在genbank-qc.readthedocs.io。这是一项正在进行的工作。

genbankqc致力于解决公共数据库的质量控制问题,例如国家生物技术信息中心的GenBank。我们的目标是提供一个简单、高效、自动化的解决方案来评估基因组的质量。

Please note that GenbankQC is currently in alpha. As a proof of concept for a specific use case, it currently has limitations that users should be aware of. If there is interest, we will address the issues to make it more convenient to use. Please see caveats for more details.

功能

  • 标签/注释独立质量控制基于:
    • 简单指标
    • 利用MASH
    • 估计基因组距离
  • 标记潜在的异常值,以排除它们对管道的污染

genbankqc工作流程包括以下步骤:

  1. 基于以下指标为每个基因组生成统计信息:
    • 未知碱基数
    • 控件数
    • 装配尺寸
    • 与其他基因组相比的平均MASH距离
  2. 基于这些统计数据标记潜在异常值:
    • 包含一定数量以上未知碱基的标记基因组。
    • 基于中位数绝对偏差将基因组标记在范围之外。
      • 适用于容器数量和装配尺寸
    • 标记距离大于绝对偏差中值上端的基因组。
  3. 用彩色编码树可视化结果

使用量

genbankqc /path/to/genomes
open /path/to/genomes/Escherichia_coli/qc/200_3.0_3.0_3.0/tree.svg

安装

如果您还没有一个功能性的conda环境,请下载并安装Miniconda

conda create -n genbankqc -c etetoolkit -c biocore pip ete3 scikit-bio

source activate genbankqc

pip install genbankqc

注意事项

对于文件名有一些任意的硬编码限制。这是因为该项目最初是作为ncbi工具包(NCBITK)的一部分开始的,我们使用该工具包从ncbi下载基因组。ncbitk生成genbankqc当前期望的特定目录结构和文件命名方案。

如果您希望使用genbankqc而不使用ncbitk,那么所需的只是文件名与python正则表达式re.compile('.*(GCA_\d+\.\d.*)(.fasta)')匹配。您可以按照我在pythex.org上的示例快速测试这一点。

https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java的单元测试测试用例库。util。列出实现   java通过超类进行序列化/反序列化   java Android获取设备语言ISO字符串   java如何打开广告的行动。移动   Eclipse IDE for(嵌入式C/C++)开发者202012:经典的深色主题深黑色背景和菜单中的文本   java使用不同的内容动态创建TableView(JavaFX)   java JAXB将多个同名节点解组   java ClassDefNotFoundException,即使类由类加载器加载(服务器上安装了多个应用程序)   java有没有办法关闭在后端生成的MqttClient线程?   html如何在网站上的java小程序中包含图像?   java无法访问已分配给超类引用的子类实例变量   java在TableViewer中双击打开对话框   列出如何创建ListNode。JAVA   java如何从文本中输出的数组中放入随机图像