支持基因组和亚基因组分析的工具

genome-grist的Python项目详细描述


以基因组grist为基础的启赋亚全基因组研究

PyPILicense: 3-Clause BSD

简言之

基因组grist自动化了许多基于基因组的任务 元基因组解释。在

基因组grist的一个关键点是:我们可以利用 sourmash gather 找到一组最小的基因组来映射元基因组读数。 genome grist会自动处理所有的事情!在

因此,genome-grist是一个用于执行以下操作的工具箱:

  1. 下载元基因组
  2. 把它处理成裁剪好的读物,并生成一个sourmash signature
  3. 在sourmash数据库(例如genbank的所有数据库)中使用“gather”搜索sourmash签名
  4. 从genbank下载匹配的基因组
  5. 使用小地图将所有的亚基因组读数映射到基因组
  6. 基于聚集迭代地提取匹配的读取,依次消除与先前聚集匹配匹配的读取
  7. 运行“剩余”读取到基因组的映射
  8. 汇总所有映射结果

安装

命令:

python -m pip install genome-grist

将安装最新版本。请使用python3.7或更高版本。我们建议 使用隔离的conda环境;以下命令应该适用于 条件:

^{pr2}$

快速入门:

运行以下三个命令。在

首先,下载SRA示例HSMA33MX,修剪reads,并构建一个sourmash 签字:

genome-grist process HSMA33MX smash_reads

接下来,对genbank运行sourmash签名:

genome-grist process HSMA33MX gather_genbank

(请注意,这取决于genbank最新的基因组,对大多数人都不起作用 目前,人们使用的是来自回购的缓存结果:

cp tests/test-data/HSMA33MX.x.genbank.gather.csv outputs/genbank/
touch outputs/genbank/HSMA33MX.x.genbank.gather.out

最后,下载参考基因组,阅读地图并生成摘要 报告:

genome-grist process HSMA33MX summarize -j 8

(您可以在repo中使用make test运行上述所有操作。)

摘要报告将位于outputs/reports/report-HSMA33MX.html。在

您可以在线查看此数据集和其他数据集的一些示例报告:

计算需求

您将需要足够的磁盘空间来存储大约5个raw副本 亚基因组。在

内存需求的峰值在k-mer微调和sourmash中 集合脚步。您可能需要30到60 GB的内存 尽管对于较小或不太多样化的基因组,您将使用 少了很多。在

全套顶级目标

  • 下载阅读
  • trim_读取
  • 斯梅什读到
  • 收集钱库
  • 下载匹配的基因组
  • 地图显示
  • 总结

支持

genomegrist是α级软件。请耐心和善良:)。在

请提问并添加评论 by filing github issues。在

为什么叫grist?在

“grist”属于sourmash家族的名字(sourmash,麦汁, 酿酒猫等)见 Grist。在

(它不是 computing grist!)在


CTB 2020年11月8日

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何使用JDOM设置布尔字段   java准备语句和语句/查询缓存   java Jpanel与JFrame菜单栏重叠   java比较两个JodaTime DateTime对象   java为什么Android Room@Query LIKE不返回已知存在的数据   使用Java和COM4J的Quality Center V11脚本统计   java获取当前登录用户的详细信息   如果页面上存在元素,如何在控制台中显示   java在GUI不更新信息时使用SWING和多线程处理GUI   java LOG4J2 RollingFile Appender未写入文件   java“new TextToSpeech.OnInitListener()”的颜色不鲜艳,这表明它没有被使用,如何使其可用?   java在paint方法中绘制形状   JAVA木卫一。文件旅游目的地?   java Struts2 dojo锚定标记不起作用?   java JavaFX ObservalElist和提取器更新事件在应该时未触发