支持基因组和亚基因组分析的工具
genome-grist的Python项目详细描述
以基因组grist为基础的启赋亚全基因组研究
简言之
基因组grist自动化了许多基于基因组的任务 元基因组解释。在
基因组grist的一个关键点是:我们可以利用 sourmash gather 找到一组最小的基因组来映射元基因组读数。 genome grist会自动处理所有的事情!在
因此,genome-grist
是一个用于执行以下操作的工具箱:
- 下载元基因组
- 把它处理成裁剪好的读物,并生成一个sourmash signature
- 在sourmash数据库(例如genbank的所有数据库)中使用“gather”搜索sourmash签名
- 从genbank下载匹配的基因组
- 使用小地图将所有的亚基因组读数映射到基因组
- 基于聚集迭代地提取匹配的读取,依次消除与先前聚集匹配匹配的读取
- 运行“剩余”读取到基因组的映射
- 汇总所有映射结果
安装
命令:
python -m pip install genome-grist
将安装最新版本。请使用python3.7或更高版本。我们建议 使用隔离的conda环境;以下命令应该适用于 条件:
^{pr2}$快速入门:
运行以下三个命令。在
首先,下载SRA示例HSMA33MX,修剪reads,并构建一个sourmash 签字:
genome-grist process HSMA33MX smash_reads
接下来,对genbank运行sourmash签名:
genome-grist process HSMA33MX gather_genbank
(请注意,这取决于genbank最新的基因组,对大多数人都不起作用 目前,人们使用的是来自回购的缓存结果:
cp tests/test-data/HSMA33MX.x.genbank.gather.csv outputs/genbank/
touch outputs/genbank/HSMA33MX.x.genbank.gather.out
)
最后,下载参考基因组,阅读地图并生成摘要 报告:
genome-grist process HSMA33MX summarize -j 8
(您可以在repo中使用make test
运行上述所有操作。)
摘要报告将位于outputs/reports/report-HSMA33MX.html
。在
您可以在线查看此数据集和其他数据集的一些示例报告:
- HSMA33MX report
- Illumina metagenome from Shakya et al., 2014)(ref)
- sample 1 from Hu et al., 2016 (oil well metagenome)(ref)
计算需求
您将需要足够的磁盘空间来存储大约5个raw副本 亚基因组。在
内存需求的峰值在k-mer微调和sourmash中 集合脚步。您可能需要30到60 GB的内存 尽管对于较小或不太多样化的基因组,您将使用 少了很多。在
全套顶级目标
- 下载阅读
- trim_读取
- 斯梅什读到
- 收集钱库
- 下载匹配的基因组
- 地图显示
- 总结
支持
genomegrist是α级软件。请耐心和善良:)。在
请提问并添加评论 by filing github issues。在
为什么叫grist
?在
“grist”属于sourmash家族的名字(sourmash,麦汁, 酿酒猫等)见 Grist。在
(它不是 computing grist!)在
CTB 2020年11月8日
- 项目
标签: